Alibaba-AAIG/Octopus-SEval-14B on vLLM-Ascend

1. 简介

Octopus-SEval-14B 是一个基于 Qwen2-14B 的安全评估大语言模型，由 Alibaba AAIG 团队开发。该模型专注于 LLM 输出的安全审计，能够识别八类风险维度（违法犯罪、网络安全、数据隐私、伦理道德、身心健康、仇恨言论、极端主义、不当建议）。

2. 验证环境

组件	版本
硬件	Ascend 910 NPU x 2
CANN	内置
`vllm-ascend`	`0.18.0rc1`
`vllm`	`0.18.0+empty`
`transformers`	`5.8.1`
`torch-npu`	`2.9.0.post1+gitee7ba04`
`Python`	`3.11.14`

3. 服务启动

vllm serve /path/to/Octopus-SEval-14B \
  --dtype bfloat16 \
  --port 8000 \
  --max-model-len 4096 \
  --trust-remote-code \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.9

4. Smoke 验证

基础检查：

# 检查服务状态
curl -sf http://127.0.0.1:8000/v1/models

# 发送推理请求
curl -s http://127.0.0.1:8000/v1/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "/path/to/Octopus-SEval-14B",
    "prompt": "say hi",
    "temperature": 0,
    "max_tokens": 16
  }'

验证结果：

/v1/models 返回 200
/v1/completions 正常返回生成文本

5. 性能参考

指标	数值
平均响应时间	0.505 秒
测试次数	5 次
输入长度	2 tokens
输出长度	16 tokens
硬件	Ascend 910 NPU (单卡)

7. 注意事项

模型基于 Qwen2 架构，使用 bfloat16 精度推理
模型约 14B 参数，需要约 28GB+ NPU 显存
如果使用 chat/completions 接口，需注意模型的特殊 chat template（安全评估格式）
推荐使用 completions 接口进行常规推理
使用 ModelScope SDK 下载模型

Ascend NPU 精度评测

NPU 推理验证：

指标	数值
测试用例数	3
匹配预期	0/3 (0%)
精度结论	❌ 不通过 — 3 个用例均未输出预期答案，且存在严重脱轨（off-topic）问题

输出详情：

#	输入	预期	实际输出	评价
1	1+1=?	2	输出 "2" 后继续自问自答（1+2=3, 2+2=4...）	❌ 部分正确后脱轨
2	中国的首都是哪里？	北京	输出选择题格式（A.北京 B.上海...），后接无关内容	❌ 格式异常，尾随无关内容
3	Hello, how are you?	I am fine	输出数学圆面积计算问题，完全无关	❌ 严重脱轨

分析： 模型在 NPU 上推理功能正常，但输出存在严重的重复/脱轨问题。1+1 输出 "2" 后自行生成后续问题；"中国的首都"输出选择题格式而非直接回答；英文问候输出完全不相关内容。这些问题属于模型推理参数（temperature、repetition_penalty 等）配置不当，或模型自身能力限制，非 NPU 推理精度问题。建议调整采样参数后重新评测。

1. 简介

相关获取地址：

组件

版本

硬件

Ascend 910 NPU x 2

CANN

内置

vllm-ascend

0.18.0rc1

vllm

0.18.0+empty

transformers

5.8.1

torch-npu

2.9.0.post1+gitee7ba04

Python

3.11.14

4. Smoke 验证

基础检查：

# 检查服务状态
curl -sf http://127.0.0.1:8000/v1/models

# 发送推理请求
curl -s http://127.0.0.1:8000/v1/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "/path/to/Octopus-SEval-14B",
    "prompt": "say hi",
    "temperature": 0,
    "max_tokens": 16
  }'

验证结果：

/v1/models 返回 200

/v1/completions 正常返回生成文本

指标

数值

平均响应时间

0.505 秒

测试次数

5 次

输入长度

2 tokens

输出长度

16 tokens

硬件

Ascend 910 NPU (单卡)

Ascend NPU 精度评测

NPU 推理验证：

指标	数值
测试用例数	3
匹配预期	0/3 (0%)
精度结论	❌ 不通过 — 3 个用例均未输出预期答案，且存在严重脱轨（off-topic）问题

输出详情：

#	输入	预期	实际输出	评价
1	1+1=?	2	输出 "2" 后继续自问自答（1+2=3, 2+2=4...）	❌ 部分正确后脱轨
2	中国的首都是哪里？	北京	输出选择题格式（A.北京 B.上海...），后接无关内容	❌ 格式异常，尾随无关内容
3	Hello, how are you?	I am fine	输出数学圆面积计算问题，完全无关	❌ 严重脱轨