Octopus-SEval-14B 是一个基于 Qwen2-14B 的安全评估大语言模型,由 Alibaba AAIG 团队开发。该模型专注于 LLM 输出的安全审计,能够识别八类风险维度(违法犯罪、网络安全、数据隐私、伦理道德、身心健康、仇恨言论、极端主义、不当建议)。
相关获取地址:
| 组件 | 版本 |
|---|---|
| 硬件 | Ascend 910 NPU x 2 |
| CANN | 内置 |
vllm-ascend | 0.18.0rc1 |
vllm | 0.18.0+empty |
transformers | 5.8.1 |
torch-npu | 2.9.0.post1+gitee7ba04 |
Python | 3.11.14 |
vllm serve /path/to/Octopus-SEval-14B \
--dtype bfloat16 \
--port 8000 \
--max-model-len 4096 \
--trust-remote-code \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9基础检查:
# 检查服务状态
curl -sf http://127.0.0.1:8000/v1/models
# 发送推理请求
curl -s http://127.0.0.1:8000/v1/completions \
-H 'Content-Type: application/json' \
-d '{
"model": "/path/to/Octopus-SEval-14B",
"prompt": "say hi",
"temperature": 0,
"max_tokens": 16
}'验证结果:
/v1/models 返回 200/v1/completions 正常返回生成文本| 指标 | 数值 |
|---|---|
| 平均响应时间 | 0.505 秒 |
| 测试次数 | 5 次 |
| 输入长度 | 2 tokens |
| 输出长度 | 16 tokens |
| 硬件 | Ascend 910 NPU (单卡) |
NPU 推理验证:
| 指标 | 数值 |
|---|---|
| 测试用例数 | 3 |
| 匹配预期 | 0/3 (0%) |
| 精度结论 | ❌ 不通过 — 3 个用例均未输出预期答案,且存在严重脱轨(off-topic)问题 |
输出详情:
| # | 输入 | 预期 | 实际输出 | 评价 |
|---|---|---|---|---|
| 1 | 1+1=? | 2 | 输出 "2" 后继续自问自答(1+2=3, 2+2=4...) | ❌ 部分正确后脱轨 |
| 2 | 中国的首都是哪里? | 北京 | 输出选择题格式(A.北京 B.上海...),后接无关内容 | ❌ 格式异常,尾随无关内容 |
| 3 | Hello, how are you? | I am fine | 输出数学圆面积计算问题,完全无关 | ❌ 严重脱轨 |
分析: 模型在 NPU 上推理功能正常,但输出存在严重的重复/脱轨问题。1+1 输出 "2" 后自行生成后续问题;"中国的首都"输出选择题格式而非直接回答;英文问候输出完全不相关内容。这些问题属于模型推理参数(temperature、repetition_penalty 等)配置不当,或模型自身能力限制,非 NPU 推理精度问题。建议调整采样参数后重新评测。