weixin_72661020/Alibaba-AAIG_Octopus-SEval-14B
模型介绍文件和版本Pull Requests讨论分析

Alibaba-AAIG/Octopus-SEval-14B on vLLM-Ascend

1. 简介

Octopus-SEval-14B 是一个基于 Qwen2-14B 的安全评估大语言模型,由 Alibaba AAIG 团队开发。该模型专注于 LLM 输出的安全审计,能够识别八类风险维度(违法犯罪、网络安全、数据隐私、伦理道德、身心健康、仇恨言论、极端主义、不当建议)。

相关获取地址:

  • 权重下载地址(ModelScope):https://modelscope.cn/models/Alibaba-AAIG/Octopus-SEval-14B

2. 验证环境

组件版本
硬件Ascend 910 NPU x 2
CANN内置
vllm-ascend0.18.0rc1
vllm0.18.0+empty
transformers5.8.1
torch-npu2.9.0.post1+gitee7ba04
Python3.11.14

3. 服务启动

vllm serve /path/to/Octopus-SEval-14B \
  --dtype bfloat16 \
  --port 8000 \
  --max-model-len 4096 \
  --trust-remote-code \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.9

4. Smoke 验证

基础检查:

# 检查服务状态
curl -sf http://127.0.0.1:8000/v1/models

# 发送推理请求
curl -s http://127.0.0.1:8000/v1/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "/path/to/Octopus-SEval-14B",
    "prompt": "say hi",
    "temperature": 0,
    "max_tokens": 16
  }'

验证结果:

  • /v1/models 返回 200
  • /v1/completions 正常返回生成文本

5. 性能参考

指标数值
平均响应时间0.505 秒
测试次数5 次
输入长度2 tokens
输出长度16 tokens
硬件Ascend 910 NPU (单卡)

7. 注意事项

  • 模型基于 Qwen2 架构,使用 bfloat16 精度推理
  • 模型约 14B 参数,需要约 28GB+ NPU 显存
  • 如果使用 chat/completions 接口,需注意模型的特殊 chat template(安全评估格式)
  • 推荐使用 completions 接口进行常规推理
  • 使用 ModelScope SDK 下载模型

Ascend NPU 精度评测

NPU 推理验证:

指标数值
测试用例数3
匹配预期0/3 (0%)
精度结论❌ 不通过 — 3 个用例均未输出预期答案,且存在严重脱轨(off-topic)问题

输出详情:

#输入预期实际输出评价
11+1=?2输出 "2" 后继续自问自答(1+2=3, 2+2=4...)❌ 部分正确后脱轨
2中国的首都是哪里?北京输出选择题格式(A.北京 B.上海...),后接无关内容❌ 格式异常,尾随无关内容
3Hello, how are you?I am fine输出数学圆面积计算问题,完全无关❌ 严重脱轨

分析: 模型在 NPU 上推理功能正常,但输出存在严重的重复/脱轨问题。1+1 输出 "2" 后自行生成后续问题;"中国的首都"输出选择题格式而非直接回答;英文问候输出完全不相关内容。这些问题属于模型推理参数(temperature、repetition_penalty 等)配置不当,或模型自身能力限制,非 NPU 推理精度问题。建议调整采样参数后重新评测。

下载使用量0