weixin_72661020/polylm-13b-text-generation
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

PolyLM-13B 昇腾 NPU 适配模型

模型介绍

PolyLM-13B 是由阿里巴巴达摩院开发的多语言语言模型,基于 GPT-2 架构,拥有 13B 参数。本仓库提供该模型在华为昇腾 Ascend910 NPU 上的完整适配方案,包括推理脚本、精度评测和性能评测。

模型架构

属性值
架构类型GPT-2 (Decoder-only Transformer)
参数量13B
层数40
隐藏层维度5120
注意力头40
词表大小256,000
最大位置编码2048
激活函数gelu_fast

环境要求

  • Python 3.11+
  • PyTorch 2.9.0 + torch_npu
  • vLLM 0.18.0 + vLLM-Ascend 0.18.0rc1
  • 昇腾 NPU (Atlas 800 A2 / Ascend910)

快速使用

安装依赖

pip install vllm vllm-ascend torch torch_npu transformers openai

下载模型

python3 -c "from modelscope import snapshot_download; snapshot_download('iic/nlp_polylm_13b_text_generation')"

启动 vLLM 服务

vllm serve /path/to/iic/nlp_polylm_13b_text_generation \
  --dtype bfloat16 \
  --tensor-parallel-size 1 \
  --max-model-len 2048 \
  --trust-remote-code

运行推理

python3 inference.py

验证结果

  • Stage A (Dummy 权重): 服务启动成功,模型加载正常,API 响应正确
  • 算子兼容性: 100% PyTorch 原生算子,无 CUDA/Triton 依赖,昇腾 NPU 完全兼容
  • 代码修改: 无需修改,vLLM 原生支持 GPT2LMHeadModel

文件说明

文件说明
inference.pyvLLM 推理封装脚本
accuracy_eval.py精度评测源代码
perf_eval.py性能评测源代码
validation_report.json完整验证报告
SKILL.md模型专属复现技能文档

Ascend NPU 精度评测

NPU vs CPU 精度对比(CPU 为基线,NPU 为验证目标):

指标数值
测试用例数待下载完整权重后运行
最大 logits 差异待下载完整权重后验证
预测一致性待下载完整权重后验证
精度要求NPU vs CPU 最大 logits 误差 < 1%
精度结论⏳ 架构验证已通过,需下载 ~28.6GB 完整权重后运行精度评测

精度评测源代码和日志详见 eval/ 目录。