PolyLM-13B 昇腾 NPU 适配模型

模型介绍

PolyLM-13B 是由阿里巴巴达摩院开发的多语言语言模型，基于 GPT-2 架构，拥有 13B 参数。本仓库提供该模型在华为昇腾 Ascend910 NPU 上的完整适配方案，包括推理脚本、精度评测和性能评测。

模型架构

属性	值
架构类型	GPT-2 (Decoder-only Transformer)
参数量	13B
层数	40
隐藏层维度	5120
注意力头	40
词表大小	256,000
最大位置编码	2048
激活函数	gelu_fast

环境要求

Python 3.11+
PyTorch 2.9.0 + torch_npu
vLLM 0.18.0 + vLLM-Ascend 0.18.0rc1
昇腾 NPU (Atlas 800 A2 / Ascend910)

快速使用

安装依赖

pip install vllm vllm-ascend torch torch_npu transformers openai

下载模型

python3 -c "from modelscope import snapshot_download; snapshot_download('iic/nlp_polylm_13b_text_generation')"

启动 vLLM 服务

vllm serve /path/to/iic/nlp_polylm_13b_text_generation \
  --dtype bfloat16 \
  --tensor-parallel-size 1 \
  --max-model-len 2048 \
  --trust-remote-code

运行推理

python3 inference.py

验证结果

Stage A (Dummy 权重): 服务启动成功，模型加载正常，API 响应正确
算子兼容性: 100% PyTorch 原生算子，无 CUDA/Triton 依赖，昇腾 NPU 完全兼容
代码修改: 无需修改，vLLM 原生支持 GPT2LMHeadModel

文件说明

文件	说明
inference.py	vLLM 推理封装脚本
accuracy_eval.py	精度评测源代码
perf_eval.py	性能评测源代码
validation_report.json	完整验证报告
SKILL.md	模型专属复现技能文档

Ascend NPU 精度评测

NPU vs CPU 精度对比（CPU 为基线，NPU 为验证目标）：

指标	数值
测试用例数	待下载完整权重后运行
最大 logits 差异	待下载完整权重后验证
预测一致性	待下载完整权重后验证
精度要求	NPU vs CPU 最大 logits 误差 < 1%
精度结论	⏳ 架构验证已通过，需下载 ~28.6GB 完整权重后运行精度评测

精度评测源代码和日志详见 eval/ 目录。

属性

值

架构类型

GPT-2 (Decoder-only Transformer)

参数量

13B

层数

隐藏层维度

5120

注意力头

词表大小

256,000

最大位置编码

2048

激活函数

gelu_fast

快速使用

安装依赖

pip install vllm vllm-ascend torch torch_npu transformers openai

下载模型

python3 -c "from modelscope import snapshot_download; snapshot_download('iic/nlp_polylm_13b_text_generation')"

启动 vLLM 服务

vllm serve /path/to/iic/nlp_polylm_13b_text_generation \
  --dtype bfloat16 \
  --tensor-parallel-size 1 \
  --max-model-len 2048 \
  --trust-remote-code

运行推理

python3 inference.py

文件

说明

inference.py

vLLM 推理封装脚本

accuracy_eval.py

精度评测源代码

perf_eval.py

性能评测源代码

validation_report.json

完整验证报告

SKILL.md

模型专属复现技能文档

Ascend NPU 精度评测

NPU vs CPU 精度对比（CPU 为基线，NPU 为验证目标）：

指标	数值
测试用例数	待下载完整权重后运行
最大 logits 差异	待下载完整权重后验证
预测一致性	待下载完整权重后验证
精度要求	NPU vs CPU 最大 logits 误差 < 1%
精度结论	⏳ 架构验证已通过，需下载 ~28.6GB 完整权重后运行精度评测

精度评测源代码和日志详见 eval/ 目录。