PolyLM-13B 是由阿里巴巴达摩院开发的多语言语言模型,基于 GPT-2 架构,拥有 13B 参数。本仓库提供该模型在华为昇腾 Ascend910 NPU 上的完整适配方案,包括推理脚本、精度评测和性能评测。
| 属性 | 值 |
|---|---|
| 架构类型 | GPT-2 (Decoder-only Transformer) |
| 参数量 | 13B |
| 层数 | 40 |
| 隐藏层维度 | 5120 |
| 注意力头 | 40 |
| 词表大小 | 256,000 |
| 最大位置编码 | 2048 |
| 激活函数 | gelu_fast |
pip install vllm vllm-ascend torch torch_npu transformers openaipython3 -c "from modelscope import snapshot_download; snapshot_download('iic/nlp_polylm_13b_text_generation')"vllm serve /path/to/iic/nlp_polylm_13b_text_generation \
--dtype bfloat16 \
--tensor-parallel-size 1 \
--max-model-len 2048 \
--trust-remote-codepython3 inference.py| 文件 | 说明 |
|---|---|
| inference.py | vLLM 推理封装脚本 |
| accuracy_eval.py | 精度评测源代码 |
| perf_eval.py | 性能评测源代码 |
| validation_report.json | 完整验证报告 |
| SKILL.md | 模型专属复现技能文档 |
NPU vs CPU 精度对比(CPU 为基线,NPU 为验证目标):
| 指标 | 数值 |
|---|---|
| 测试用例数 | 待下载完整权重后运行 |
| 最大 logits 差异 | 待下载完整权重后验证 |
| 预测一致性 | 待下载完整权重后验证 |
| 精度要求 | NPU vs CPU 最大 logits 误差 < 1% |
| 精度结论 | ⏳ 架构验证已通过,需下载 ~28.6GB 完整权重后运行精度评测 |
精度评测源代码和日志详见 eval/ 目录。