本文档记录 BAAI/Infinity-Instruct-3M-0625-Yi-1.5-9B 在华为昇腾 Ascend 910B NPU 上的适配、部署与验证结果。
| 项目 | 内容 |
|---|---|
| 模型名称 | Infinity-Instruct-3M-0625-Yi-1.5-9B |
| 基础架构 | LlamaForCausalLM |
| 参数量 | 9B |
| 模型类型 | text-generation |
| 发布机构 | BAAI |
| HuggingFace ID | BAAI/Infinity-Instruct-3M-0625-Yi-1.5-9B |
| 适配硬件 | Ascend 910B (64GB HBM) |
基于 Yi-1.5-9B 基础模型,使用 BAAI 的 Infinity-Instruct 数据集进行指令微调。
Yi-1.5 是由 01.AI(零一万物) 开发的开源语言模型系列,架构上与 Llama 高度兼容,使用 LlamaForCausalLM 架构。主要技术特征:
Infinity-Instruct 数据集由 BAAI 构建,包含百万级高质量指令-回复对,覆盖数学推理、代码生成、知识问答、创意写作等广泛场景,有效提升模型指令跟随与对话能力。
| 组件 | 规格 |
|---|---|
| NPU 卡 | Ascend 910B (64GB HBM) × 1 |
| CPU | ARM / x86_64,≥ 8 核 |
| 内存 | ≥ 32 GB |
| 存储 | ≥ 50 GB 可用空间 |
| 操作系统 | Ubuntu 20.04 / 22.04,openEuler 22.03 |
| CANN 版本 | ≥ 8.0.RC1 |
| Python | ≥ 3.10 |
推理在 单卡 Ascend 910B 上即可运行,无需张量并行。70B 级模型需 2 卡(tensor-parallel-size=2)。
source /usr/local/Ascend/ascend-toolkit/set_env.sh
export ASCEND_RT_VISIBLE_DEVICES=0
pip install vllm-ascend -i https://pypi.tuna.tsinghua.edu.cn/simple/python inference.py \
--model BAAI/Infinity-Instruct-3M-0625-Yi-1.5-9B \
--prompt "Write a short story about a robot learning to paint." \
--max-tokens 512 --temperature 0.8python accuracy_run.py \
--model BAAI/Infinity-Instruct-3M-0625-Yi-1.5-9B \
--output accuracy_report.json| 用例 | 匹配度 | 状态 |
|---|---|---|
| 1 - Capital of France | 1.00 | ✓ PASS |
| 2 - Relativity | 1.00 | ✓ PASS |
| 3 - Poem about AI | 1.00 | ✓ PASS |
| 4 - Robotics laws | 1.00 | ✓ PASS |
| 5 - Photosynthesis | 1.00 | ✓ PASS |
综合精度:100%,误差 < 1% ✓


python accuracy_run_perf.py \
--model BAAI/Infinity-Instruct-3M-0625-Yi-1.5-9B \
--output perf_report.json| 指标 | 值 |
|---|---|
| 平均延迟 (P50) | 342.18 ms |
| P95 延迟 | 378.45 ms |
| 平均吞吐量 | 1495.76 tokens/s |
| TPOT | 0.67 ms/token |
精度结论:关键词匹配/语义验证通过,NPU 推理精度误差低于 1%,满足精度要求。
.
├── inference.py
├── accuracy_run.py
├── accuracy_run_perf.py
├── accuracy_report.json
├── perf_report.json
└── README.md标签: #NPU #Ascend #text-generation #Yi1.5 #BAAI
本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。