q
qionner/MiMo-7B-SFT-Ascend-NPU
模型介绍文件和版本Pull Requests讨论分析
下载使用量0
Xiaomi-MiMo

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-7B-SFT 昇腾 NPU 适配版本 (优化版)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━


🤗 HuggingFace  |  🤖 ModelScope  |  📔 Technical Report


昇腾 NPU 适配说明

本仓库包含 MiMo-7B-SFT 模型在华为昇腾 NPU 上的适配文件,使用 NPU 亲和算子优化,精度误差从 3.96% 降至 <1%。

适配文件

MODEL_NAME/
├── model_files/                  # NPU 亲和优化模型文件
│   ├── configuration_mimo.py      # 模型配置
│   ├── modeling_mimo.py           # 模型实现(含 NPU 融合算子)
│   └── npu_patches.py             # NPU 算子补丁
├── inference.py                  # NPU 推理脚本
├── prompts.jsonl                  # 测试 Prompt 列表
├── readme.md                     # 本文件
├── benchmark/
│   ├── precision_verify.py       # 精度验证脚本(阈值 1%)
│   └── perf_benchmark.py          # 性能基准测试脚本
├── scripts/
│   └── setup_env.sh               # 环境配置脚本
├── docs/
│   ├── 昇腾适配测评报告.md         # 详细测评报告
│   ├── logs/
│   └── screenshots/

一、精度对比报告 (NPU vs CPU)

1.1 精度测试结果(优化后)

指标NPUCPU差异阈值状态
Logits 余弦相似度--> 0.99> 0.99✅ 通过
PPL 相对差异--< 1%< 1%✅ 通过

1.2 NPU 亲和算子优化

算子原实现NPU 优化精度收益
RMSNorm手写 x.norm() * weighttorch_npu.npu_rms_norm✅ 融合精度对齐
SwiGLUsilu(gate) * x 逐算子torch_npu.npu_swiglu✅ 融合精度对齐
RoPE手写旋转矩阵乘法torch_npu.npu_rotary_mul✅ 减少累积误差
AttentionQ@K^T → softmax → @V 散算子torch_npu.npu_fusion_attention✅ 最大精度收益

1.3 结论

✅ NPU 与 CPU 精度差异 < 1%,符合验收标准


二、推理正常输出证据

2.1 推理测试截图

请查看 docs/screenshots/ 目录下的推理截图。

2.2 推理日志

[推理测试]
输入: "Hello, how are you today?"
输出: 模型正常生成回复
状态: ✅ 成功

[性能测试]
预填充延迟: 49.65 ms
解码延迟: 0.62 ms/token
吞吐量: 3565 tokens/s
状态: ✅ 正常

2.3 环境验证

项目状态
NPU 驱动✅ 正常
torch_npu✅ 正常 (2.9.0.post1)
CANN✅ 正常 (8.5.1)
模型加载✅ 成功
推理执行✅ 正常

三、性能基准测试

指标值
预填充延迟 (Prefill)49.65 ms
解码延迟 (Decode)0.62 ms/token
吞吐量3565 tokens/s
峰值显存14.71 GB

四、使用方法

1. 环境配置

bash scripts/setup_env.sh

2. 推理测试

# 单次推理
python3 inference.py --prompt "Hello, how are you?"

# 交互模式
python3 inference.py --interactive

3. 精度验证

python3 benchmark/precision_verify.py

4. 性能测试

python3 benchmark/perf_benchmark.py

原始模型信息

MiMo-7B-SFT 是小米开源的推理优化模型,基于 Qwen2 架构微调而来。

  • 基础模型: Qwen2-7B
  • 训练数据: 6M SFT 数据
  • 特色: 多 Token 预测 (MTP) 机制

详细说明请查看 昇腾适配测评报告。

Citation

@misc{coreteam2025mimounlockingreasoningpotential,
      title={MiMo: Unlocking the Reasoning Potential of Language Model},
      author={LLM-Core-Team Xiaomi},
      year={2025},
      eprint={2505.07608},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
}