xujiashuai/nlp_mt5_dialogue-rewriting_chinese-base
模型介绍文件和版本Pull Requests讨论分析

nlp_mt5_dialogue-rewriting_chinese-base on Ascend NPU

1. 简介

本文档记录 iic/nlp_mt5_dialogue-rewriting_chinese-base 在昇腾 NPU 上的适配验证结果。

  • 模型来源: iic/nlp_mt5_dialogue-rewriting_chinese-base
  • 架构: mT5 (T5ForConditionalGeneration, encoder-decoder)
  • 参数量: ~582M (d_model=768, 12 layers, 12 heads)
  • 适配状态: SUCCESS
  • 适配时间: 2026-05-17

2. 验证环境

组件版本
torch2.9.0
torch-npu2.9.0.post1
transformers4.57.6
CANN8.5.1
  • NPU: Ascend 910B4
  • 系统: Linux aarch64

3. 推理脚本

python inference.py --model-id iic/nlp_mt5_dialogue-rewriting_chinese-base --device npu:0 --dtype float32

4. Smoke 验证

功能验证结果:

指标结果
Encoder 输出形状[1, 128, 768]
是否有 NaN否
推理状态正常

推理输出示例:

  • 输入: 用户: 你好\n助手: 你好,请问有什么可以帮助您的吗?\n用户: 我想查一下明天的天气
  • 输出: 我想查一下明天的天气

5. 性能参考

指标数值
Encoder 平均延迟10.46 ms
测试轮数10

6. 精度评测

NPU vs CPU 精度对比 (float32, Encoder Hidden States)

指标数值
Cosine Similarity1.000001
Max Abs Error0.000002
精度误差< 0.0001%
是否满足要求是(< 1%)

7. 评测材料

材料文件说明
推理脚本inference.py独立可运行的 NPU 推理代码

8. 注意事项

  • mT5 为 encoder-decoder 架构的 text2text-generation 模型
  • 精度对比基于 Encoder Hidden States(非生成文本,因自回归生成可能因浮点差异产生不同结果)
  • 使用 float32 精度以获得最佳一致性
  • 使用 MT5Tokenizer + SentencePiece 分词器

贡献者: xujiashuai 参赛赛道: 模型适配赛道 提交时间: 2026-05-17

下载使用量0