本模型是基于 WeNet 框架训练的 U2++ Conformer 端到端语音识别在线模型,使用 Wenetspeech 中文普通话数据集训练。
| 属性 | 说明 |
|---|---|
| 原始框架 | PyTorch (WeNet) |
| 导出格式 | ONNX (opset 13) |
| 适配框架 | PyTorch + onnx2torch |
| NPU 推理 | torch_npu |
# CPU
python3 inference.py --device cpu
# NPU
python3 inference.py --device npu
# 精度对比
python3 compare_cpu_npu.py| 音频 | CPU 推理结果 | NPU 推理结果 | 匹配 |
|---|---|---|---|
| 0.wav | 朱 莉 南 在 上 市 见 没 会 章 表 示 | 朱 莉 南 在 上 市 见 没 会 章 表 示 | ✓ |
| 1.wav | 是 因 说 第 二 种 叫 外 欧 下 | 是 因 说 第 二 种 叫 外 欧 下 | ✓ |
| 2.wav | 先 这 个 经 你 说 完 了 ... | 先 这 个 经 你 说 完 了 ... | ✓ |
| 3.wav | 文 森 特 考 素 是 全 球 知 名 ... | 文 森 特 考 素 是 全 球 知 名 ... | ✓ |
| 音频 | 余弦相似度 | 平均相对误差 | 结论 |
|---|---|---|---|
| 0.wav | 1.000000 | 0.503% | PASS |
| 1.wav | 1.000000 | 0.219% | PASS |
| 2.wav | 1.000000 | 0.239% | PASS |
| 3.wav | 1.000000 | 0.150% | PASS |
| 音频 | 余弦相似度 | 平均相对误差 | 结论 |
|---|---|---|---|
| 0.wav | 1.000000 | 0.021% | PASS |
| 1.wav | 1.000000 | 0.004% | PASS |
| 2.wav | 1.000000 | 0.005% | PASS |
| 3.wav | 1.000000 | 0.005% | PASS |
结论:NPU 与 CPU 推理结果误差 < 1%,所有测试通过。
| 音频 | CPU | NPU | 加速比 |
|---|---|---|---|
| 0.wav | 7.528s | 8.255s | 0.91x |
| 1.wav | 7.711s | 6.989s | 1.10x |
| 2.wav | 8.879s | 7.119s | 1.25x |
| 3.wav | 8.153s | 6.993s | 1.17x |

本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。