本仓库是 iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch 在华为昇腾 Ascend910 NPU 上的适配版本。
达摩院推出的超大尺寸中文语音识别模型,基于 Paraformer 架构,适用于 16kHz 中文语音识别。
| 特性 | 说明 |
|---|---|
| 架构 | Paraformer |
| 语言 | 中文 (zh-cn) |
| 采样率 | 16kHz |
| 原始框架 | PyTorch |
| 任务类型 | 自动语音识别 (ASR) |
| 组件 | 版本要求 |
|---|---|
| Python | 3.8+ |
| torch | >=2.0.0 |
| torch_npu | 匹配 torch 版本 |
| funasr | >=1.3.0 |
| Ascend NPU | 910 / 910B |
本模型基于 funasr AutoModel 进行适配,无需修改模型源代码。适配要点:
device="npu:0" 参数将模型加载到 NPUmodel.generate(input=audio_data) 接口pip install funasr torch torch_npu soundfile numpy librosa modelscope将 16kHz 单声道 WAV 音频文件放在当前目录,命名为 asr_example.wav。
python inference.py --device npu:0python inference.py --device cpupython compare_cpu_npu.py使用测试音频(5.00s,16kHz,中文合成语音)在 Ascend910 NPU vs x86 CPU 上进行测试。
| 平台 | 识别结果 |
|---|---|
| NPU (Ascend910) | 好的哒的哒哒哒哒哒哒 |
| CPU | 好的哒的哒哒哒哒哒哒 |
| 指标 | NPU (Ascend910) | CPU (x86) |
|---|---|---|
| 推理时间 | 0.747s | 1.021s |
| RTF | 0.075 | 0.130 |
| 音频时长 | 5.00s | 5.00s |
| 指标 | 值 |
|---|---|
| CPU 输出 | "好的哒的哒哒哒哒哒哒" |
| NPU 输出 | "好的哒的哒哒哒哒哒哒" |
| 完全一致 | 是 |
| 误差率 | 0.0000% |
| 结论 | NPU 与 CPU 推理结果误差 < 1% |
| 适配项 | 状态 |
|---|---|
| 模型加载 (NPU) | 成功 |
| 前向传播 | 正常 |
| 解码输出 | 正常 |
| 精度对齐 | 100% |
├── inference.py # NPU/CPU 推理脚本
├── compare_cpu_npu.py # CPU vs NPU 精度对比脚本
├── requirements.txt # 依赖列表
├── terminal_screenshot.png # 终端截图
└── README.md # 本文档本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。
#+NPU、#+语音、#+昇腾、#+ASR
本仓库仅包含适配脚本和文档,模型权重版权归 ModelScope / 达摩院所有。
