Paraformer 语音识别模型,支持普通话、粤语、英文的流式语音识别。基于 Paraformer online large 架构,通过在普通话 1 万小时、粤语 100 小时、英语 1 万小时音频数据集上训练得到。本模型为实时(流式)语音识别模型,支持分片输入和缓存机制,适用于低延迟语音识别场景。
自动语音识别(ASR)—— 流式语音识别
PyTorch
16kHz 单声道音频(WAV 格式),支持音频文件路径或 numpy 数组输入
JSON 格式,包含识别文本:
[{"key": "rand_key_xxx", "text": "识别结果文字"}]| 依赖项 | 版本 |
|---|---|
| Python | 3.10+ |
| PyTorch | 2.x |
| torch_npu | 2.x |
| CANN | 8.x |
| Ascend NPU | Ascend910 |
| funasr | 1.x |
| soundfile | 0.12+ |
适配过程中的关键点和解决方案:
model.generate() 中显式传递 device="npu:0" 参数,否则模型内部会将输入张量放在 CPU 上导致错误。# 安装依赖
pip install funasr torch torch_npu soundfile numpy# NPU 推理
python3 inference.py
# CPU vs NPU 精度对比
python3 compare_cpu_npu.py| 测试语言 | 音频时长 | 识别结果 | 推理耗时 |
|---|---|---|---|
| 普通话 | 5.55s | 欢迎大家来体验达摩院推出的语音识别模型 | 1.102s |
| 粤语 | 6.46s | 姚某人知道金钟天马街系点去 | 0.923s |
| 测试语言 | 音频时长 | 识别结果 | 推理耗时 |
|---|---|---|---|
| 普通话 | 5.55s | 欢迎大家来体验达摩院推出的语音识别模型 | 2.379s |
| 粤语 | 6.46s | 有无人知道金钟添马街系点去 | 2.590s |
| 测试语言 | CPU 结果 | NPU 结果 | 匹配率 | CER |
|---|---|---|---|---|
| 普通话 | 欢迎大家来体验达摩院推出的语音识别模型 | 欢迎大家来体验达摩院推出的语音识别模型 | 100% | 0% |
| 粤语 | 有无人知道金钟添马街系点去 | 有无人知道金钟添马街系点去 | 100% | 0% |
结论:NPU 与 CPU 推理误差 < 1%,精度满足要求。
| 测试语言 | CPU 耗时 (s) | NPU 耗时 (s) | 加速比 |
|---|---|---|---|
| 普通话 | 2.379 | 1.102 | 2.15x |
| 粤语 | 2.590 | 0.873 | 2.97x |
NPU 推理速度约为 CPU 的 2~3 倍。

本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。