Paraformer 多任务学习(MTL)语音识别大模型,支持普通话和粤语识别。基于 Paraformer large 架构,词汇表大小 11666,在普通话和粤语等中文语音数据集上训练。本模型为非流式模型,支持完整的音频输入,适用于高精度语音识别场景。这是原始 8501 词汇表版本的升级版。
自动语音识别(ASR)—— 非流式
PyTorch
16kHz 单声道音频(WAV 格式),支持音频文件路径或 numpy 数组输入
JSON 格式,包含识别文本:
[{"key": "rand_key_xxx", "text": "识别结果文字"}]| 依赖项 | 版本 |
|---|---|
| Python | 3.10+ |
| PyTorch | 2.x |
| torch_npu | 2.x |
| CANN | 8.x |
| Ascend NPU | Ascend910 |
| funasr | 1.x |
| soundfile | 0.12+ |
model.generate() 中传递 device="npu:0" 参数。# 安装依赖
pip install funasr torch torch_npu soundfile numpy# NPU 推理
python3 inference.py
# CPU vs NPU 精度对比
python3 compare_cpu_npu.py| 测试语言 | 音频时长 | 识别结果 | 推理耗时 |
|---|---|---|---|
| 普通话 | 5.55s | 欢迎大家来体验达摩院推出的语音识别模型 | 0.086s |
| 粤语 | 6.46s | 有无人知道金钟添马街系点去㗎 | 0.089s |
| 测试语言 | 音频时长 | 识别结果 | 推理耗时 |
|---|---|---|---|
| 普通话 | 5.55s | 欢迎大家来体验达摩院推出的语音识别模型 | 0.735s |
| 粤语 | 6.46s | 有无人知道金钟添马街系点去㗎 | 0.804s |
| 测试语言 | CPU 结果 | NPU 结果 | 匹配率 | CER |
|---|---|---|---|---|
| 普通话 | 欢迎大家来体验达摩院推出的语音识别模型 | 欢迎大家来体验达摩院推出的语音识别模型 | 100% | 0% |
| 粤语 | 有无人知道金钟添马街系点去㗎 | 有无人知道金钟添马街系点去㗎 | 100% | 0% |
结论:NPU 与 CPU 推理误差 < 1%,精度满足要求。
| 测试语言 | CPU 耗时 (s) | NPU 耗时 (s) | 加速比 |
|---|---|---|---|
| 普通话 | 0.735 | 0.388 | 1.89x |
| 粤语 | 0.804 | 0.088 | 9.14x |
NPU 推理速度约为 CPU 的 2~9 倍,粤语推理加速效果显著。

本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。