Paraformer Large ASR on Ascend NPU

1. 简介

Paraformer-Large 是达摩院推出的非自回归端到端语音识别模型，基于 FunASR 框架。本仓库提供基于 Ascend NPU 的适配方案，使用 torch_npu 后端进行推理加速。

模型：speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
架构：Paraformer (SANMEncoder 50-block + CifPredictorV2 + ParaformerSANMDecoder 16-block)
原始权重：ModelScope

pip install funasr==1.3.1 soundfile
# torch_npu 需根据昇腾环境安装

python inference.py --audio audio.wav

带 warmup 和 benchmark：

python inference.py --audio audio.wav --warmup 3 --benchmark 10

from inference import build_model, transcribe

model = build_model("/path/to/model")
text = transcribe(model, "audio.wav")
print(text)

样本	语言	时长
asr_example.wav	Chinese	5.58s

设备	首次运行	稳态平均	CPU 对比	加速比
CPU (16线程)	—	2.582s	1.00x	—
NPU (Ascend910B4)	17.655s	0.936s	—	2.76x

首次运行包含模型加载和 NPU 图编译，后续为稳态推理延迟。

模型：speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
架构：Paraformer (SANMEncoder 50-block + CifPredictorV2 + ParaformerSANMDecoder 16-block)
原始权重：ModelScope

pip install funasr==1.3.1 soundfile
# torch_npu 需根据昇腾环境安装

python inference.py --audio audio.wav

带 warmup 和 benchmark：

python inference.py --audio audio.wav --warmup 3 --benchmark 10

from inference import build_model, transcribe

model = build_model("/path/to/model")
text = transcribe(model, "audio.wav")
print(text)

样本	语言	时长
asr_example.wav	Chinese	5.58s

设备	首次运行	稳态平均	CPU 对比	加速比
CPU (16线程)	—	2.582s	1.00x	—
NPU (Ascend910B4)	17.655s	0.936s	—	2.76x

首次运行包含模型加载和 NPU 图编译，后续为稳态推理延迟。