Paraformer ASR + VAD + Punctuation on Ascend NPU

1. 简介

本模型在 Paraformer-Large ASR 基础上集成了 VAD（语音活动检测） 和 标点恢复 功能，支持端到端的语音识别流水线。本仓库提供基于 Ascend NPU 的适配方案。

模型：speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch
架构：BiCifParaformer (CifPredictorV3) + FSMN-VAD + CT-Transformer
原始权重：ModelScope

pip install funasr==1.3.1 soundfile jieba

python inference.py --audio audio.wav

带 benchmark：

python inference.py --audio audio.wav --warmup 3 --benchmark 10

from inference import build_model, transcribe

model = build_model("/path/to/model")
text = transcribe(model, "audio.wav")
print(text)  # 含标点

样本	语言	时长
asr_example.wav	Chinese	5.58s

设备	首次运行	稳态平均	CPU 对比	加速比
CPU (16线程)	—	4.973s	1.00x	—
NPU (Ascend910B4)	4.002s	2.781s	—	1.79x

VAD/Punc 模型运行在 CPU（轻量级），仅 ASR 部分移至 NPU，整体加速比受 CPU 子模型制约。

模型：speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch
架构：BiCifParaformer (CifPredictorV3) + FSMN-VAD + CT-Transformer
原始权重：ModelScope

pip install funasr==1.3.1 soundfile jieba

python inference.py --audio audio.wav

带 benchmark：

python inference.py --audio audio.wav --warmup 3 --benchmark 10

from inference import build_model, transcribe

model = build_model("/path/to/model")
text = transcribe(model, "audio.wav")
print(text)  # 含标点

样本	语言	时长
asr_example.wav	Chinese	5.58s

设备	首次运行	稳态平均	CPU 对比	加速比
CPU (16线程)	—	4.973s	1.00x	—
NPU (Ascend910B4)	4.002s	2.781s	—	1.79x

VAD/Punc 模型运行在 CPU（轻量级），仅 ASR 部分移至 NPU，整体加速比受 CPU 子模型制约。