Paraformer 轻量级语音识别与关键词识别(KWS)模型。基于 Paraformer tiny 架构,使用 192 词汇表,适用于普通话语音识别和关键词检测场景。模型参数量小、推理速度快,适合资源受限环境下的关键词唤醒与基础语音识别任务。
自动语音识别(ASR)+ 关键词识别(KWS)
PyTorch
16kHz 单声道音频(WAV 格式),支持音频文件路径或 numpy 数组输入
JSON 格式,包含拼音序列识别结果(带声调标记):
[{"key": "rand_key_xxx", "text": "h uan1y ing2d a4j ia1l ai2t ..."}]| 依赖项 | 版本 |
|---|---|
| Python | 3.10+ |
| PyTorch | 2.x |
| torch_npu | 2.x |
| CANN | 8.x |
| Ascend NPU | Ascend910 |
| funasr | 1.x |
| soundfile | 0.12+ |
model.generate() 中传递 device="npu:0" 参数,确保内部张量正确放置。# 安装依赖
pip install funasr torch torch_npu soundfile numpy# NPU 推理
python3 inference.py
# CPU vs NPU 精度对比
python3 compare_cpu_npu.py| 音频文件 | 音频时长 | 识别结果 | 推理耗时 |
|---|---|---|---|
| asr_example.wav | 5.55s | h uan1y ing2d a4j ia1l ai2t i3y an4d a4m o2y uan4t ui1ch u1d e5y i3y in1sh i2b ian4m o2x | 0.380s |
| 音频文件 | 音频时长 | 识别结果 | 推理耗时 |
|---|---|---|---|
| asr_example.wav | 5.55s | h uan1y ing2d a4j ia1l ai2t i3y an4d a4m o2y uan4t ui1ch u1d e5y i3y in1sh i2b ian4m o2x | 0.124s |
| 指标 | 值 |
|---|---|
| 文本匹配 | 完全一致 |
| 字符匹配率 | 100% |
| CER | 0% |
| CPU 耗时 | 0.124s |
| NPU 耗时 | 0.392s |
结论:NPU 与 CPU 推理结果完全一致,误差 < 1%,精度满足要求。
| 设备 | 推理耗时 (s) |
|---|---|
| CPU | 0.124 |
| NPU | 0.392 |
注:由于模型为 tiny 架构,参数量小,NPU 的硬件加速优势无法充分发挥,CPU 推理耗时更短。但对于大批量或流式推理场景,NPU 仍具优势。

本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。