Paraformer 非自回归语音识别大模型,支持普通话和闽南语识别,集成 SeACo(Semantic Audio Context)热词增强功能。基于 Paraformer large 架构,在 5 万小时工业级中文语音数据集上训练。本模型输出的识别文本包含空格分隔的字和对应时间戳,支持热词定制以提升特定词汇的识别准确率。
自动语音识别(ASR)—— 非流式,支持热词(Hotword)
PyTorch
16kHz 单声道音频(WAV 格式),支持音频文件路径或 numpy 数组输入
JSON 格式,包含识别文本和时间戳:
[{"key": "rand_key_xxx", "text": "识 别 文 字", "timestamp": [[start_ms, end_ms], ...]}]| 依赖项 | 版本 |
|---|---|
| Python | 3.10+ |
| PyTorch | 2.x |
| torch_npu | 2.x |
| CANN | 8.x |
| Ascend NPU | Ascend910 |
| funasr | 1.x |
| soundfile | 0.12+ |
model.generate() 中传递 device="npu:0" 参数。# 安装依赖
pip install funasr torch torch_npu soundfile numpy# NPU 推理
python3 inference.py
# CPU vs NPU 精度对比
python3 compare_cpu_npu.py| 音频文件 | 音频时长 | 识别结果 | 推理耗时 |
|---|---|---|---|
| asr_example_普通话.wav | 5.55s | 欢 迎 大 家 来 体 验 达 门 院 推 出 的 语 音 识 别 模 型 | 4.342s |
| 音频文件 | 音频时长 | 识别结果 | 推理耗时 |
|---|---|---|---|
| asr_example_普通话.wav | 5.55s | 欢 迎 大 家 来 体 验 达 门 院 推 出 的 语 音 识 别 模 型 | 1.048s |
| 指标 | CPU 结果 | NPU 结果 | 一致率 |
|---|---|---|---|
| 识别文本 | 欢 迎 大 家 来 体 验 达 门 院 推 出 的 语 音 识 别 模 型 | 欢 迎 大 家 来 体 验 达 门 院 推 出 的 语 音 识 别 模 型 | 100% |
| 文本 CER | - | - | 0% |
| 时间戳 | 一致 | 一致 | 100% |
| CPU 耗时 | 1.048s | - | - |
| NPU 耗时 | - | 4.388s | - |
结论:NPU 与 CPU 推理结果完全一致,误差 < 1%,精度满足要求。
| 设备 | 推理耗时 (s) |
|---|---|
| CPU | 1.048 |
| NPU (Ascend910) | 4.388 |
注:该模型包含 SeACo(热词增强)模块,部分自定义算子在 NPU 上的优化尚未充分。对于包含特殊模块的模型,建议关注精度而非原始性能。

本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。