speech_paraformerbert_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch NPU

#NPU

模型说明

ParaformerBert 语音识别模型，适用于中文语音识别任务，基于 AISHELL-2 数据集训练，词汇量为 5212。本版本为 NPU 适配版本，可在华为昇腾 910B 上运行。

框架： PyTorch（FunASR 1.3.1）
语言： 中文（zh-cn）
采样率： 16kHz
架构： ConformerEncoder + ParaformerDecoderSAN + CifPredictor

环境

组件	版本
PyTorch	2.9.0+cpu
torch_npu	2.9.0.post1
CANN	8.5.1
Python	3.11.14
FunASR	1.3.1
NPU	Ascend 910B

推理结果

NPU 转录文本： 欢迎大家来体验打磨院推出的语音识别模型

推理延迟： 443.31 ms

性能基准（10 次运行）

指标	数值
平均延迟	86.98 ms
最小延迟	85.90 ms
最大延迟	88.34 ms
P50 延迟	86.44 ms
P90 延迟	88.32 ms
P95 延迟	88.33 ms
音频时长	5.55 s
实时率	0.0157

CPU-NPU 一致性

指标	数值
最大绝对误差	0.00137
平均绝对误差	0.000117
相对误差	0.096%
余弦相似度	1.0
阈值	1.0%
结果	PASS

使用方法

pip install -r requirements.txt

# Inference
python inference.py

# CPU-NPU consistency check
python eval_consistency.py

# Benchmark
python benchmark.py

文件

inference.py - NPU 推理脚本
eval_consistency.py - CPU-NPU 数值一致性评估
benchmark.py - NPU 延迟和 RTF 基准测试
model_utils.py - 音频加载和模型加载工具
models/ - 模型权重和配置
assets/test.wav - 测试音频文件
logs/ - 推理和基准测试日志

speech_paraformerbert_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch NPU

#NPU

模型说明

ParaformerBert 语音识别模型，适用于中文语音识别任务，基于 AISHELL-2 数据集训练，词汇量为 5212。本版本为 NPU 适配版本，可在华为昇腾 910B 上运行。

框架： PyTorch（FunASR 1.3.1）
语言： 中文（zh-cn）
采样率： 16kHz
架构： ConformerEncoder + ParaformerDecoderSAN + CifPredictor

环境

组件	版本
PyTorch	2.9.0+cpu
torch_npu	2.9.0.post1
CANN	8.5.1
Python	3.11.14
FunASR	1.3.1
NPU	Ascend 910B

推理结果

NPU 转录文本： 欢迎大家来体验打磨院推出的语音识别模型

推理延迟： 443.31 ms

性能基准（10 次运行）

指标	数值
平均延迟	86.98 ms
最小延迟	85.90 ms
最大延迟	88.34 ms
P50 延迟	86.44 ms
P90 延迟	88.32 ms
P95 延迟	88.33 ms
音频时长	5.55 s
实时率	0.0157

CPU-NPU 一致性

指标	数值
最大绝对误差	0.00137
平均绝对误差	0.000117
相对误差	0.096%
余弦相似度	1.0
阈值	1.0%
结果	PASS

使用方法

pip install -r requirements.txt

# Inference
python inference.py

# CPU-NPU consistency check
python eval_consistency.py

# Benchmark
python benchmark.py

文件

inference.py - NPU 推理脚本
eval_consistency.py - CPU-NPU 数值一致性评估
benchmark.py - NPU 延迟和 RTF 基准测试
model_utils.py - 音频加载和模型加载工具
models/ - 模型权重和配置
assets/test.wav - 测试音频文件
logs/ - 推理和基准测试日志