g
gyccc/iic-speech_paraformerbert_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch-NPU
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

speech_paraformerbert_asr_nat-zh-cn-16k-aishell2-vocab5212-pytorch NPU

#NPU

模型说明

ParaformerBert 语音识别模型,适用于中文语音识别任务,基于 AISHELL-2 数据集训练,词汇量为 5212。本版本为 NPU 适配版本,可在华为昇腾 910B 上运行。

  • 框架: PyTorch(FunASR 1.3.1)
  • 语言: 中文(zh-cn)
  • 采样率: 16kHz
  • 架构: ConformerEncoder + ParaformerDecoderSAN + CifPredictor

环境

组件版本
PyTorch2.9.0+cpu
torch_npu2.9.0.post1
CANN8.5.1
Python3.11.14
FunASR1.3.1
NPUAscend 910B

推理结果

NPU 转录文本: 欢迎大家来体验打磨院推出的语音识别模型

推理延迟: 443.31 ms

性能基准(10 次运行)

指标数值
平均延迟86.98 ms
最小延迟85.90 ms
最大延迟88.34 ms
P50 延迟86.44 ms
P90 延迟88.32 ms
P95 延迟88.33 ms
音频时长5.55 s
实时率0.0157

CPU-NPU 一致性

指标数值
最大绝对误差0.00137
平均绝对误差0.000117
相对误差0.096%
余弦相似度1.0
阈值1.0%
结果PASS

使用方法

pip install -r requirements.txt

# Inference
python inference.py

# CPU-NPU consistency check
python eval_consistency.py

# Benchmark
python benchmark.py

文件

  • inference.py - NPU 推理脚本
  • eval_consistency.py - CPU-NPU 数值一致性评估
  • benchmark.py - NPU 延迟和 RTF 基准测试
  • model_utils.py - 音频加载和模型加载工具
  • models/ - 模型权重和配置
  • assets/test.wav - 测试音频文件
  • logs/ - 推理和基准测试日志