g
gyccc/iic-speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch-NPU
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch NPU 适配

模型信息

  • 模型名: iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
  • 任务类型: 自动语音识别
  • 模型架构: FunASR Paraformer
  • 模型来源: ModelScope

环境信息

  • NPU: Ascend910
  • CANN: 8.5.1
  • Python: 3.11
  • torch_npu: 可用
  • NPU 设备: npu:0 (Ascend910)

ModelScope 下载说明

使用 ModelScope 的 snapshot_download 从本地缓存加载模型,而非直接从 HuggingFace 下载。

from modelscope import snapshot_download
model_dir = snapshot_download("iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch")

模型本地路径:~/.cache/modelscope/hub/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch

音频预处理说明

  • 输入格式:WAV
  • 采样率:16kHz
  • 声道:单声道
  • 测试音频:assets/test.wav,时长约 5.55 秒
  • 使用 librosa.load(wav_path, sr=16000, mono=True) 读取并预处理

NPU 推理命令

python inference.py

依赖安装:

pip install -r requirements.txt

NPU 转写文本

欢迎大家来体验达摩院推出的语音识别模型

CPU-NPU 精度一致性结果

指标数值
max_abs_error0.000296
mean_abs_error0.000003
relative_error0.018596%
cosine_similarity1.000000
threshold1.0%
resultPASS

性能测试结果

指标数值
平均延迟(毫秒)481.08
最小延迟(毫秒)477.04
最大延迟(毫秒)489.74
p50 延迟(毫秒)479.88
p90 延迟(毫秒)486.13
p95 延迟(毫秒)487.94
音频时长(秒)5.55
实时率0.0867

工程结构

.
├── assets/
│   └── test.wav
├── logs/
├── screenshots/
├── model_utils.py
├── inference.py
├── eval_consistency.py
├── benchmark.py
├── requirements.txt
├── .gitignore
└── README.md

运行说明

依次执行:

python inference.py
python eval_consistency.py
python benchmark.py

标签

#NPU