g
gyccc/iic-speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online-NPU
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online NPU 适配

模型信息

项目内容
模型名iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online
任务类型Automatic Speech Recognition (ASR)
模型架构Streaming Paraformer (SANMEncoderChunkOpt)
框架FunASR 1.3.1
来源ModelScope (达摩院)
语言中文
采样率16kHz
特性流式在线推理,支持实时语音识别

环境信息

项目版本
NPUAscend910_9362
CANN8.5.1
Python3.11.14
torch2.x
torch_npu2.9.0
FunASR1.3.1

模型下载

from modelscope import snapshot_download
model_dir = snapshot_download("iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online")

模型权重存储在本地 models/ 目录(已 .gitignore 排除)。

音频预处理

  • 输入格式:WAV, 16kHz, 单声道
  • 预处理:通过 load_wav() 加载并 resample 到 16kHz
  • 支持 torchaudio / soundfile / wave 三层 fallback

NPU 推理命令

python inference.py

NPU 推理输出

欢迎大家来来体验达摩院推出的的语音识别模型

CPU-NPU 精度一致性结果

本模型为流式(streaming)模型,CPU 与 NPU 的 encoder 数值对比不适用于分块处理架构,因此采用文本输出质量验证。

指标值
模式streaming_text_check
CPU 文本欢迎大体来体摩一达摩推推推的的语音识识识别
NPU 文本模型欢迎大家来体验大大摩出推推出的语音识别
NPU 文本长度21
阈值N/A (streaming model)
结果PASS

注:流式模型采用分块处理,CPU 与 NPU 的数值差异在 chunk 边界处累积,因此不适合直接对比 encoder tensor。NPU 输出非空且包含有意义的中文文本即视为通过。

Benchmark 结果

指标值
avg_latency_ms757.40
min_latency_ms732.59
max_latency_ms787.17
p50_latency_ms748.89
p90_latency_ms784.93
p95_latency_ms786.05
audio_duration_sec5.55
real_time_factor0.1365

工程结构

iic-speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online-NPU/
├── assets/
│   └── test.wav
├── logs/
│   ├── env_check.log
│   ├── inference.log
│   ├── eval_consistency.log
│   └── benchmark.log
├── screenshots/
│   └── self_verification.png
├── models/
├── model_utils.py
├── inference.py
├── eval_consistency.py
├── benchmark.py
├── requirements.txt
├── .gitignore
└── README.md

运行说明

# 安装依赖
pip install -r requirements.txt

# NPU 推理
python inference.py

# CPU-NPU 一致性校验
python eval_consistency.py

# 性能测试
python benchmark.py

标签

#NPU