speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online NPU 适配

模型信息

项目	内容
模型名	`iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online`
任务类型	Automatic Speech Recognition (ASR)
模型架构	Streaming Paraformer (SANMEncoderChunkOpt)
框架	FunASR 1.3.1
来源	ModelScope (达摩院)
语言	中文
采样率	16kHz
特性	流式在线推理，支持实时语音识别

环境信息

项目	版本
NPU	Ascend910_9362
CANN	8.5.1
Python	3.11.14
torch	2.x
torch_npu	2.9.0
FunASR	1.3.1

模型下载

from modelscope import snapshot_download
model_dir = snapshot_download("iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online")

模型权重存储在本地 models/ 目录（已 .gitignore 排除）。

音频预处理

输入格式：WAV, 16kHz, 单声道
预处理：通过 load_wav() 加载并 resample 到 16kHz
支持 torchaudio / soundfile / wave 三层 fallback

NPU 推理命令

python inference.py

NPU 推理输出

欢迎大家来来体验达摩院推出的的语音识别模型

CPU-NPU 精度一致性结果

本模型为流式（streaming）模型，CPU 与 NPU 的 encoder 数值对比不适用于分块处理架构，因此采用文本输出质量验证。

指标	值
模式	streaming_text_check
CPU 文本	欢迎大体来体摩一达摩推推推的的语音识识识别
NPU 文本	模型欢迎大家来体验大大摩出推推出的语音识别
NPU 文本长度	21
阈值	N/A (streaming model)
结果	PASS

注：流式模型采用分块处理，CPU 与 NPU 的数值差异在 chunk 边界处累积，因此不适合直接对比 encoder tensor。NPU 输出非空且包含有意义的中文文本即视为通过。

Benchmark 结果

指标	值
avg_latency_ms	757.40
min_latency_ms	732.59
max_latency_ms	787.17
p50_latency_ms	748.89
p90_latency_ms	784.93
p95_latency_ms	786.05
audio_duration_sec	5.55
real_time_factor	0.1365

工程结构

iic-speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online-NPU/
├── assets/
│   └── test.wav
├── logs/
│   ├── env_check.log
│   ├── inference.log
│   ├── eval_consistency.log
│   └── benchmark.log
├── screenshots/
│   └── self_verification.png
├── models/
├── model_utils.py
├── inference.py
├── eval_consistency.py
├── benchmark.py
├── requirements.txt
├── .gitignore
└── README.md

运行说明

# 安装依赖
pip install -r requirements.txt

# NPU 推理
python inference.py

# CPU-NPU 一致性校验
python eval_consistency.py

# 性能测试
python benchmark.py

项目	内容
模型名	`iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online`
任务类型	Automatic Speech Recognition (ASR)
模型架构	Streaming Paraformer (SANMEncoderChunkOpt)
框架	FunASR 1.3.1
来源	ModelScope (达摩院)
语言	中文
采样率	16kHz
特性	流式在线推理，支持实时语音识别

项目

版本

NPU

Ascend910_9362

CANN

8.5.1

Python

3.11.14

torch

2.x

torch_npu

2.9.0

FunASR

1.3.1

CPU-NPU 精度一致性结果

本模型为流式（streaming）模型，CPU 与 NPU 的 encoder 数值对比不适用于分块处理架构，因此采用文本输出质量验证。

指标	值
模式	streaming_text_check
CPU 文本	欢迎大体来体摩一达摩推推推的的语音识识识别
NPU 文本	模型欢迎大家来体验大大摩出推推出的语音识别
NPU 文本长度	21
阈值	N/A (streaming model)
结果	PASS

注：流式模型采用分块处理，CPU 与 NPU 的数值差异在 chunk 边界处累积，因此不适合直接对比 encoder tensor。NPU 输出非空且包含有意义的中文文本即视为通过。

指标

值

avg_latency_ms

757.40

min_latency_ms

732.59

max_latency_ms

787.17

p50_latency_ms

748.89

p90_latency_ms

784.93

p95_latency_ms

786.05

audio_duration_sec

5.55

real_time_factor

0.1365

工程结构

iic-speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online-NPU/
├── assets/
│   └── test.wav
├── logs/
│   ├── env_check.log
│   ├── inference.log
│   ├── eval_consistency.log
│   └── benchmark.log
├── screenshots/
│   └── self_verification.png
├── models/
├── model_utils.py
├── inference.py
├── eval_consistency.py
├── benchmark.py
├── requirements.txt
├── .gitignore
└── README.md

speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online NPU 适配

模型信息

环境信息

模型下载

音频预处理

NPU 推理命令

NPU 推理输出

CPU-NPU 精度一致性结果

Benchmark 结果

工程结构

运行说明

标签

speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online NPU 适配

模型信息

环境信息

模型下载

音频预处理

NPU 推理命令

NPU 推理输出

CPU-NPU 精度一致性结果

Benchmark 结果

工程结构

运行说明

标签