| 项目 | 内容 |
|---|---|
| 模型名 | iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online |
| 任务类型 | Automatic Speech Recognition (ASR) |
| 模型架构 | Streaming Paraformer (SANMEncoderChunkOpt) |
| 框架 | FunASR 1.3.1 |
| 来源 | ModelScope (达摩院) |
| 语言 | 中文 |
| 采样率 | 16kHz |
| 特性 | 流式在线推理,支持实时语音识别 |
| 项目 | 版本 |
|---|---|
| NPU | Ascend910_9362 |
| CANN | 8.5.1 |
| Python | 3.11.14 |
| torch | 2.x |
| torch_npu | 2.9.0 |
| FunASR | 1.3.1 |
from modelscope import snapshot_download
model_dir = snapshot_download("iic/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online")模型权重存储在本地 models/ 目录(已 .gitignore 排除)。
load_wav() 加载并 resample 到 16kHzpython inference.py欢迎大家来来体验达摩院推出的的语音识别模型本模型为流式(streaming)模型,CPU 与 NPU 的 encoder 数值对比不适用于分块处理架构,因此采用文本输出质量验证。
| 指标 | 值 |
|---|---|
| 模式 | streaming_text_check |
| CPU 文本 | 欢迎大体来体摩一达摩推推推的的语音识识识别 |
| NPU 文本 | 模型欢迎大家来体验大大摩出推推出的语音识别 |
| NPU 文本长度 | 21 |
| 阈值 | N/A (streaming model) |
| 结果 | PASS |
注:流式模型采用分块处理,CPU 与 NPU 的数值差异在 chunk 边界处累积,因此不适合直接对比 encoder tensor。NPU 输出非空且包含有意义的中文文本即视为通过。
| 指标 | 值 |
|---|---|
| avg_latency_ms | 757.40 |
| min_latency_ms | 732.59 |
| max_latency_ms | 787.17 |
| p50_latency_ms | 748.89 |
| p90_latency_ms | 784.93 |
| p95_latency_ms | 786.05 |
| audio_duration_sec | 5.55 |
| real_time_factor | 0.1365 |
iic-speech_paraformer_asr_nat-zh-cn-16k-common-vocab8404-online-NPU/
├── assets/
│ └── test.wav
├── logs/
│ ├── env_check.log
│ ├── inference.log
│ ├── eval_consistency.log
│ └── benchmark.log
├── screenshots/
│ └── self_verification.png
├── models/
├── model_utils.py
├── inference.py
├── eval_consistency.py
├── benchmark.py
├── requirements.txt
├── .gitignore
└── README.md# 安装依赖
pip install -r requirements.txt
# NPU 推理
python inference.py
# CPU-NPU 一致性校验
python eval_consistency.py
# 性能测试
python benchmark.py#NPU