iic/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch #NPU

模型信息

模型名: iic/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch
任务类型: 自动语音识别（ASR）
模型架构: UniASR 2pass（SANMEncoderChunkOpt + FsmnDecoderSCAMAOpt + CifPredictorV2）
语言: 乌尔都语（Urdu）
来源: ModelScope — https://modelscope.cn/models/iic/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch

环境信息

项目	版本
NPU	Ascend910B
CANN	8.5.1
Python	3.11
torch_npu	2.6.0
funasr	1.3.1

模型下载

通过 ModelScope 的 snapshot_download 函数下载至本地缓存目录，推理时从本地加载。

音频预处理

采样率：16kHz
单声道
通过 torchaudio 加载 WAV 文件

NPU 推理命令

python inference.py

NPU 推理输出

سی پیک ٹیلی سے عملی صورت اختیار کر چکا ہے سرتاج عزیز

CPU-NPU 精度一致性校验

通过 register_forward_hook 在 model.model.encoder 上捕获编码器输出，计算 CPU 与 NPU 之间的数值差异。

指标	值
最大绝对误差	0.0050
平均绝对误差	0.0001
相对误差	0.140%
余弦相似度	0.99999970
阈值	1.0%
结果	通过

性能基准测试结果

指标	值
平均延迟（毫秒）	3292.61
最小延迟（毫秒）	3244.24
最大延迟（毫秒）	3372.08
P50 延迟（毫秒）	3280.42
P90 延迟（毫秒）	3352.57
P95 延迟（毫秒）	3362.32
音频时长（秒）	14.50
实时因子	0.2271

工程结构

iic-speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch-NPU/
├── model_utils.py          # 模型加载与音频处理工具
├── inference.py            # NPU 推理脚本
├── eval_consistency.py     # CPU-NPU 数值一致性校验
├── benchmark.py            # 性能测试
├── requirements.txt        # 依赖
├── .gitignore
├── assets/
│   └── test.wav            # 测试音频
├── logs/
│   ├── inference.log
│   ├── consistency.log
│   └── benchmark.log
├── screenshots/
│   └── self_verification.png
└── README.md

运行说明

# 安装依赖
pip install -r requirements.txt

# NPU 推理
python inference.py

# CPU-NPU 一致性校验
python eval_consistency.py

# 性能测试
python benchmark.py

#NPU

模型信息

模型名: iic/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch

任务类型: 自动语音识别（ASR）

模型架构: UniASR 2pass（SANMEncoderChunkOpt + FsmnDecoderSCAMAOpt + CifPredictorV2）

语言: 乌尔都语（Urdu）

来源: ModelScope — https://modelscope.cn/models/iic/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch

项目

版本

NPU

Ascend910B

CANN

8.5.1

Python

3.11

torch_npu

2.6.0

funasr

1.3.1

指标

值

最大绝对误差

0.0050

平均绝对误差

0.0001

相对误差

0.140%

余弦相似度

0.99999970

阈值

1.0%

结果

通过

指标

值

平均延迟（毫秒）

3292.61

最小延迟（毫秒）

3244.24

最大延迟（毫秒）

3372.08

P50 延迟（毫秒）

3280.42

P90 延迟（毫秒）

3352.57

P95 延迟（毫秒）

3362.32

音频时长（秒）

14.50

实时因子

0.2271

工程结构

iic-speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch-NPU/
├── model_utils.py          # 模型加载与音频处理工具
├── inference.py            # NPU 推理脚本
├── eval_consistency.py     # CPU-NPU 数值一致性校验
├── benchmark.py            # 性能测试
├── requirements.txt        # 依赖
├── .gitignore
├── assets/
│   └── test.wav            # 测试音频
├── logs/
│   ├── inference.log
│   ├── consistency.log
│   └── benchmark.log
├── screenshots/
│   └── self_verification.png
└── README.md