g
gyccc/iic-speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch-NPU
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

iic/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch #NPU

模型信息

  • 模型名: iic/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch
  • 任务类型: 自动语音识别(ASR)
  • 模型架构: UniASR 2pass(SANMEncoderChunkOpt + FsmnDecoderSCAMAOpt + CifPredictorV2)
  • 语言: 乌尔都语(Urdu)
  • 来源: ModelScope — https://modelscope.cn/models/iic/speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch

环境信息

项目版本
NPUAscend910B
CANN8.5.1
Python3.11
torch_npu2.6.0
funasr1.3.1

模型下载

通过 ModelScope 的 snapshot_download 函数下载至本地缓存目录,推理时从本地加载。

音频预处理

  • 采样率:16kHz
  • 单声道
  • 通过 torchaudio 加载 WAV 文件

NPU 推理命令

python inference.py

NPU 推理输出

سی پیک ٹیلی سے عملی صورت اختیار کر چکا ہے سرتاج عزیز

CPU-NPU 精度一致性校验

通过 register_forward_hook 在 model.model.encoder 上捕获编码器输出,计算 CPU 与 NPU 之间的数值差异。

指标值
最大绝对误差0.0050
平均绝对误差0.0001
相对误差0.140%
余弦相似度0.99999970
阈值1.0%
结果通过

性能基准测试结果

指标值
平均延迟(毫秒)3292.61
最小延迟(毫秒)3244.24
最大延迟(毫秒)3372.08
P50 延迟(毫秒)3280.42
P90 延迟(毫秒)3352.57
P95 延迟(毫秒)3362.32
音频时长(秒)14.50
实时因子0.2271

工程结构

iic-speech_UniASR_asr_2pass-ur-16k-common-vocab877-pytorch-NPU/
├── model_utils.py          # 模型加载与音频处理工具
├── inference.py            # NPU 推理脚本
├── eval_consistency.py     # CPU-NPU 数值一致性校验
├── benchmark.py            # 性能测试
├── requirements.txt        # 依赖
├── .gitignore
├── assets/
│   └── test.wav            # 测试音频
├── logs/
│   ├── inference.log
│   ├── consistency.log
│   └── benchmark.log
├── screenshots/
│   └── self_verification.png
└── README.md

运行说明

# 安装依赖
pip install -r requirements.txt

# NPU 推理
python inference.py

# CPU-NPU 一致性校验
python eval_consistency.py

# 性能测试
python benchmark.py

#NPU