g
gyccc/iic-speech_UniASR_asr_2pass-tr-16k-common-vocab1582-pytorch-NPU
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

iic/speech_UniASR_asr_2pass-tr-16k-common-vocab1582-pytorch #NPU

模型信息

  • 模型名: iic/speech_UniASR_asr_2pass-tr-16k-common-vocab1582-pytorch
  • 任务类型: 自动语音识别(ASR)
  • 模型架构: UniASR 2pass(SANMEncoderChunkOpt + FsmnDecoderSCAMAOpt + CifPredictorV2)
  • 语言: 土耳其语
  • 来源: ModelScope — https://modelscope.cn/models/iic/speech_UniASR_asr_2pass-tr-16k-common-vocab1582-pytorch

环境信息

项目版本
NPUAscend910B
CANN8.5.1
Python3.11
torch_npu2.6.0
funasr1.3.1

模型下载

通过 ModelScope 的 snapshot_download 函数下载至本地缓存目录,推理时从本地加载。

音频预处理

  • 采样率:16kHz
  • 单声道
  • 通过 torchaudio 加载 WAV 文件

NPU 推理命令

python inference.py

NPU 推理输出

karşılıklı cümleler havalarda uçuşuyor iktidar tarafı bunu referanduma götürmeme kararında ilk defa belki de böyle bir geri adımın içerisinde iktidar partisi ve erdoğan çünkü bunu evet sandıktan

CPU-NPU 精度一致性校验

通过 register_forward_hook 在 model.model.encoder 上捕获编码器输出,计算 CPU 与 NPU 之间的数值差异。

指标值
最大绝对误差0.00499
平均绝对误差0.000136
相对误差0.069%
余弦相似度0.99999985
阈值1.0%
结果通过

性能基准测试结果

指标值
平均延迟(毫秒)3292.61
最小延迟(毫秒)3244.24
最大延迟(毫秒)3372.08
50%分位延迟(毫秒)3280.42
90%分位延迟(毫秒)3352.57
95%分位延迟(毫秒)3362.32
音频时长(秒)14.50
实时因子0.2271

工程结构

iic-speech_UniASR_asr_2pass-tr-16k-common-vocab1582-pytorch-NPU/
├── model_utils.py          # 模型加载与音频处理工具
├── inference.py            # NPU 推理脚本
├── eval_consistency.py     # CPU-NPU 数值一致性校验
├── benchmark.py            # 性能测试
├── requirements.txt        # 依赖
├── .gitignore
├── assets/
│   └── test.wav            # 测试音频
├── logs/
│   ├── inference.log
│   ├── consistency.log
│   └── benchmark.log
├── screenshots/
│   └── self_verification.png
└── README.md

运行说明

# 安装依赖
pip install -r requirements.txt

# NPU 推理
python inference.py

# CPU-NPU 一致性校验
python eval_consistency.py

# 性能测试
python benchmark.py

#NPU