g
gyccc/damo-speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch-NPU
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

damo/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch NPU 适配

模型信息

  • 模型名: damo/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch
  • 任务类型: 自动语音识别
  • 模型架构: FunASR Paraformer
  • 模型来源: ModelScope

环境信息

  • NPU: Ascend910
  • CANN: 8.5.1
  • Python: 3.11
  • torch_npu: 2.9.0.post1
  • NPU 设备: npu:0 (Ascend910)

ModelScope 下载说明

使用 ModelScope 的 snapshot_download 从本地缓存加载模型,而非直接从 HuggingFace 下载。

from modelscope import snapshot_download
model_dir = snapshot_download("damo/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch")

模型本地路径:models/paraformer_tiny_commandword(项目内相对路径)或 ~/.cache/modelscope/hub/models/damo/speech_paraformer-tiny-commandword_asr_nat-zh-cn-16k-vocab544-pytorch

音频预处理说明

  • 输入格式:WAV
  • 采样率:16kHz
  • 声道:单声道
  • 测试音频:assets/test.wav,时长约 4.08 秒
  • 使用 Python 标准库 wave + numpy 读取并预处理(兼容无 ffmpeg 环境)

NPU 推理命令

python inference.py

依赖安装:

pip install -r requirements.txt

NPU 转写文本

温度调高

CPU-NPU 精度一致性结果

指标数值
max_abs_error0.000994
mean_abs_error0.000090
relative_error0.061099%
cosine_similarity1.000000
threshold1.0%
resultPASS

基准测试结果

指标数值
avg_latency_ms28.06
min_latency_ms27.32
max_latency_ms28.38
p50_latency_ms28.21
p90_latency_ms28.33
p95_latency_ms28.36
audio_duration_sec4.08
real_time_factor0.0069

工程结构

.
├── assets/
│   └── test.wav
├── logs/
│   ├── benchmark.log
│   ├── env_check.log
│   ├── eval_consistency.log
│   └── inference.log
├── screenshots/
│   └── self_verification.txt
├── model_utils.py
├── inference.py
├── eval_consistency.py
├── benchmark.py
├── requirements.txt
├── .gitignore
└── README.md

运行说明

依次执行:

python inference.py
python eval_consistency.py
python benchmark.py

标签

#NPU