xujiashuai/speech_charctc_kws_phone-xiaoyun_mt
模型介绍文件和版本Pull Requests讨论分析

speech_charctc_kws_phone-xiaoyun_mt - 昇腾 NPU 适配

1. 模型简介

基于 FSMN(前馈序列记忆网络)的小云语音唤醒模型,支持“小云”关键词检测,输入为 16kHz 采样率音频。

  • 原始模型:iic/speech_charctc_kws_phone-xiaoyun_mt
  • 框架:PyTorch
  • 任务:关键词检测(KWS)
  • 骨干网络:FSMN(4 层,250 线性维度,128 投影维度)

2. 昇腾 NPU 适配结果

指标值
余弦相似度1.000028
帧匹配率100.00%
平均延迟1.33ms
输出维度(1, T, 2599)
推理精度float32
设备Ascend 910B4

3. 环境要求

组件版本
CANN8.5.1
torch_npu2.9.0.post1
PyTorch2.9.0
Python3.11
modelscopelatest

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py
python evaluate.py

5. 推理输出证据

Model: iic/speech_charctc_kws_phone-xiaoyun_mt
Device: npu:0
Output shape: [1, 451, 2599]
Output sample: [408318.46875, 1571958.625, -2035728.125, -1853350.875, -1601076.25]
Latency: 1.33ms

--- CPU vs NPU 精度对比 ---
Cosine Similarity: 1.000028
Max Abs Error: 2159.250000
Frame match: 451/451 (100.0000%)
SUCCESS

6. CPU 与 NPU 精度对比

指标CPU (float32)NPU (float32)误差
余弦相似度基准1.000028< 0.0001
帧匹配率基准100.00%0
输出维度(1, 451, 2599)(1, 451, 2599)一致

7. 模型结构

  • 主干网络: FSMN(4 层)
  • 输入: 80 维 fbank 特征(16kHz)→ 上下文扩展(左=2,右=2)→ 400 维
  • 特征均值方差归一化: 全局均值方差归一化
  • 输出: (1, T, 2599) 帧级别 CTC 对数概率
  • 关键词: 小云 (xiaoyun)
下载使用量0