speech_charctc_kws_phone-xiaoyun_mt - 昇腾 NPU 适配
1. 模型简介
基于 FSMN(前馈序列记忆网络)的小云语音唤醒模型,支持“小云”关键词检测,输入为 16kHz 采样率音频。
2. 昇腾 NPU 适配结果
| 指标 | 值 |
|---|
| 余弦相似度 | 1.000028 |
| 帧匹配率 | 100.00% |
| 平均延迟 | 1.33ms |
| 输出维度 | (1, T, 2599) |
| 推理精度 | float32 |
| 设备 | Ascend 910B4 |
3. 环境要求
| 组件 | 版本 |
|---|
| CANN | 8.5.1 |
| torch_npu | 2.9.0.post1 |
| PyTorch | 2.9.0 |
| Python | 3.11 |
| modelscope | latest |
4. 快速使用
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
python inference.py
python evaluate.py
5. 推理输出证据
Model: iic/speech_charctc_kws_phone-xiaoyun_mt
Device: npu:0
Output shape: [1, 451, 2599]
Output sample: [408318.46875, 1571958.625, -2035728.125, -1853350.875, -1601076.25]
Latency: 1.33ms
--- CPU vs NPU 精度对比 ---
Cosine Similarity: 1.000028
Max Abs Error: 2159.250000
Frame match: 451/451 (100.0000%)
SUCCESS
6. CPU 与 NPU 精度对比
| 指标 | CPU (float32) | NPU (float32) | 误差 |
|---|
| 余弦相似度 | 基准 | 1.000028 | < 0.0001 |
| 帧匹配率 | 基准 | 100.00% | 0 |
| 输出维度 | (1, 451, 2599) | (1, 451, 2599) | 一致 |
7. 模型结构
- 主干网络: FSMN(4 层)
- 输入: 80 维 fbank 特征(16kHz)→ 上下文扩展(左=2,右=2)→ 400 维
- 特征均值方差归一化: 全局均值方差归一化
- 输出: (1, T, 2599) 帧级别 CTC 对数概率
- 关键词: 小云 (xiaoyun)