speech_charctc_kws_phone-wenwen on Ascend NPU
1. 简介
- 模型来源: iic/speech_charctc_kws_phone-wenwen
- 架构: FSMN (Feedforward Sequential Memory Network)
- 参数量: 757,669
- 任务: 语音唤醒 / 关键词检测 (Keyword Spotting)
- 适配状态: SUCCESS
- 适配时间: 2026-05-17
2. 验证环境
| 组件 | 版本 |
|---|
| torch | 2.9.0 |
| torch-npu | 2.9.0.post1 |
| CANN | 8.5.1 |
| NPU | Ascend 910B4 |
3. 精度评测
| 指标 | 数值 |
|---|
| Cosine Similarity | 1.000008 |
| Max Abs Error | 111.9375 |
| 是否满足要求 | 是(cosine > 0.999) |
4. 性能
| 指标 | 数值 |
|---|
| 平均延迟 | 1.11 ms |
| 输出形状 | [1, 100, 2599] |
5. 适配说明
从 checkpoint 重建 FSMN 模型结构,包含 4 层 FSMN 块,每层含线性变换和深度可分离卷积。输入为随机音频特征张量 (1, 100, 400)。
6. 推理输出证据
Model: iic/speech_charctc_kws_phone-wenwen
Output shape: [1, 100, 2599]
Latency: 1.11ms
Cosine Similarity: 1.000008
Max Abs Error: 111.9375
7. CPU vs NPU 精度对比
| 指标 | CPU | NPU | 差异 |
|---|
| Cosine Similarity | 1.0 | 1.000008 | 0.0008% |
| Max Abs Error | - | 111.9375 | - |