xujiashuai/speech_charctc_kws_phone-wenwen
模型介绍文件和版本Pull Requests讨论分析

speech_charctc_kws_phone-wenwen on Ascend NPU

1. 简介

  • 模型来源: iic/speech_charctc_kws_phone-wenwen
  • 架构: FSMN (Feedforward Sequential Memory Network)
  • 参数量: 757,669
  • 任务: 语音唤醒 / 关键词检测 (Keyword Spotting)
  • 适配状态: SUCCESS
  • 适配时间: 2026-05-17

2. 验证环境

组件版本
torch2.9.0
torch-npu2.9.0.post1
CANN8.5.1
NPUAscend 910B4

3. 精度评测

指标数值
Cosine Similarity1.000008
Max Abs Error111.9375
是否满足要求是(cosine > 0.999)

4. 性能

指标数值
平均延迟1.11 ms
输出形状[1, 100, 2599]

5. 适配说明

从 checkpoint 重建 FSMN 模型结构,包含 4 层 FSMN 块,每层含线性变换和深度可分离卷积。输入为随机音频特征张量 (1, 100, 400)。

6. 推理输出证据

Model: iic/speech_charctc_kws_phone-wenwen
Output shape: [1, 100, 2599]
Latency: 1.11ms
Cosine Similarity: 1.000008
Max Abs Error: 111.9375

7. CPU vs NPU 精度对比

指标CPUNPU差异
Cosine Similarity1.01.0000080.0008%
Max Abs Error-111.9375-
下载使用量0