speech_charctc_kws_phone-xiaoyun_mt - 昇腾 NPU 适配

1. 模型简介

基于 FSMN（前馈序列记忆网络）的小云语音唤醒模型，支持“小云”关键词检测，输入为 16kHz 采样率音频。

原始模型：iic/speech_charctc_kws_phone-xiaoyun_mt
框架：PyTorch
任务：关键词检测（KWS）
骨干网络：FSMN（4 层，250 线性维度，128 投影维度）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度	1.000028
帧匹配率	100.00%
平均延迟	1.33ms
输出维度	(1, T, 2599)
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11
modelscope	latest

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py
python evaluate.py

5. 推理输出证据

Model: iic/speech_charctc_kws_phone-xiaoyun_mt
Device: npu:0
Output shape: [1, 451, 2599]
Output sample: [408318.46875, 1571958.625, -2035728.125, -1853350.875, -1601076.25]
Latency: 1.33ms

--- CPU vs NPU 精度对比 ---
Cosine Similarity: 1.000028
Max Abs Error: 2159.250000
Frame match: 451/451 (100.0000%)
SUCCESS

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
余弦相似度	基准	1.000028	< 0.0001
帧匹配率	基准	100.00%	0
输出维度	(1, 451, 2599)	(1, 451, 2599)	一致

7. 模型结构

主干网络: FSMN（4 层）
输入: 80 维 fbank 特征（16kHz）→ 上下文扩展（左=2，右=2）→ 400 维
特征均值方差归一化: 全局均值方差归一化
输出: (1, T, 2599) 帧级别 CTC 对数概率
关键词: 小云 (xiaoyun)

speech_charctc_kws_phone-xiaoyun_mt - 昇腾 NPU 适配

1. 模型简介

基于 FSMN（前馈序列记忆网络）的小云语音唤醒模型，支持“小云”关键词检测，输入为 16kHz 采样率音频。

原始模型：iic/speech_charctc_kws_phone-xiaoyun_mt
框架：PyTorch
任务：关键词检测（KWS）
骨干网络：FSMN（4 层，250 线性维度，128 投影维度）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度	1.000028
帧匹配率	100.00%
平均延迟	1.33ms
输出维度	(1, T, 2599)
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11
modelscope	latest

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py
python evaluate.py

5. 推理输出证据

Model: iic/speech_charctc_kws_phone-xiaoyun_mt
Device: npu:0
Output shape: [1, 451, 2599]
Output sample: [408318.46875, 1571958.625, -2035728.125, -1853350.875, -1601076.25]
Latency: 1.33ms

--- CPU vs NPU 精度对比 ---
Cosine Similarity: 1.000028
Max Abs Error: 2159.250000
Frame match: 451/451 (100.0000%)
SUCCESS

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
余弦相似度	基准	1.000028	< 0.0001
帧匹配率	基准	100.00%	0
输出维度	(1, 451, 2599)	(1, 451, 2599)	一致

7. 模型结构

主干网络: FSMN（4 层）
输入: 80 维 fbank 特征（16kHz）→ 上下文扩展（左=2，右=2）→ 400 维
特征均值方差归一化: 全局均值方差归一化
输出: (1, T, 2599) 帧级别 CTC 对数概率
关键词: 小云 (xiaoyun)