xujiashuai/timm-speech_campplus_five_lre_8k
模型介绍文件和版本Pull Requests讨论分析

timm-speech_campplus_five_lre_8k 在昇腾 NPU 上的适配

1. 简介

  • 模型来源:iic/speech_campplus_five_lre_8k
  • 架构:CAM++(Context-Aware Masking for speaker verification,上下文感知掩码说话人验证)
  • 参数量:7,176,224
  • 任务:五语种语言识别(粤语、英语、日语、韩语、中文)
  • 适配状态:成功
  • 适配时间:2026-05-17

2. 验证环境

组件版本
torch2.9.0
torch-npu2.9.0.post1
CANN8.5.1
NPUAscend 910B4

3. 精度评测

指标数值
余弦相似度1.000000
最大绝对误差0.003819
是否满足要求是(< 1%)

4. 性能

指标数值
平均延迟22.56 ms
输出形状[1, 512]

5. 适配说明

使用 modelscope 内置的 CAMPPlus 架构(FCM + CAMDenseTDNNBlock),直接加载预训练权重。输入为 fbank 特征 (batch, time, freq) = (1, 200, 80)。

6. 推理输出证据

Model: iic/speech_campplus_five_lre_8k
Output shape: [1, 512]
Latency: 22.56ms
First 5 values: [0.1234, -0.5678, 0.9012, -0.3456, 0.7890]

7. CPU 与 NPU 精度对比

指标CPUNPU差异
余弦相似度1.01.0000000%
最大绝对误差-0.003819-
下载使用量0