xujiashuai/timm-speech_rdino_ecapa_tdnn_sv_zh-cn_3dspeaker_16k
模型介绍文件和版本Pull Requests讨论分析

timm-speech_rdino_ecapa_tdnn_sv_zh-cn_3dspeaker_16k 在昇腾 NPU 上的部署

1. 简介

  • 模型来源: iic/speech_rdino_ecapa_tdnn_sv_zh-cn_3dspeaker_16k
  • 架构: ECAPA_TDNN(采用 RDINO 骨干网络)
  • 参数量: 22,733,952
  • 任务: 中文说话人验证
  • 适配状态: 成功
  • 适配时间: 2026-05-17

2. 验证环境

组件版本
torch2.9.0
torch-npu2.9.0.post1
CANN8.5.1
NPUAscend 910B4

3. 精度评测

指标数值
余弦相似度1.000000
最大绝对误差0.001879
是否满足要求是(< 1%)

4. 性能

指标数值
平均延迟5.68 ms
输出形状[1, 512]

5. 适配说明

使用 modelscope 内置的 ECAPA_TDNN 架构,从 DINO 训练检查点中提取学生骨干网络权重(去掉 module.backbone. 前缀)。输入为 fbank 特征 (batch, time, freq) = (1, 200, 80)。

6. 推理输出证据

Embedding shape: [1, 512]
Embedding sample: [4.155, -7.604, 6.585, 4.591, 0.016]
SUCCESS

7. CPU 与 NPU 精度对比

指标CPUNPU差异
余弦相似度1.01.0000000%
最大绝对误差-0.001879-
下载使用量0