timm-speech_rdino_ecapa_tdnn_sv_zh-cn_3dspeaker_16k 在昇腾 NPU 上的部署
1. 简介
- 模型来源: iic/speech_rdino_ecapa_tdnn_sv_zh-cn_3dspeaker_16k
- 架构: ECAPA_TDNN(采用 RDINO 骨干网络)
- 参数量: 22,733,952
- 任务: 中文说话人验证
- 适配状态: 成功
- 适配时间: 2026-05-17
2. 验证环境
| 组件 | 版本 |
|---|
| torch | 2.9.0 |
| torch-npu | 2.9.0.post1 |
| CANN | 8.5.1 |
| NPU | Ascend 910B4 |
3. 精度评测
| 指标 | 数值 |
|---|
| 余弦相似度 | 1.000000 |
| 最大绝对误差 | 0.001879 |
| 是否满足要求 | 是(< 1%) |
4. 性能
| 指标 | 数值 |
|---|
| 平均延迟 | 5.68 ms |
| 输出形状 | [1, 512] |
5. 适配说明
使用 modelscope 内置的 ECAPA_TDNN 架构,从 DINO 训练检查点中提取学生骨干网络权重(去掉 module.backbone. 前缀)。输入为 fbank 特征 (batch, time, freq) = (1, 200, 80)。
6. 推理输出证据
Embedding shape: [1, 512]
Embedding sample: [4.155, -7.604, 6.585, 4.591, 0.016]
SUCCESS
7. CPU 与 NPU 精度对比
| 指标 | CPU | NPU | 差异 |
|---|
| 余弦相似度 | 1.0 | 1.000000 | 0% |
| 最大绝对误差 | - | 0.001879 | - |