timm-speech_rdino_ecapa_tdnn_sv_zh-cn_3dspeaker_16k 在昇腾 NPU 上的部署

1. 简介

指标	数值
平均延迟	5.68 ms
输出形状	[1, 512]

使用 modelscope 内置的 ECAPA_TDNN 架构，从 DINO 训练检查点中提取学生骨干网络权重（去掉 module.backbone. 前缀）。输入为 fbank 特征 (batch, time, freq) = (1, 200, 80)。

Embedding shape: [1, 512]
Embedding sample: [4.155, -7.604, 6.585, 4.591, 0.016]
SUCCESS

指标	CPU	NPU	差异
余弦相似度	1.0	1.000000	0%
最大绝对误差	-	0.001879	-

指标	数值
平均延迟	5.68 ms
输出形状	[1, 512]

Embedding shape: [1, 512]
Embedding sample: [4.155, -7.604, 6.585, 4.591, 0.016]
SUCCESS

指标	CPU	NPU	差异
余弦相似度	1.0	1.000000	0%
最大绝对误差	-	0.001879	-