xujiashuai/timm-speech_ecapa-tdnn_sv_en_voxceleb_16k
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

speech_ecapa-tdnn_sv_en_voxceleb_16k - 昇腾 NPU 适配

1. 模型简介

说话人验证模型,基于 ECAPA-TDNN 架构(1024 通道),可对两段音频进行说话人相似度判断。

  • 原始模型: iic/speech_ecapa-tdnn_sv_en_voxceleb_16k
  • 框架: PyTorch
  • 任务: Speaker Verification

2. 昇腾 NPU 适配结果

指标值
余弦相似度1.000000
平均延迟17.26 ms
参数量~14M
推理精度float32
设备Ascend 910B4

3. 环境要求

组件版本
CANN8.5.1
torch_npu2.9.0.post1
PyTorch2.9.0
Python3.11

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py --device npu:0 --dtype float32

5. 推理输出证据

NPU 推理输出(float32):

模型: iic/speech_ecapa-tdnn_sv_en_voxceleb_16k
设备: npu:0
精度: float32
------------------------------------------------------------
  fbank features: shape=torch.Size([1, 778, 80])
  embedding: shape=torch.Size([1, 192])
  embedding (first 10): [0.2558, 0.1489, -0.5268, -0.0182, 0.3210, 0.0287, 0.6171, -0.1130, 0.4537, 0.4547]

  Cosine Similarity (embedding): 1.000000

✓ 推理完成
  平均延迟: 17.26 ms

6. CPU 与 NPU 精度对比

指标CPU (float32)NPU (float32)误差
余弦相似度基准1.0000000
输出维度[1,192][1,192]一致

7. 模型结构

  • 主干网络: ECAPA-TDNN (1024 通道,5 个模块)
  • 池化层: 注意力统计池化
  • 嵌入向量: 192 维
  • 输入: 16kHz 音频 → 80 维 fbank 特征
  • 输出: 192 维说话人嵌入向量

8. 工具能力

本适配由 batch-adapter 自动完成。