xujiashuai/speech_eres2net_base_sv_zh-cn_cnceleb_16k
模型介绍文件和版本Pull Requests讨论分析

ERes2Net 说话人验证模型(speech_eres2net_base_sv_zh-cn_cnceleb_16k)

ERes2Net 是一种增强型 Res2Net 架构,通过局部和全局特征融合实现说话人验证。

  • 模型 ID:iic/speech_eres2net_base_sv_zh-cn_cnceleb_16k
  • 任务:说话人验证
  • 框架:PyTorch
  • 输入:16kHz 单声道音频
  • 输出:512 维说话人嵌入向量

验证环境

项目数值
NPUAscend910B4
CANN8.5.1
PyTorch2.9.0+cpu
torch_npu2.9.0.post1
Python3.11.14

精度评估

使用真实音频样本的 CPU 与 NPU 余弦相似度对比:

指标数值
余弦相似度1.000000

推理输出

Output shape: [1, 512]
Output sample: [0.0856, -0.3106, 0.2295, 0.0755, -0.2715]
SUCCESS

复现

python3 inference.py
python3 evaluate.py

材料

  • inference.py - NPU 推理脚本
  • evaluate.py - CPU 与 NPU 余弦相似度评估
下载使用量0