xujiashuai/timm-speech_eres2net_large_sv_zh-cn_cnceleb_16k
模型介绍文件和版本Pull Requests讨论分析

timm-speech_eres2net_large_sv_zh-cn_cnceleb_16k - 昇腾 NPU 适配

1. 模型简介

中文说话人验证模型,基于 ERes2Net-Large (Enhanced Res2Net) 架构,CN-Celeb 数据集训练。参数量 22.46M,识别准确率高于 Base 版本。

  • 原始模型: iic/speech_eres2net_large_sv_zh-cn_cnceleb_16k
  • 框架: PyTorch
  • 任务: Speaker Verification (Chinese)

2. 昇腾 NPU 适配结果

指标值
余弦相似度0.999999
平均延迟10.83 ms
推理精度float16
设备Ascend 910B4

3. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
python inference.py --device npu:0 --dtype float16

4. 推理输出证据

模型: iic/speech_eres2net_large_sv_zh-cn_cnceleb_16k
设备: npu:0
精度: float16
------------------------------------------------------------
  fbank features: shape=torch.Size([1, 370, 80])
  embedding: shape=torch.Size([1, 512])
  embedding (first 10): [0.06658935546875, -1.1630859375, 2.46875, 0.390625, -0.451904296875, -1.0615234375, -0.07232666015625, 2.783203125, -1.6689453125, -0.9208984375]
  Cosine Similarity (embedding): 0.999999
✓ 推理完成
  平均延迟: 10.83 ms

5. CPU 与 NPU 精度对比

指标CPU (float32)NPU (float16)误差
余弦相似度基准0.999999< 0.001%
输出维度[1,512][1,512]一致

6. 智能体技能

本适配由 batch-adapter 自动完成。

下载使用量0