xujiashuai/timm-speech_resnet34_sv_zh-cn_3dspeaker_16k
模型介绍文件和版本Pull Requests讨论分析

speech_resnet34_sv_zh-cn_3dspeaker_16k on Ascend NPU

1. 简介

本文档记录 iic/speech_resnet34_sv_zh-cn_3dspeaker_16k 在昇腾 NPU 上的适配验证结果。

  • 模型来源: iic/speech_resnet34_sv_zh-cn_3dspeaker_16k
  • 参数量: 6,343,648 (~6.3M)
  • 适配状态: SUCCESS
  • 适配时间: 2026-05-17

2. 验证环境

组件版本
torch2.9.0
torch-npu2.9.0.post1
CANN8.5.1
  • NPU: Ascend 910B4
  • 系统: Linux aarch64

3. 推理脚本

python inference.py --model-id iic/speech_resnet34_sv_zh-cn_3dspeaker_16k --device npu:0

4. Smoke 验证

功能验证结果:

指标结果
输出形状[1, 192]
是否有 NaN否
推理状态正常

推理输出示例:

  • Embedding 前5个 (CPU): [-1.2250, 2.6529, -1.0019, -1.1831, 0.5885]
  • Embedding 前5个 (NPU): [-1.2252, 2.6530, -1.0018, -1.1833, 0.5884]

5. 性能参考

指标数值
平均延迟3.48 ms
测试轮数10

6. 精度评测

NPU vs CPU 精度对比

指标数值
Cosine Similarity1.000000
Max Abs Error0.000833
精度误差0.0000%
是否满足要求是(< 1%)

7. 评测材料

材料文件说明
推理脚本inference.py独立可运行的 NPU 推理代码

8. 注意事项

  • ResNet34 为 speaker-verification 任务模型,输入 FBank 特征 (80-dim),输出 192-dim speaker embedding
  • 模型使用标准 ResNet34 + TSTP (Temporal Statistics Pooling) + 两层 embedding head
  • 通道配置: m_channels=32, layers=[3,4,6,3]
  • 输入: 80-dim FBank 特征 (模拟 3s 音频, 300 帧)

贡献者: xujiashuai 参赛赛道: 模型适配赛道 提交时间: 2026-05-17

下载使用量0