speech_resnet34_sv_zh-cn_3dspeaker_16k on Ascend NPU

1. 简介

本文档记录 iic/speech_resnet34_sv_zh-cn_3dspeaker_16k 在昇腾 NPU 上的适配验证结果。

python inference.py --model-id iic/speech_resnet34_sv_zh-cn_3dspeaker_16k --device npu:0

功能验证结果：

推理输出示例：

指标	数值
平均延迟	3.48 ms
测试轮数	10

NPU vs CPU 精度对比

材料	文件	说明
推理脚本	`inference.py`	独立可运行的 NPU 推理代码

ResNet34 为 speaker-verification 任务模型，输入 FBank 特征 (80-dim)，输出 192-dim speaker embedding
模型使用标准 ResNet34 + TSTP (Temporal Statistics Pooling) + 两层 embedding head
通道配置: m_channels=32, layers=[3,4,6,3]
输入: 80-dim FBank 特征 (模拟 3s 音频, 300 帧)

贡献者: xujiashuai 参赛赛道: 模型适配赛道 提交时间: 2026-05-17

本文档记录 iic/speech_resnet34_sv_zh-cn_3dspeaker_16k 在昇腾 NPU 上的适配验证结果。

python inference.py --model-id iic/speech_resnet34_sv_zh-cn_3dspeaker_16k --device npu:0

功能验证结果：

推理输出示例：

指标	数值
平均延迟	3.48 ms
测试轮数	10

NPU vs CPU 精度对比

材料	文件	说明
推理脚本	`inference.py`	独立可运行的 NPU 推理代码

ResNet34 为 speaker-verification 任务模型，输入 FBank 特征 (80-dim)，输出 192-dim speaker embedding
模型使用标准 ResNet34 + TSTP (Temporal Statistics Pooling) + 两层 embedding head
通道配置: m_channels=32, layers=[3,4,6,3]
输入: 80-dim FBank 特征 (模拟 3s 音频, 300 帧)

贡献者: xujiashuai 参赛赛道: 模型适配赛道 提交时间: 2026-05-17