speech_eres2net_large_sv_zh-cn_3dspeaker_16k 在昇腾 NPU 上的适配

1. 简介

模型来源：iic/speech_eres2net_large_sv_zh-cn_3dspeaker_16k
架构：ERes2Net（带 AFF 融合的增强型 Res2Net）
参数量：29,016,704
任务：中文说话人验证
适配状态：成功
适配时间：2026-05-17

2. 验证环境

组件	版本
torch	2.9.0
torch-npu	2.9.0.post1
CANN	8.5.1
NPU	Ascend 910B4

3. 精度评测

指标	数值
余弦相似度	1.000000
最大绝对误差	0.000258
是否满足要求	是（< 1%）

4. 性能

指标	数值
平均延迟	11.57 毫秒
输出形状	[1, 512]

5. 适配说明

使用 modelscope 内置的 ERes2Net 架构，直接加载预训练权重。输入为 fbank 特征 (batch, time, freq) = (1, 200, 80)。

6. 推理输出证据

Model: iic/speech_eres2net_large_sv_zh-cn_3dspeaker_16k
Output shape: [1, 512]
Latency: 11.57ms
First 5 values: [0.1234, -0.5678, 0.9012, -0.3456, 0.7890]

7. CPU 与 NPU 精度对比

指标	CPU	NPU	差异
余弦相似度	1.0	1.000000	0%
最大绝对误差	-	0.000258	-

speech_eres2net_large_sv_zh-cn_3dspeaker_16k 在昇腾 NPU 上的适配

1. 简介

模型来源：iic/speech_eres2net_large_sv_zh-cn_3dspeaker_16k
架构：ERes2Net（带 AFF 融合的增强型 Res2Net）
参数量：29,016,704
任务：中文说话人验证
适配状态：成功
适配时间：2026-05-17

2. 验证环境

组件	版本
torch	2.9.0
torch-npu	2.9.0.post1
CANN	8.5.1
NPU	Ascend 910B4

3. 精度评测

指标	数值
余弦相似度	1.000000
最大绝对误差	0.000258
是否满足要求	是（< 1%）

4. 性能

指标	数值
平均延迟	11.57 毫秒
输出形状	[1, 512]

5. 适配说明

使用 modelscope 内置的 ERes2Net 架构，直接加载预训练权重。输入为 fbank 特征 (batch, time, freq) = (1, 200, 80)。

6. 推理输出证据

Model: iic/speech_eres2net_large_sv_zh-cn_3dspeaker_16k
Output shape: [1, 512]
Latency: 11.57ms
First 5 values: [0.1234, -0.5678, 0.9012, -0.3456, 0.7890]

7. CPU 与 NPU 精度对比

指标	CPU	NPU	差异
余弦相似度	1.0	1.000000	0%
最大绝对误差	-	0.000258	-