speech_res2net_sv_zh-cn_3dspeaker_16k - 昇腾 NPU 适配

1. 模型简介

中文说话人验证模型，基于 Res2Net 架构，使用 3DSpeaker 数据集训练。

原始模型: iic/speech_res2net_sv_zh-cn_3dspeaker_16k
框架: PyTorch
任务: 说话人验证（中文）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度	0.999998
平均延迟	6.09 毫秒
参数量	~400 万
推理精度	float16
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py --device npu:0 --dtype float16

5. 推理输出证据

NPU 推理输出（float16）:

模型: iic/speech_res2net_sv_zh-cn_3dspeaker_16k
设备: npu:0
精度: float16
------------------------------------------------------------
  fbank features: shape=torch.Size([1, 370, 80])
  embedding: shape=torch.Size([1, 192])
  embedding (first 10): [0.6860, -1.0479, -0.0078, -0.7896, -0.4150, -0.1677, 0.9995, 1.2676, 0.6504, 0.7056]

  Cosine Similarity (embedding): 0.999998

✓ 推理完成
  平均延迟: 6.09 ms

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float16)	误差
余弦相似度	基准	0.999998	< 0.001%
输出维度	[1,192]	[1,192]	一致

7. 模型结构

主干网络（Backbone）: Res2Net（m_channels=32，4 层）
池化层（Pooling）: TSTP（时间统计池化，Temporal Statistics Pooling）
嵌入向量（Embedding）: 192 维
输入: 16kHz 音频 → 80 维 fbank 特征
输出: 192 维说话人嵌入向量

8. 工具能力（Agent Skill）

本适配由 batch-adapter 自动完成。

speech_res2net_sv_zh-cn_3dspeaker_16k - 昇腾 NPU 适配

1. 模型简介

中文说话人验证模型，基于 Res2Net 架构，使用 3DSpeaker 数据集训练。

原始模型: iic/speech_res2net_sv_zh-cn_3dspeaker_16k
框架: PyTorch
任务: 说话人验证（中文）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度	0.999998
平均延迟	6.09 毫秒
参数量	~400 万
推理精度	float16
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py --device npu:0 --dtype float16

5. 推理输出证据

NPU 推理输出（float16）:

模型: iic/speech_res2net_sv_zh-cn_3dspeaker_16k
设备: npu:0
精度: float16
------------------------------------------------------------
  fbank features: shape=torch.Size([1, 370, 80])
  embedding: shape=torch.Size([1, 192])
  embedding (first 10): [0.6860, -1.0479, -0.0078, -0.7896, -0.4150, -0.1677, 0.9995, 1.2676, 0.6504, 0.7056]

  Cosine Similarity (embedding): 0.999998

✓ 推理完成
  平均延迟: 6.09 ms

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float16)	误差
余弦相似度	基准	0.999998	< 0.001%
输出维度	[1,192]	[1,192]	一致

7. 模型结构

主干网络（Backbone）: Res2Net（m_channels=32，4 层）
池化层（Pooling）: TSTP（时间统计池化，Temporal Statistics Pooling）
嵌入向量（Embedding）: 192 维
输入: 16kHz 音频 → 80 维 fbank 特征
输出: 192 维说话人嵌入向量

8. 工具能力（Agent Skill）

本适配由 batch-adapter 自动完成。