speech_eres2net_base_sv_zh-cn_3dspeaker_16k - 昇腾 NPU 适配

1. 模型简介

中文说话人验证模型，基于 ERes2Net（增强型 Res2Net）架构，使用 3DSpeaker 数据集训练。

原始模型：iic/speech_eres2net_base_sv_zh-cn_3dspeaker_16k
框架：PyTorch
任务：说话人验证（中文）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度	0.999999
平均延迟	11.04 毫秒
推理精度	float16
设备	Ascend 910B4

3. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
python inference.py --device npu:0 --dtype float16

4. 推理输出证据

模型: iic/speech_eres2net_base_sv_zh-cn_3dspeaker_16k
设备: npu:0
精度: float16
------------------------------------------------------------
  fbank features: shape=torch.Size([1, 370, 80])
  embedding: shape=torch.Size([1, 512])
  Cosine Similarity (embedding): 0.999999
✓ 推理完成
  平均延迟: 11.04 ms

5. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float16)	误差
余弦相似度	基准	0.999999	< 0.001%
输出维度	[1,512]	[1,512]	一致

6. 智能适配能力

本适配由 batch-adapter 自动完成。

speech_eres2net_base_sv_zh-cn_3dspeaker_16k - 昇腾 NPU 适配

1. 模型简介

中文说话人验证模型，基于 ERes2Net（增强型 Res2Net）架构，使用 3DSpeaker 数据集训练。

原始模型：iic/speech_eres2net_base_sv_zh-cn_3dspeaker_16k
框架：PyTorch
任务：说话人验证（中文）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度	0.999999
平均延迟	11.04 毫秒
推理精度	float16
设备	Ascend 910B4

3. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
python inference.py --device npu:0 --dtype float16

4. 推理输出证据

模型: iic/speech_eres2net_base_sv_zh-cn_3dspeaker_16k
设备: npu:0
精度: float16
------------------------------------------------------------
  fbank features: shape=torch.Size([1, 370, 80])
  embedding: shape=torch.Size([1, 512])
  Cosine Similarity (embedding): 0.999999
✓ 推理完成
  平均延迟: 11.04 ms

5. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float16)	误差
余弦相似度	基准	0.999999	< 0.001%
输出维度	[1,512]	[1,512]	一致

6. 智能适配能力

本适配由 batch-adapter 自动完成。