speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch - 昇腾 NPU 适配

1. 模型简介

基于 xvector/ResNet34 架构的英文说话人确认模型，训练数据集为 Switchboard 和 Callhome（8kHz 采样率，6135 个说话人）。支持说话人嵌入码提取和说话人确认任务。

原始模型: iic/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch
框架: PyTorch
任务: 说话人确认（Speaker Verification）
骨干网络: ResNet34（预激活）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度	1.000000
平均延迟	3.79 毫秒
输出维度	256
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11

4. 快速使用

# 设置环境
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

# 运行推理
python inference.py --device npu:0

# 运行精度验证
python evaluate.py --device npu:0 --output report.json

5. 推理输出证据

NPU 推理输出 (float32, 8kHz 音频):

Model: iic/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch
Device: npu:0
Embedding shape: [1, 256]
Embedding sample: [0.0, 49623019520.0, 0.0, 0.0, 53739147264.0]
Latency: 3.79ms
SUCCESS

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
余弦相似度	基准	1.000000	< 0.000001
输出维度	256	256	一致
NaN	False	False	一致

7. 模型结构

主干网络: Pre-activation ResNet34
输入: 80 维 fbank 特征 (8kHz)
池化: 统计池化 (均值 + 标准差)
嵌入: 256 维说话人嵌入码
解码器: 2 层全连接 (512 → 256 → 256)

8. 验证报告

详见 report.json。

9. 智能体技能

本适配由 audio-encoder-npu-adapt 智能体技能自动完成。

speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch - 昇腾 NPU 适配

1. 模型简介

原始模型: iic/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch
框架: PyTorch
任务: 说话人确认（Speaker Verification）
骨干网络: ResNet34（预激活）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度	1.000000
平均延迟	3.79 毫秒
输出维度	256
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11

4. 快速使用

# 设置环境
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

# 运行推理
python inference.py --device npu:0

# 运行精度验证
python evaluate.py --device npu:0 --output report.json

5. 推理输出证据

NPU 推理输出 (float32, 8kHz 音频):

Model: iic/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch
Device: npu:0
Embedding shape: [1, 256]
Embedding sample: [0.0, 49623019520.0, 0.0, 0.0, 53739147264.0]
Latency: 3.79ms
SUCCESS

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
余弦相似度	基准	1.000000	< 0.000001
输出维度	256	256	一致
NaN	False	False	一致

7. 模型结构

主干网络: Pre-activation ResNet34
输入: 80 维 fbank 特征 (8kHz)
池化: 统计池化 (均值 + 标准差)
嵌入: 256 维说话人嵌入码
解码器: 2 层全连接 (512 → 256 → 256)

8. 验证报告

详见 report.json。

9. 智能体技能

本适配由 audio-encoder-npu-adapt 智能体技能自动完成。