基于 xvector/ResNet34 架构的英文说话人确认模型,训练数据集为 Switchboard 和 Callhome(8kHz 采样率,6135 个说话人)。支持说话人嵌入码提取和说话人确认任务。
| 指标 | 值 |
|---|---|
| 余弦相似度 | 1.000000 |
| 平均延迟 | 3.79 毫秒 |
| 输出维度 | 256 |
| 推理精度 | float32 |
| 设备 | Ascend 910B4 |
| 组件 | 版本 |
|---|---|
| CANN | 8.5.1 |
| torch_npu | 2.9.0.post1 |
| PyTorch | 2.9.0 |
| Python | 3.11 |
# 设置环境
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
# 运行推理
python inference.py --device npu:0
# 运行精度验证
python evaluate.py --device npu:0 --output report.jsonNPU 推理输出 (float32, 8kHz 音频):
Model: iic/speech_xvector_sv-en-us-callhome-8k-spk6135-pytorch
Device: npu:0
Embedding shape: [1, 256]
Embedding sample: [0.0, 49623019520.0, 0.0, 0.0, 53739147264.0]
Latency: 3.79ms
SUCCESS| 指标 | CPU (float32) | NPU (float32) | 误差 |
|---|---|---|---|
| 余弦相似度 | 基准 | 1.000000 | < 0.000001 |
| 输出维度 | 256 | 256 | 一致 |
| NaN | False | False | 一致 |
详见 report.json。
本适配由 audio-encoder-npu-adapt 智能体技能自动完成。