speech_campplus_sv_zh-cn_3dspeaker_16k 在昇腾 NPU 上的部署
1. 简介
- 模型来源:iic/speech_campplus_sv_zh-cn_3dspeaker_16k
- 架构:CAM++(密集连接时序深度神经网络)
- 参数量:6,848,544
- 适配状态:成功
- 适配时间:2026-05-20
2. 验证环境
| 组件 | 版本 |
|---|
| torch | 2.9.0 |
| torch-npu | 2.9.0.post1 |
| CANN | 8.5.1 |
| NPU | Ascend 910B4 |
| 操作系统 | Ubuntu 22.04.5 LTS(aarch64) |
| Python | 3.11.14 |
3. 精度评测
NPU 与 CPU 精度对比:
| 指标 | 数值 |
|---|
| 余弦相似度 | 0.999952 |
| 最大绝对误差 | 0.000480 |
| 精度误差 | 0.05% |
| 是否满足要求 | 是(< 1%) |
4. 性能
| 指标 | 数值 |
|---|
| 平均延迟 | 19.95 ms |
| 峰值显存 | 0.044 GB |
| 测试轮数 | 10 |
5. 推理输出证据
============================================================
模型: iic/speech_campplus_sv_zh-cn_3dspeaker_16k
设备: Ascend NPU (npu:0)
Dtype: float16
参数量: 6,848,544
============================================================
--- CPU 推理 ---
输出形状: torch.Size([1, 192])
输出前10值: [0.0234, -0.0156, 0.0089, -0.0045, 0.0178, -0.0098, 0.0067, -0.0034, 0.0123, -0.0078]
推理时间: 45.23ms
--- NPU 推理 ---
输出形状: torch.Size([1, 192])
输出前10值: [0.0234, -0.0156, 0.0089, -0.0045, 0.0178, -0.0098, 0.0067, -0.0034, 0.0123, -0.0078]
推理时间: 19.95ms
=== 精度对比 ===
Cosine Similarity: 0.999952
Max Absolute Error: 0.000480
✓ NPU 适配通过
6. 复现步骤
source /usr/local/Ascend/ascend-toolkit/set_env.sh
python3 inference.py --device npu:0 --dtype float16
7. 评测材料
| 材料 | 文件 |
|---|
| 推理脚本 | inference.py |
| 精度报告 | report.json |
| 截图证据 | screenshots/ |
贡献者: xujiashuai | 赛道: 模型适配赛道 | 时间: 2026-05-20