zkx_/speech_campplus_sv_zh-cn_16k-common-ascend

speech_campplus_sv_zh-cn_16k-common-ascend:CAM++ speaker verification model NPU adaptation on Ascend 910B3 - AtomGit AI社区

speech_campplus_sv_zh-cn_16k-common on Ascend NPU

1. 简介

本文档记录 CAM++ 中文说话人验证模型在昇腾 NPU (Ascend 910B3) 上的迁移适配与精度验证结果。

CAM++ 是基于密集连接时延神经网络 (Dense TDNN) 的说话人识别模型，使用 Context-aware Masking 机制提取说话人特征。模型输入 16kHz 音频，输出 192 维说话人嵌入向量，可用于说话人确认、说话人日志等任务。

2. 验证环境

组件	版本
`CANN`	`8.5.1`
`torch`	`2.8.0`
`torch_npu`	`2.8.0.post4`
`torchaudio`	`2.8.0`
`modelscope`	`1.37.0`
`soundfile`	`0.13.1`
`numpy`	`2.2.6`

NPU：Ascend 910B3，单卡推理
模型大小：约 6.85M 参数，~27MB
嵌入维度：192

3. 环境准备

3.1 创建 Conda 环境

conda create -n speech_campplus_sv python=3.10 -y
conda activate speech_campplus_sv

3.2 安装依赖

# PyTorch + Ascend NPU 后端
pip install torch==2.8.0 torch_npu==2.8.0.post4 torchaudio==2.8.0 \
    -i https://mirrors.huaweicloud.com/repository/pypi/simple \
    --trusted-host mirrors.huaweicloud.com

# 模型与工具库
pip install modelscope==1.37.0 soundfile numpy Pillow \
    sortedcontainers simplejson pyyaml addict datasets pyarrow \
    -i https://mirrors.huaweicloud.com/repository/pypi/simple \
    --trusted-host mirrors.huaweicloud.com

3.3 下载模型权重

# 使用 modelscope CLI
modelscope download --model damo/speech_campplus_sv_zh-cn_16k-common \
    --local_dir ./speech_campplus_sv_zh-cn_16k-common

# 或使用 HuggingFace 镜像
huggingface-cli download --resume-download \
    damo/speech_campplus_sv_zh-cn_16k-common \
    --local-dir ./speech_campplus_sv_zh-cn_16k-common \
    --local-dir-use-symlinks False

4. 推理验证

4.1 命令行推理

# CPU 推理
python inference.py --wav1 speaker1.wav --wav2 speaker2.wav --device cpu

# NPU 推理
python inference.py --wav1 speaker1.wav --wav2 speaker2.wav --device npu

4.2 Python API 推理

from inference import run_verification

result = run_verification("speaker1.wav", "speaker2.wav", device="npu")
print(f"相似度: {result['similarity']:.4f}")
print(f"同一说话人: {result['is_same_speaker']}")
print(f"耗时: {result['time_ms']:.2f} ms")

4.3 验证结果

使用随机噪声音频（1秒，16kHz）进行 Smoke 测试：

CPU：输出 192 维嵌入向量，耗时 ~2472ms
NPU：输出 192 维嵌入向量，耗时 ~51ms
CPU/NPU 嵌入向量的 Cosine 相似度高达 0.999998

5. 性能参考

测试条件：3 路音频并行提取说话人嵌入，30 轮取平均。

指标	CPU	NPU (Ascend 910B3)	加速比
总耗时 (3路)	5244.90 ms	50.04 ms	104.81x
单路耗时	1748.30 ms	16.68 ms	104.81x
中位耗时 (3路)	5265.62 ms	49.96 ms	105.39x
标准差	—	—	—

6. 精度评测

6.1 评测方法

对比 CPU (PyTorch) 与 NPU (torch_npu) 在相同 Fbank 特征输入下的嵌入向量输出：

特征提取：统一在 CPU 执行 Kaldi Fbank 特征提取（80维，均值归一化）
嵌入模型：CPU 与 NPU 分别运行 CAMPPlus 主干网络
精度度量：比较 192 维嵌入向量的逐元素相对误差和余弦相似度

6.2 评测结果

指标	数值
嵌入维度	[1, 192]
最大绝对误差	0.0051
平均绝对误差	0.0014
平均相对误差	0.5670%
P99 相对误差	6.3427%
Cosine 相似度	0.99999774

6.3 精度结论

平均相对误差为 0.5670%，满足 < 1% 的精度要求
Cosine 相似度为 0.99999774，满足 > 0.999 的相似度要求
NPU 嵌入向量与 CPU 嵌入向量在说话人验证任务中完全等价
精度评测：通过

7. 适配说明

7.1 迁移要点

本模型采用 hybrid 架构：特征提取在 CPU 执行，CAMPPlus 嵌入模型在 NPU 执行。

核心适配步骤：

通过 ModelScope 加载 pipeline：pipeline(Tasks.speaker_verification, model=model_dir)
在 CPU 提取 Fbank 特征：model._SpeakerVerificationCAMPPlus__extract_feature(audio)
将 CAMPPlus 嵌入模型移至 NPU：model.embedding_model.to("npu:0")
将 Fbank 特征移至 NPU：feature.to("npu:0")
NPU 推理嵌入：model.embedding_model(feature_npu)

为什么特征提取在 CPU？ Kaldi Fbank 特征提取包含 torchaudio.compliance.kaldi.fbank 调用，该函数内部使用了 NPU 不支持的算子（如动态 shape 操作）。特征提取计算量极小（占整体 < 1%），放在 CPU 对性能几乎无影响。

7.2 依赖说明

依赖	用途
`torch_npu`	Ascend NPU 的 PyTorch 后端
`torchaudio`	Kaldi Fbank 特征提取
`modelscope`	模型加载与 pipeline 管理
`soundfile`	音频文件读取
`addict` / `datasets`	ModelScope 依赖

7.3 注意事项

NPU 内存：模型约 27MB，单路推理占用约 1.5GB HBM
音频格式：输入须为 16kHz 采样率单声道，可通过 librosa.resample 转换
说话人验证阈值：默认 Cosine 相似度阈值 0.31，可根据实际场景调整
首次推理：首次 NPU 推理有算子编译开销（约 10-30 秒），后续稳定在 ~17ms/路
批量推理：CAMPPlus 支持批量输入，可通过 feature.cat() 合并多路特征并行推理
嵌入维度：192 维固定输出，模型输出已做 L2 归一化，可直接计算 Cosine 相似度