speech_campplus_five_lre_16k - 昇腾 NPU 适配

1. 模型简介

五语种语言识别模型，基于 CAM++ (Context-Aware Masking) 架构，可识别粤语、英语、日语、韩语、中文五种语言。

原始模型: iic/speech_campplus_five_lre_16k
框架: PyTorch
任务: 语音语言识别（5种语言）

2. 昇腾 NPU 适配结果

指标	值
余弦相似度（嵌入向量）	0.999996
余弦相似度（得分）	0.999999
平均延迟	22.06 毫秒
参数量	~400万
推理精度	float16
设备	昇腾 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11
torchaudio	required
soundfile	required

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
pip install torch torch_npu torchaudio soundfile

python inference.py --device npu:0 --dtype float16

5. 推理输出证据

NPU 推理输出（float16）:

模型: iic/speech_campplus_five_lre_16k
设备: npu:0
精度: float16
------------------------------------------------------------
  fbank features: shape=torch.Size([1, 996, 80])
  embedding: shape=torch.Size([1, 512])
  scores: shape=torch.Size([1, 5]), value=[[-2.744140625, 3.748046875, -4.4453125, -2.525390625, 5.96875]]
  predicted: Chinese

  Cosine Similarity (embedding): 0.999996
  Cosine Similarity (scores): 0.999999

✓ 推理完成
  平均延迟: 22.06 ms

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float16)	误差
余弦相似度（嵌入向量）	基准	0.999996	< 0.001%
余弦相似度（得分）	基准	0.999999	< 0.001%
预测语言	Chinese	Chinese	一致
输出维度	[1,512] / [1,5]	[1,512] / [1,5]	一致

7. 模型结构

编码器：CAMPPlus（集成 TDNN 模块的 CAM++，fbank_dim=80，emb_size=512）
后端：线性分类器（512 → 5）
输入：16kHz 音频 → 80维 fbank 特征
输出：5 语种对数概率（Cantonese, English, Japan, Korean, Chinese）

8. 智能体技能

本适配由 batch-adapter 自动完成。

指标

值

余弦相似度（嵌入向量）

0.999996

余弦相似度（得分）

0.999999

平均延迟

22.06 毫秒

参数量

~400万

推理精度

float16

设备

昇腾 910B4

组件

版本

CANN

8.5.1

torch_npu

2.9.0.post1

PyTorch

2.9.0

Python

3.11

torchaudio

required

soundfile

required

export ASCEND_HOME_PATH=/usr/local/Ascend/cann export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH pip install torch torch_npu torchaudio soundfile python inference.py --device npu:0 --dtype float16

5. 推理输出证据

NPU 推理输出（float16）:

模型: iic/speech_campplus_five_lre_16k
设备: npu:0
精度: float16
------------------------------------------------------------
  fbank features: shape=torch.Size([1, 996, 80])
  embedding: shape=torch.Size([1, 512])
  scores: shape=torch.Size([1, 5]), value=[[-2.744140625, 3.748046875, -4.4453125, -2.525390625, 5.96875]]
  predicted: Chinese

  Cosine Similarity (embedding): 0.999996
  Cosine Similarity (scores): 0.999999

✓ 推理完成
  平均延迟: 22.06 ms

指标

CPU (float32)

NPU (float16)

误差

余弦相似度（嵌入向量）

基准

0.999996

< 0.001%

余弦相似度（得分）

基准

0.999999

< 0.001%

预测语言

Chinese

一致

输出维度

[1,512] / [1,5]

一致