xujiashuai/timm-speech_campplus_five_lre_16k
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

speech_campplus_five_lre_16k - 昇腾 NPU 适配

1. 模型简介

五语种语言识别模型,基于 CAM++ (Context-Aware Masking) 架构,可识别粤语、英语、日语、韩语、中文五种语言。

  • 原始模型: iic/speech_campplus_five_lre_16k
  • 框架: PyTorch
  • 任务: 语音语言识别(5种语言)

2. 昇腾 NPU 适配结果

指标值
余弦相似度(嵌入向量)0.999996
余弦相似度(得分)0.999999
平均延迟22.06 毫秒
参数量~400万
推理精度float16
设备昇腾 910B4

3. 环境要求

组件版本
CANN8.5.1
torch_npu2.9.0.post1
PyTorch2.9.0
Python3.11
torchaudiorequired
soundfilerequired

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
pip install torch torch_npu torchaudio soundfile

python inference.py --device npu:0 --dtype float16

5. 推理输出证据

NPU 推理输出(float16):

模型: iic/speech_campplus_five_lre_16k
设备: npu:0
精度: float16
------------------------------------------------------------
  fbank features: shape=torch.Size([1, 996, 80])
  embedding: shape=torch.Size([1, 512])
  scores: shape=torch.Size([1, 5]), value=[[-2.744140625, 3.748046875, -4.4453125, -2.525390625, 5.96875]]
  predicted: Chinese

  Cosine Similarity (embedding): 0.999996
  Cosine Similarity (scores): 0.999999

✓ 推理完成
  平均延迟: 22.06 ms

6. CPU 与 NPU 精度对比

指标CPU (float32)NPU (float16)误差
余弦相似度(嵌入向量)基准0.999996< 0.001%
余弦相似度(得分)基准0.999999< 0.001%
预测语言ChineseChinese一致
输出维度[1,512] / [1,5][1,512] / [1,5]一致

7. 模型结构

  • 编码器:CAMPPlus(集成 TDNN 模块的 CAM++,fbank_dim=80,emb_size=512)
  • 后端:线性分类器(512 → 5)
  • 输入:16kHz 音频 → 80维 fbank 特征
  • 输出:5 语种对数概率(Cantonese, English, Japan, Korean, Chinese)

8. 智能体技能

本适配由 batch-adapter 自动完成。