五语种语言识别模型,基于 CAM++ (Context-Aware Masking) 架构,可识别粤语、英语、日语、韩语、中文五种语言。
| 指标 | 值 |
|---|---|
| 余弦相似度(嵌入向量) | 0.999996 |
| 余弦相似度(得分) | 0.999999 |
| 平均延迟 | 22.06 毫秒 |
| 参数量 | ~400万 |
| 推理精度 | float16 |
| 设备 | 昇腾 910B4 |
| 组件 | 版本 |
|---|---|
| CANN | 8.5.1 |
| torch_npu | 2.9.0.post1 |
| PyTorch | 2.9.0 |
| Python | 3.11 |
| torchaudio | required |
| soundfile | required |
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
pip install torch torch_npu torchaudio soundfile
python inference.py --device npu:0 --dtype float16NPU 推理输出(float16):
模型: iic/speech_campplus_five_lre_16k
设备: npu:0
精度: float16
------------------------------------------------------------
fbank features: shape=torch.Size([1, 996, 80])
embedding: shape=torch.Size([1, 512])
scores: shape=torch.Size([1, 5]), value=[[-2.744140625, 3.748046875, -4.4453125, -2.525390625, 5.96875]]
predicted: Chinese
Cosine Similarity (embedding): 0.999996
Cosine Similarity (scores): 0.999999
✓ 推理完成
平均延迟: 22.06 ms| 指标 | CPU (float32) | NPU (float16) | 误差 |
|---|---|---|---|
| 余弦相似度(嵌入向量) | 基准 | 0.999996 | < 0.001% |
| 余弦相似度(得分) | 基准 | 0.999999 | < 0.001% |
| 预测语言 | Chinese | Chinese | 一致 |
| 输出维度 | [1,512] / [1,5] | [1,512] / [1,5] | 一致 |
本适配由 batch-adapter 自动完成。