speech_eres2net_base_five_lre_16k - 昇腾 NPU 适配
1. 模型简介
基于 ERes2Net 基础模型架构的五语言识别模型,支持粤语、英语、日语、韩语、中文五种语言的识别,输入为 16kHz 采样率音频。
2. 昇腾 NPU 适配结果
| 指标 | 值 |
|---|
| 嵌入余弦相似度 | 1.000000 |
| 分类器余弦相似度 | 1.000000 |
| 平均延迟 | 11.67ms |
| 输出维度 | 512 |
| 推理精度 | float32 |
| 设备 | Ascend 910B4 |
3. 环境要求
| 组件 | 版本 |
|---|
| CANN | 8.5.1 |
| torch_npu | 2.9.0.post1 |
| PyTorch | 2.9.0 |
| Python | 3.11 |
| modelscope | latest |
4. 快速使用
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
python inference.py
python evaluate.py
5. 推理输出证据
Model: iic/speech_eres2net_base_five_lre_16k
Device: npu:0
Embedding shape: [1, 512]
Embedding sample: [-0.08550789952278137, -0.1725597232580185, -0.1923975646495819, -0.11242222785949707, -0.1667538583278656]
Predicted language: English (confidence: 0.9913)
Latency: 11.67ms
--- CPU vs NPU 精度对比 ---
Embedding Cosine Similarity: 1.000000
Classifier Cosine Similarity: 1.000000
Max Abs Error: 0.000554
CPU prediction: English
NPU prediction: English
Predictions match: True
SUCCESS
6. CPU 与 NPU 精度对比
| 指标 | CPU (float32) | NPU (float32) | 误差 |
|---|
| 嵌入余弦相似度 | 基准 | 1.000000 | < 0.000001 |
| 分类器余弦相似度 | 基准 | 1.000000 | < 0.000001 |
| 最大绝对误差 | - | 0.000554 | - |
| 预测语言 | English | English | 一致 |
7. 模型结构
- Backbone:带有 AFF 的 ERes2Net-Base
- 输入:80 维 fbank 特征(16kHz)
- Pooling:TSTP
- Embedding:512 维
- Classifier:Linear(512, 5) → 粤语、英语、日语、韩语、中文