基于 ERes2Net (Enhanced Res2Net) 大模型架构的五语言识别模型,支持粤语、英语、日语、韩语、中文五种语言的识别,输入为 8kHz 采样率音频。
| 指标 | 值 |
|---|---|
| 嵌入余弦相似度 | 1.000000 |
| 分类器余弦相似度 | 1.000000 |
| 平均延迟 | 13.84ms |
| 输出维度 | 512 |
| 推理精度 | float32 |
| 设备 | Ascend 910B4 |
| 组件 | 版本 |
|---|---|
| CANN | 8.5.1 |
| torch_npu | 2.9.0.post1 |
| PyTorch | 2.9.0 |
| Python | 3.11 |
| modelscope | latest |
# 设置环境
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH
# 运行推理
python inference.py
# 运行精度验证
python evaluate.pyNPU 推理输出 (float32, 8kHz 音频):
Model: iic/speech_eres2net_large_five_lre_8k
Device: npu:0
Embedding shape: [1, 512]
Embedding sample: [-0.0015733233885839581, -0.0009446564363315701, -0.0008025005809031427, -0.0073548611253499985, -0.009050089865922928]
Predicted language: English (confidence: 0.9971)
Latency: 13.84ms
--- CPU vs NPU 精度对比 ---
Embedding Cosine Similarity: 1.000000
Classifier Cosine Similarity: 1.000000
Max Abs Error: 0.000442
CPU prediction: English
NPU prediction: English
Predictions match: True
SUCCESS| 指标 | CPU (float32) | NPU (float32) | 误差 |
|---|---|---|---|
| 嵌入余弦相似度 | 基准 | 1.000000 | < 0.000001 |
| 分类器余弦相似度 | 基准 | 1.000000 | < 0.000001 |
| 最大绝对误差 | - | 0.000442 | - |
| 输出维度 | 512 | 512 | 一致 |
| 预测语言 | English | English | 一致 |
详见 report.json。