speech_eres2net_large_lre_en-cn_16k - 昇腾 NPU 适配

1. 模型简介

基于 ERes2Net 大模型架构的中英双语识别模型，支持中文和英语两种语言的识别，输入为 16kHz 采样率音频。

原始模型: iic/speech_eres2net_large_lre_en-cn_16k
框架: PyTorch
任务: 语言识别（2 种语言）
骨干网络: ERes2Net-Large（m_channels=64，embed_dim=512）

2. 昇腾 NPU 适配结果

指标	值
嵌入余弦相似度	1.000000
分类器余弦相似度	1.000000
平均延迟	13.92ms
输出维度	512
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11
modelscope	latest

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py
python evaluate.py

5. 推理输出证据

Model: iic/speech_eres2net_large_lre_en-cn_16k
Device: npu:0
Embedding shape: [1, 512]
Embedding sample: [-5.9891252021770924e-05, -0.0001415614242432639, -0.00038732108077965677, -0.00039068629848770797, -0.00021363687119446695]
Predicted language: English (confidence: 0.8866)
Latency: 13.92ms

--- CPU vs NPU 精度对比 ---
Embedding Cosine Similarity: 1.000000
Classifier Cosine Similarity: 1.000000
Max Abs Error: 0.000102
CPU prediction: English
NPU prediction: English
Predictions match: True
SUCCESS

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
嵌入余弦相似度	基准	1.000000	< 0.000001
分类器余弦相似度	基准	1.000000	< 0.000001
最大绝对误差	-	0.000102	-
预测语言	English	English	一致

7. 模型结构

骨干网络：带 AFF 的 ERes2Net-Large
输入：80 维 fbank 特征 (16kHz)
池化：TSTP
嵌入：512 维
分类器：Linear(512, 2) → Chinese, English

speech_eres2net_large_lre_en-cn_16k - 昇腾 NPU 适配

1. 模型简介

基于 ERes2Net 大模型架构的中英双语识别模型，支持中文和英语两种语言的识别，输入为 16kHz 采样率音频。

原始模型: iic/speech_eres2net_large_lre_en-cn_16k
框架: PyTorch
任务: 语言识别（2 种语言）
骨干网络: ERes2Net-Large（m_channels=64，embed_dim=512）

2. 昇腾 NPU 适配结果

指标	值
嵌入余弦相似度	1.000000
分类器余弦相似度	1.000000
平均延迟	13.92ms
输出维度	512
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11
modelscope	latest

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py
python evaluate.py

5. 推理输出证据

Model: iic/speech_eres2net_large_lre_en-cn_16k
Device: npu:0
Embedding shape: [1, 512]
Embedding sample: [-5.9891252021770924e-05, -0.0001415614242432639, -0.00038732108077965677, -0.00039068629848770797, -0.00021363687119446695]
Predicted language: English (confidence: 0.8866)
Latency: 13.92ms

--- CPU vs NPU 精度对比 ---
Embedding Cosine Similarity: 1.000000
Classifier Cosine Similarity: 1.000000
Max Abs Error: 0.000102
CPU prediction: English
NPU prediction: English
Predictions match: True
SUCCESS

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
嵌入余弦相似度	基准	1.000000	< 0.000001
分类器余弦相似度	基准	1.000000	< 0.000001
最大绝对误差	-	0.000102	-
预测语言	English	English	一致

7. 模型结构

骨干网络：带 AFF 的 ERes2Net-Large
输入：80 维 fbank 特征 (16kHz)
池化：TSTP
嵌入：512 维
分类器：Linear(512, 2) → Chinese, English