speech_eres2net_large_five_lre_8k - 昇腾 NPU 适配

1. 模型简介

基于 ERes2Net (Enhanced Res2Net) 大模型架构的五语言识别模型，支持粤语、英语、日语、韩语、中文五种语言的识别，输入为 8kHz 采样率音频。

原始模型: iic/speech_eres2net_large_five_lre_8k
框架: PyTorch
任务: 语言识别（5种语言）
骨干网络: ERes2Net-Large (m_channels=64, embed_dim=512)

2. 昇腾 NPU 适配结果

指标	值
嵌入余弦相似度	1.000000
分类器余弦相似度	1.000000
平均延迟	13.84ms
输出维度	512
推理精度	float32
设备	Ascend 910B4

3. 环境要求

组件	版本
CANN	8.5.1
torch_npu	2.9.0.post1
PyTorch	2.9.0
Python	3.11
modelscope	latest

4. 快速使用

# 设置环境
export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

# 运行推理
python inference.py

# 运行精度验证
python evaluate.py

5. 推理输出证据

NPU 推理输出 (float32, 8kHz 音频):

Model: iic/speech_eres2net_large_five_lre_8k
Device: npu:0
Embedding shape: [1, 512]
Embedding sample: [-0.0015733233885839581, -0.0009446564363315701, -0.0008025005809031427, -0.0073548611253499985, -0.009050089865922928]
Predicted language: English (confidence: 0.9971)
Latency: 13.84ms

--- CPU vs NPU 精度对比 ---
Embedding Cosine Similarity: 1.000000
Classifier Cosine Similarity: 1.000000
Max Abs Error: 0.000442
CPU prediction: English
NPU prediction: English
Predictions match: True
SUCCESS

6. CPU 与 NPU 精度对比

指标	CPU (float32)	NPU (float32)	误差
嵌入余弦相似度	基准	1.000000	< 0.000001
分类器余弦相似度	基准	1.000000	< 0.000001
最大绝对误差	-	0.000442	-
输出维度	512	512	一致
预测语言	English	English	一致

7. 模型结构

Backbone：带 AFF（注意力特征融合）的 ERes2Net-Large
输入：80 维 fbank 特征（8kHz）
Pooling：TSTP（时序统计池化）
Embedding：512 维
Classifier：Linear(512, 5) → 5 种语言
Languages：Cantonese, English, Japanese, Korean, Chinese

8. 验证报告

详见 report.json。

1. 模型简介

基于 ERes2Net (Enhanced Res2Net) 大模型架构的五语言识别模型，支持粤语、英语、日语、韩语、中文五种语言的识别，输入为 8kHz 采样率音频。

原始模型: iic/speech_eres2net_large_five_lre_8k

框架: PyTorch

任务: 语言识别（5种语言）

骨干网络: ERes2Net-Large (m_channels=64, embed_dim=512)

指标

值

嵌入余弦相似度

1.000000

分类器余弦相似度

1.000000

平均延迟

13.84ms

输出维度

512

推理精度

float32

设备

Ascend 910B4

组件

版本

CANN

8.5.1

torch_npu

2.9.0.post1

PyTorch

2.9.0

Python

3.11

modelscope

latest

# 设置环境 export ASCEND_HOME_PATH=/usr/local/Ascend/cann export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH # 运行推理 python inference.py # 运行精度验证 python evaluate.py

5. 推理输出证据

NPU 推理输出 (float32, 8kHz 音频):

Model: iic/speech_eres2net_large_five_lre_8k
Device: npu:0
Embedding shape: [1, 512]
Embedding sample: [-0.0015733233885839581, -0.0009446564363315701, -0.0008025005809031427, -0.0073548611253499985, -0.009050089865922928]
Predicted language: English (confidence: 0.9971)
Latency: 13.84ms

--- CPU vs NPU 精度对比 ---
Embedding Cosine Similarity: 1.000000
Classifier Cosine Similarity: 1.000000
Max Abs Error: 0.000442
CPU prediction: English
NPU prediction: English
Predictions match: True
SUCCESS

指标

CPU (float32)

NPU (float32)

误差

嵌入余弦相似度

基准

1.000000

< 0.000001

分类器余弦相似度

基准

1.000000

< 0.000001

最大绝对误差

0.000442

输出维度

512

一致

预测语言

English

一致