xujiashuai/speech_eres2net_base_five_lre_16k
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

speech_eres2net_base_five_lre_16k - 昇腾 NPU 适配

1. 模型简介

基于 ERes2Net 基础模型架构的五语言识别模型,支持粤语、英语、日语、韩语、中文五种语言的识别,输入为 16kHz 采样率音频。

  • 原始模型: iic/speech_eres2net_base_five_lre_16k
  • 框架: PyTorch
  • 任务: 语言识别(5种语言)
  • 骨干网络: ERes2Net-Base(m_channels=32,embed_dim=512)

2. 昇腾 NPU 适配结果

指标值
嵌入余弦相似度1.000000
分类器余弦相似度1.000000
平均延迟11.67ms
输出维度512
推理精度float32
设备Ascend 910B4

3. 环境要求

组件版本
CANN8.5.1
torch_npu2.9.0.post1
PyTorch2.9.0
Python3.11
modelscopelatest

4. 快速使用

export ASCEND_HOME_PATH=/usr/local/Ascend/cann
export LD_LIBRARY_PATH=/usr/local/Ascend/cann/lib64:$LD_LIBRARY_PATH

python inference.py
python evaluate.py

5. 推理输出证据

Model: iic/speech_eres2net_base_five_lre_16k
Device: npu:0
Embedding shape: [1, 512]
Embedding sample: [-0.08550789952278137, -0.1725597232580185, -0.1923975646495819, -0.11242222785949707, -0.1667538583278656]
Predicted language: English (confidence: 0.9913)
Latency: 11.67ms

--- CPU vs NPU 精度对比 ---
Embedding Cosine Similarity: 1.000000
Classifier Cosine Similarity: 1.000000
Max Abs Error: 0.000554
CPU prediction: English
NPU prediction: English
Predictions match: True
SUCCESS

6. CPU 与 NPU 精度对比

指标CPU (float32)NPU (float32)误差
嵌入余弦相似度基准1.000000< 0.000001
分类器余弦相似度基准1.000000< 0.000001
最大绝对误差-0.000554-
预测语言EnglishEnglish一致

7. 模型结构

  • Backbone:带有 AFF 的 ERes2Net-Base
  • 输入:80 维 fbank 特征(16kHz)
  • Pooling:TSTP
  • Embedding:512 维
  • Classifier:Linear(512, 5) → 粤语、英语、日语、韩语、中文