xujiashuai/timm-wav2vec2-xlsr-53-spanish
模型介绍文件和版本Pull Requests讨论分析

wav2vec2-xlsr-53-spanish on Ascend NPU

1. 简介

本文档记录 jonatasgrosman/wav2vec2-large-xlsr-53-spanish 在昇腾 NPU 上的适配验证结果。

  • 模型来源: jonatasgrosman/wav2vec2-large-xlsr-53-spanish
  • 架构: Wav2Vec2-Large-XLSR-53 (多语言预训练 + 西班牙语微调)
  • 参数量: ~315M
  • 任务: Automatic Speech Recognition (语音识别, 西班牙语)
  • 适配状态: SUCCESS
  • 适配时间: 2026-05-18

2. 验证环境

组件版本
torch2.9.0
torch-npu2.9.0.post1
transformers4.57.6
CANN8.5.1
  • NPU: Ascend 910B4
  • 系统: Linux aarch64

3. 推理脚本

python3 inference.py --device npu:0 --dtype float16

4. 推理输出证据

模型: jonatasgrosman/wav2vec2-large-xlsr-53-spanish
设备: npu:0
精度: float16
------------------------------------------------------------
  input: shape=torch.Size([1, 80000])
  logits: shape=torch.Size([1, 249, 41])

  Cosine Similarity (logits): 0.999996

✓ 推理完成
  平均延迟: 12.64 ms

5. 性能参考

指标数值
平均延迟12.64 ms
测试轮数10

6. 精度评测

✅ NPU vs CPU 精度对比

指标数值
Cosine Similarity0.999996
精度误差< 0.005%
是否满足要求是(< 1%)

7. 评测材料

材料文件说明
推理脚本inference.py独立可运行的 NPU 推理代码
精度评测代码evaluate.pyCPU vs NPU cosine similarity 对比
环境检查env_check.pyNPU 环境验证脚本
运行日志logs/*.log完整执行日志(可复现)
精度报告report.json结构化评测数据
部署文档DEPLOY.md环境搭建与验证指南
依赖清单requirements.txtPython 依赖

8. Agent Skill

本模型适配由以下 Agent Skill 完成(6.2 必填)

项目内容
Skill 名称wav2vec2-npu-adapt
触发条件wav2vec2/HuBERT CTC 模型适配到昇腾 NPU
覆盖模型5 个 wav2vec2/HuBERT 模型
核心能力CTC 解码、音频特征提取

使用方法

Agent 自动执行:

python wave1/scripts/run_workflow.py --subgroup 1c_wav2vec2 --model-id jonatasgrosman/wav2vec2-large-xlsr-53-spanish

手动复现步骤

# Step 1: 环境检查
python3 env_check.py

# Step 2: 验证模型
python3 evaluate.py --model-id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --device npu:0 --output report.json

# Step 3: 运行推理
python3 inference.py --device npu:0 --dtype float16

9. 注意事项

  • 使用 transformers 库的 Wav2Vec2ForCTC 模型
  • 权重从 modelscope 下载,本地缓存加载
  • 输入: 16kHz 音频波形 (5秒合成输入)
  • 输出: CTC logits (vocab_size=41)

贡献者: xujiashuai 参赛赛道: 模型适配赛道 提交时间: 2026-05-18

下载使用量0