wav2vec2-xlsr-53-arabic on Ascend NPU

1. 简介

本文档记录 jonatasgrosman/wav2vec2-large-xlsr-53-arabic 在昇腾 NPU 上的适配验证结果。

模型来源: jonatasgrosman/wav2vec2-large-xlsr-53-arabic
架构: Wav2Vec2-Large-XLSR-53 (多语言预训练 + 阿拉伯语微调)
参数量: ~315M
任务: Automatic Speech Recognition (语音识别, 阿拉伯语)
适配状态: SUCCESS
适配时间: 2026-05-18

2. 验证环境

组件	版本
`torch`	`2.9.0`
`torch-npu`	`2.9.0.post1`
`transformers`	`4.57.6`
`CANN`	`8.5.1`

NPU: Ascend 910B4
系统: Linux aarch64

3. 推理脚本

python3 inference.py --device npu:0 --dtype float16

4. 推理输出证据

============================================================
模型: jonatasgrosman/wav2vec2-large-xlsr-53-arabic
设备: npu:0
精度: float16
============================================================

[使用合成音频输入 (5秒, 16kHz)]

输入形状: torch.Size([1, 80000])

--- CPU 推理 ---
  输出形状: torch.Size([1, 249, 51])
  识别结果: ""

--- NPU 推理 (npu:0) ---
  输出形状: torch.Size([1, 249, 51])
  识别结果: ""

--- 精度对比 ---
  Cosine Similarity: 0.999986
  Max Abs Error: 0.162693
  CPU 识别: ""
  NPU 识别: ""
  结果一致: 是

--- 性能测试 ---
  平均延迟: 12.98 ms (10次)

============================================================
✓ 推理完成

5. 性能参考

指标	数值
平均延迟	12.98 ms
测试轮数	10

6. 精度评测

✅ NPU vs CPU 精度对比

指标	数值
Cosine Similarity	0.999986
Max Abs Error	0.162693
精度误差	< 0.02%
是否满足要求	是（< 1%）

7. 评测材料

材料	文件	说明
推理脚本	`inference.py`	独立可运行的 NPU 推理代码
精度评测代码	`evaluate.py`	CPU vs NPU cosine similarity 对比
环境检查	`env_check.py`	NPU 环境验证脚本
运行日志	`logs/*.log`	完整执行日志（可复现）
精度报告	`report.json`	结构化评测数据
部署文档	`DEPLOY.md`	环境搭建与验证指南
依赖清单	`requirements.txt`	Python 依赖

8. Agent Skill

本模型适配由以下 Agent Skill 完成（6.2 必填）

项目	内容
Skill 名称	`wav2vec2-npu-adapt`
触发条件	wav2vec2/HuBERT CTC 模型适配到昇腾 NPU
覆盖模型	5 个 wav2vec2/HuBERT 模型
核心能力	CTC 解码、音频特征提取

使用方法

Agent 自动执行：

python wave1/scripts/run_workflow.py --subgroup 1c_wav2vec2 --model-id jonatasgrosman/wav2vec2-large-xlsr-53-arabic

手动复现步骤

# Step 1: 环境检查
python3 env_check.py

# Step 2: 验证模型
python3 evaluate.py --model-id jonatasgrosman/wav2vec2-large-xlsr-53-arabic --device npu:0 --output report.json

# Step 3: 运行推理
python3 inference.py --device npu:0 --dtype float16

9. 注意事项

使用 transformers 库的 Wav2Vec2ForCTC 模型 + Wav2Vec2Processor 进行解码
权重从 modelscope 下载，本地缓存加载
输入: 16kHz 音频波形 (5秒合成输入)
输出: CTC logits (vocab_size=51)

贡献者: xujiashuai 参赛赛道: 模型适配赛道 提交时间: 2026-05-18

wav2vec2-xlsr-53-arabic on Ascend NPU

1. 简介

本文档记录 jonatasgrosman/wav2vec2-large-xlsr-53-arabic 在昇腾 NPU 上的适配验证结果。

模型来源: jonatasgrosman/wav2vec2-large-xlsr-53-arabic
架构: Wav2Vec2-Large-XLSR-53 (多语言预训练 + 阿拉伯语微调)
参数量: ~315M
任务: Automatic Speech Recognition (语音识别, 阿拉伯语)
适配状态: SUCCESS
适配时间: 2026-05-18

2. 验证环境

组件	版本
`torch`	`2.9.0`
`torch-npu`	`2.9.0.post1`
`transformers`	`4.57.6`
`CANN`	`8.5.1`

NPU: Ascend 910B4
系统: Linux aarch64

3. 推理脚本

python3 inference.py --device npu:0 --dtype float16

4. 推理输出证据

============================================================
模型: jonatasgrosman/wav2vec2-large-xlsr-53-arabic
设备: npu:0
精度: float16
============================================================

[使用合成音频输入 (5秒, 16kHz)]

输入形状: torch.Size([1, 80000])

--- CPU 推理 ---
  输出形状: torch.Size([1, 249, 51])
  识别结果: ""

--- NPU 推理 (npu:0) ---
  输出形状: torch.Size([1, 249, 51])
  识别结果: ""

--- 精度对比 ---
  Cosine Similarity: 0.999986
  Max Abs Error: 0.162693
  CPU 识别: ""
  NPU 识别: ""
  结果一致: 是

--- 性能测试 ---
  平均延迟: 12.98 ms (10次)

============================================================
✓ 推理完成

5. 性能参考

指标	数值
平均延迟	12.98 ms
测试轮数	10

6. 精度评测

✅ NPU vs CPU 精度对比

指标	数值
Cosine Similarity	0.999986
Max Abs Error	0.162693
精度误差	< 0.02%
是否满足要求	是（< 1%）

7. 评测材料

材料	文件	说明
推理脚本	`inference.py`	独立可运行的 NPU 推理代码
精度评测代码	`evaluate.py`	CPU vs NPU cosine similarity 对比
环境检查	`env_check.py`	NPU 环境验证脚本
运行日志	`logs/*.log`	完整执行日志（可复现）
精度报告	`report.json`	结构化评测数据
部署文档	`DEPLOY.md`	环境搭建与验证指南
依赖清单	`requirements.txt`	Python 依赖

8. Agent Skill

本模型适配由以下 Agent Skill 完成（6.2 必填）

项目	内容
Skill 名称	`wav2vec2-npu-adapt`
触发条件	wav2vec2/HuBERT CTC 模型适配到昇腾 NPU
覆盖模型	5 个 wav2vec2/HuBERT 模型
核心能力	CTC 解码、音频特征提取

使用方法

Agent 自动执行：

python wave1/scripts/run_workflow.py --subgroup 1c_wav2vec2 --model-id jonatasgrosman/wav2vec2-large-xlsr-53-arabic

手动复现步骤

# Step 1: 环境检查
python3 env_check.py

# Step 2: 验证模型
python3 evaluate.py --model-id jonatasgrosman/wav2vec2-large-xlsr-53-arabic --device npu:0 --output report.json

# Step 3: 运行推理
python3 inference.py --device npu:0 --dtype float16

9. 注意事项

使用 transformers 库的 Wav2Vec2ForCTC 模型 + Wav2Vec2Processor 进行解码
权重从 modelscope 下载，本地缓存加载
输入: 16kHz 音频波形 (5秒合成输入)
输出: CTC logits (vocab_size=51)

贡献者: xujiashuai 参赛赛道: 模型适配赛道 提交时间: 2026-05-18