jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn on Ascend NPU

1. 简介

本项目将 jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn 中文语音识别模型适配到单卡昇腾 NPU（Ascend910）上运行。模型基于 Wav2Vec2-Large XLSR-53 架构，使用 CTC 进行中文语音识别，输出 3503 维 vocab logits。

2. 验证环境

NPU: Ascend910_9362
CANN: 8.5.1
Python: 3.11.14
PyTorch: 2.9.0+cpu
torch-npu: 可用

3. 推理运行

pip install -r requirements.txt
python inference.py

推理结果 (NPU):

input_shape: [1, 16000]
output_shape (logits): [1, 49, 3503]
predicted_ids_shape: [1, 49]
Decoded transcription: (empty for sine-wave test input)

日志保存在 logs/inference.log。

4. 精度验证

对单条测试音频进行 CPU 与 NPU 一致性验证：

指标	数值
max_abs_error	0.024140
mean_abs_error	0.004069
relative_error	0.0742%
cosine_similarity	1.000000
threshold	1.0%
结果	PASS

CPU transcription: (empty)
NPU transcription: (empty)
Transcription match: True
Predicted IDs match: True

5. 性能参考

指标	数值
avg_latency_ms	13.048
min_latency_ms	12.570
max_latency_ms	13.334
p50_latency_ms	13.159
p90_latency_ms	13.282
p95_latency_ms	13.308
throughput_ips	76.64

测试条件：单卡 Ascend910，输入长度 1s@16kHz（16000 采样点），预热 2 次 + 正式 10 次。

6. 精度评测说明

本项目包含单输入 smoke consistency 验证，非官方完整验证集评测。详细指标见第 4 节。

7. 自验证截图

见 screenshots/self_verification.png。

8. 日志文件

日志	说明
`logs/env_check.log`	NPU 环境检查
`logs/inference.log`	NPU 推理输出
`logs/accuracy.log`	CPU-NPU 精度一致性
`logs/benchmark.log`	NPU 性能基准

9. 注意事项

模型权重通过 ModelScope snapshot_download 下载，严禁使用 HuggingFace 自动下载。
推理使用 Wav2Vec2ForCTC.from_pretrained(..., local_files_only=True) 加载本地权重。
测试音频为 440Hz 正弦波（1 秒，16kHz），实际部署时可替换为真实语音。
模型支持中文语音识别，vocab 包含中文字符及拼音标记。

10. 标签

#NPU

指标

数值

max_abs_error

0.024140

mean_abs_error

0.004069

relative_error

0.0742%

cosine_similarity

1.000000

threshold

1.0%

结果

PASS

指标

数值

avg_latency_ms

13.048

min_latency_ms

12.570

max_latency_ms

13.334

p50_latency_ms

13.159

p90_latency_ms

13.282

p95_latency_ms

13.308

throughput_ips

76.64

日志

说明

logs/env_check.log

NPU 环境检查

logs/inference.log

NPU 推理输出

logs/accuracy.log

CPU-NPU 精度一致性

logs/benchmark.log

NPU 性能基准

9. 注意事项

模型权重通过 ModelScope snapshot_download 下载，严禁使用 HuggingFace 自动下载。

推理使用 Wav2Vec2ForCTC.from_pretrained(..., local_files_only=True) 加载本地权重。

测试音频为 440Hz 正弦波（1 秒，16kHz），实际部署时可替换为真实语音。

模型支持中文语音识别，vocab 包含中文字符及拼音标记。