本项目将 jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn 中文语音识别模型适配到单卡昇腾 NPU(Ascend910)上运行。模型基于 Wav2Vec2-Large XLSR-53 架构,使用 CTC 进行中文语音识别,输出 3503 维 vocab logits。
pip install -r requirements.txt
python inference.py推理结果 (NPU):
日志保存在 logs/inference.log。
对单条测试音频进行 CPU 与 NPU 一致性验证:
| 指标 | 数值 |
|---|---|
| max_abs_error | 0.024140 |
| mean_abs_error | 0.004069 |
| relative_error | 0.0742% |
| cosine_similarity | 1.000000 |
| threshold | 1.0% |
| 结果 | PASS |
| 指标 | 数值 |
|---|---|
| avg_latency_ms | 13.048 |
| min_latency_ms | 12.570 |
| max_latency_ms | 13.334 |
| p50_latency_ms | 13.159 |
| p90_latency_ms | 13.282 |
| p95_latency_ms | 13.308 |
| throughput_ips | 76.64 |
测试条件:单卡 Ascend910,输入长度 1s@16kHz(16000 采样点),预热 2 次 + 正式 10 次。
本项目包含单输入 smoke consistency 验证,非官方完整验证集评测。详细指标见第 4 节。
见 screenshots/self_verification.png。
| 日志 | 说明 |
|---|---|
logs/env_check.log | NPU 环境检查 |
logs/inference.log | NPU 推理输出 |
logs/accuracy.log | CPU-NPU 精度一致性 |
logs/benchmark.log | NPU 性能基准 |
snapshot_download 下载,严禁使用 HuggingFace 自动下载。Wav2Vec2ForCTC.from_pretrained(..., local_files_only=True) 加载本地权重。#NPU