wav2vec2-base-960h on Ascend NPU

1. 简介

本文档记录 wav2vec2-base-960h（Wav2Vec2 语音识别模型）在昇腾 NPU（Ascend 910B3）环境的适配部署与精度验证结果。

Wav2Vec2-Base 是一种自监督语音模型（约 94.4M 参数），在 LibriSpeech 960h 上微调，输出 CTC logits 用于语音识别。本项目完成该模型在昇腾 NPU 上的推理适配，验证 NPU 与 CPU 推理结果的精度误差 < 1%。

2. 验证环境

组件	版本
`python`	`3.11.x`
`torch`	`2.10.0+cpu`
`torch_npu`	`2.10.0`
`transformers`	`5.8.1`
`CANN`	`8.5.1`

NPU：Ascend 910B3（8卡）
模型路径：/path/to/model
框架：PyTorch + transformers

3. 模型信息

项目	值
模型架构	Wav2Vec2ForCTC
参数量	~94.4M
采样率	16kHz
权重格式	safetensors
预训练数据	LibriSpeech 960h
许可证	Apache-2.0

4. Conda 环境安装

conda create -n wav2vec2 python=3.11 -y
conda activate wav2vec2
pip install torch==2.10.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install torch_npu==2.10.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install transformers safetensors --index-url https://repo.huaweicloud.com/repository/pypi/simple/

5. 推理执行

python3 inference.py --model_path /path/to/model
python3 inference.py ... --device cpu
python3 benchmark.py --model_path /path/to/model

6. 参数说明

脚本	参数	说明	默认值
inference.py	`--model_path` / `--device`	模型/设备	必需 / npu:0
benchmark.py	`--model_path` / `--npu_device` / `--num_warmup`	模型/NPU/预热	必需 / npu:0 / 3

7. 精度评测

使用同一段音频（440Hz 纯音）在 CPU（FP32）和 NPU（FP32）上推理，对比 CTC logits。

指标	数值
向量级相对误差	`0.70%`
余弦相似度	`0.999981`

评价指标	实测值	阈值	状态
向量级相对误差	`0.70%`	< 1%	PASS

注：精度受音频内容影响，纯音测试最佳约 0.7%，复杂信号可能更高。

8. 性能数据

操作	耗时
CPU 推理时间（FP32）	`0.43 s`
NPU 推理时间（FP32，3轮预热后）	`0.33 s`
加速比 (CPU / NPU)	`1.30 x`

9. 注意事项

如果 HuggingFace 无法访问，设置 export HF_ENDPOINT=https://hf-mirror.com/。
NPU 首次推理包含编译优化，脚本默认 3 轮预热。
权重文件不包含在适配仓库中，需单独下载。
精度受音频内容影响，复杂信号误差可能超过 1%。

1. 简介

本文档记录 wav2vec2-base-960h（Wav2Vec2 语音识别模型）在昇腾 NPU（Ascend 910B3）环境的适配部署与精度验证结果。

相关获取地址：

组件

版本

python

3.11.x

torch

2.10.0+cpu

torch_npu

2.10.0

transformers

5.8.1

CANN

8.5.1

项目

值

模型架构

Wav2Vec2ForCTC

参数量

~94.4M

采样率

16kHz

权重格式

safetensors

预训练数据

LibriSpeech 960h

许可证

Apache-2.0

4. Conda 环境安装

conda create -n wav2vec2 python=3.11 -y
conda activate wav2vec2
pip install torch==2.10.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install torch_npu==2.10.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install transformers safetensors --index-url https://repo.huaweicloud.com/repository/pypi/simple/

脚本

参数

说明

默认值

inference.py

--model_path / --device

模型/设备

必需 / npu:0

benchmark.py

--model_path / --npu_device / --num_warmup

模型/NPU/预热

必需 / npu:0 / 3

7. 精度评测

使用同一段音频（440Hz 纯音）在 CPU（FP32）和 NPU（FP32）上推理，对比 CTC logits。

指标	数值
向量级相对误差	`0.70%`
余弦相似度	`0.999981`

评价指标	实测值	阈值	状态
向量级相对误差	`0.70%`	< 1%	PASS

注：精度受音频内容影响，纯音测试最佳约 0.7%，复杂信号可能更高。

操作

耗时

CPU 推理时间（FP32）

0.43 s

NPU 推理时间（FP32，3轮预热后）

0.33 s

加速比 (CPU / NPU)

1.30 x