Belle-whisper-large-v3-zh（昇腾NPU适配）

Belle-whisper-large-v3-zh是由BELLE团队基于Whisper large-v3模型进行微调得到的中文增强版模型。本仓库提供了该模型在华为昇腾硬件（Ascend 910B2）上推理的昇腾NPU适配方案。

验证状态：通过 | 编码器精度通过 | 解码器精度通过 | 端到端转录通过

模型信息

项目	详情
模型	Belle-whisper-large-v3-zh
架构	WhisperForConditionalGeneration（编码器-解码器）
原始来源	Xorbits/Belle-whisper-large-v3-zh（ModelScope）
参数规模	~15亿
模型维度（d_model）	1280
编码器层数	32
解码器层数	32
注意力头数	20
前馈网络维度（FFN Dimension）	5120
词汇表大小	51866
梅尔频谱 bins 数	128
精度	FP32
语言	中文（zh）
任务	自动语音识别（ASR）

环境配置

组件	版本
NPU	Ascend 910B2（2颗，每颗64GB HBM）
CANN	8.5.1
PyTorch	2.9.0
torch_npu	2.9.0.post1+gitee7ba04
transformers	>= 4.34.0
Python	3.11

快速开始

1. 下载模型

pip install modelscope
modelscope download --model Xorbits/Belle-whisper-large-v3-zh \
    --local_dir ./models/Belle-whisper-large-v3-zh \
    --exclude "pytorch_model.bin"

2. 安装依赖项

pip install torch torch_npu transformers librosa soundfile

3. 运行推理

# Single audio file transcription
python inference.py --audio /path/to/audio.wav

# Benchmark mode
python inference.py --benchmark --num-runs 50

4. 运行完整评估

python evaluate.py --num-runs 30 --warmup 5

性能基准测试

在Ascend 910B2上测试，FP32精度，单NPU（npu:0）。

固定长度音频（5秒合成音频）

指标	数值
平均延迟	0.2089 秒
P50 延迟	0.2085 秒
P90 延迟	0.2115 秒
P99 延迟	0.2156 秒
标准差	0.0023 秒
吞吐量	9.58 tokens/s
峰值内存	6526 MB

可变长度音频扩展性

音频时长	输入帧数	平均延迟	输出 tokens
3秒	3000	0.216 秒	2.0
5秒	3000	0.223 秒	2.0
10秒	3000	0.212 秒	2.0
15秒	3000	0.340 秒	5.0
30秒	3000	0.817 秒	15.0

注：合成纯音音频产生的输出 tokens 极少。真实语音会根据音频内容成比例地产生更多 tokens。编码器运行时间约为 50ms（固定成本），解码器生成速度约为 10 tok/s。

精度验证

在相同输入下，将NPU（FP32）输出与CPU（FP32）参考输出进行比较。

编码器隐藏状态精度

指标	数值	阈值	状态
余弦相似度	0.9998005	> 0.999	PASS
信噪比（SNR）	33.95 dB	> 30 dB	PASS
最大绝对误差	1.978	-	-
平均绝对误差	0.007	-	-
相对误差	1.63%	-	-
弗罗贝尼乌斯相对误差	0.0201	-	-

解码器第一步 Logit 精度（独立测试）

指标	数值	阈值	状态
余弦相似度	0.9999263	> 0.999	PASS
信噪比（SNR）	29.95 dB	> 20 dB	PASS
Top-1 重叠率	100%	-	-
Top-5 重叠率	100%	>= 80%	PASS
Top-10 重叠率	100%	-	-
Top-100 重叠率	99%	-	-
相对误差	3.33%	< 5%	PASS

端到端转录

指标	数值	阈值	状态
Token 匹配准确率	100%	> 90%	PASS
转录文本完全匹配	True	-	PASS
CPU 输出	嗯嗯	-	-
NPU 输出	嗯嗯	-	-

总体结果：通过

三个验证阶段全部通过。编码器隐藏状态的余弦相似度>0.9998。解码器 logits 的余弦相似度>0.9999。端到端转录结果完全一致。

项目结构

Belle-whisper-large-v3-zh/
├── README.md                  # This document
├── inference.py               # NPU inference script (single audio / benchmark)
├── evaluate.py                # Precision & performance evaluation suite
├── eval_report.json           # Full evaluation results (JSON)
└── test_audio/                # Test audio generation script
    └── generate_test.py

架构详情

基于NPU的Whisper编码器-解码器流水线：

音频预处理：梅尔频谱图提取（CPU）
编码器：32层Transformer编码器（NPU）——约50ms固定成本
解码器：带交叉注意力机制的32层Transformer解码器（NPU）——约10 tok/s
令牌解码：采用强制中文解码器ID的贪婪/波束搜索

已知限制

仅支持FP32；由于NPU的GELU差异，FP16可能导致精度下降。
单音频推理（batch=1）；多音频批处理尚未优化。
在单个NPU上，FP32模式下的内存占用约为6.5GB。
中文转录需要强制解码器提示ID。

许可证

本模型适配基于ModelScope上的Xorbits/Belle-whisper-large-v3-zh。有关许可证条款，请参考原始模型。

Belle-whisper-large-v3-zh（昇腾NPU适配）

验证状态：通过 | 编码器精度通过 | 解码器精度通过 | 端到端转录通过

模型信息

项目	详情
模型	Belle-whisper-large-v3-zh
架构	WhisperForConditionalGeneration（编码器-解码器）
原始来源	Xorbits/Belle-whisper-large-v3-zh（ModelScope）
参数规模	~15亿
模型维度（d_model）	1280
编码器层数	32
解码器层数	32
注意力头数	20
前馈网络维度（FFN Dimension）	5120
词汇表大小	51866
梅尔频谱 bins 数	128
精度	FP32
语言	中文（zh）
任务	自动语音识别（ASR）

环境配置

组件	版本
NPU	Ascend 910B2（2颗，每颗64GB HBM）
CANN	8.5.1
PyTorch	2.9.0
torch_npu	2.9.0.post1+gitee7ba04
transformers	>= 4.34.0
Python	3.11

快速开始

1. 下载模型

pip install modelscope
modelscope download --model Xorbits/Belle-whisper-large-v3-zh \
    --local_dir ./models/Belle-whisper-large-v3-zh \
    --exclude "pytorch_model.bin"

2. 安装依赖项

pip install torch torch_npu transformers librosa soundfile

3. 运行推理

# Single audio file transcription
python inference.py --audio /path/to/audio.wav

# Benchmark mode
python inference.py --benchmark --num-runs 50

4. 运行完整评估

python evaluate.py --num-runs 30 --warmup 5

性能基准测试

在Ascend 910B2上测试，FP32精度，单NPU（npu:0）。

固定长度音频（5秒合成音频）

指标	数值
平均延迟	0.2089 秒
P50 延迟	0.2085 秒
P90 延迟	0.2115 秒
P99 延迟	0.2156 秒
标准差	0.0023 秒
吞吐量	9.58 tokens/s
峰值内存	6526 MB

可变长度音频扩展性

音频时长	输入帧数	平均延迟	输出 tokens
3秒	3000	0.216 秒	2.0
5秒	3000	0.223 秒	2.0
10秒	3000	0.212 秒	2.0
15秒	3000	0.340 秒	5.0
30秒	3000	0.817 秒	15.0

注：合成纯音音频产生的输出 tokens 极少。真实语音会根据音频内容成比例地产生更多 tokens。编码器运行时间约为 50ms（固定成本），解码器生成速度约为 10 tok/s。

精度验证

在相同输入下，将NPU（FP32）输出与CPU（FP32）参考输出进行比较。

编码器隐藏状态精度

指标	数值	阈值	状态
余弦相似度	0.9998005	> 0.999	PASS
信噪比（SNR）	33.95 dB	> 30 dB	PASS
最大绝对误差	1.978	-	-
平均绝对误差	0.007	-	-
相对误差	1.63%	-	-
弗罗贝尼乌斯相对误差	0.0201	-	-

解码器第一步 Logit 精度（独立测试）

指标	数值	阈值	状态
余弦相似度	0.9999263	> 0.999	PASS
信噪比（SNR）	29.95 dB	> 20 dB	PASS
Top-1 重叠率	100%	-	-
Top-5 重叠率	100%	>= 80%	PASS
Top-10 重叠率	100%	-	-
Top-100 重叠率	99%	-	-
相对误差	3.33%	< 5%	PASS

端到端转录

指标	数值	阈值	状态
Token 匹配准确率	100%	> 90%	PASS
转录文本完全匹配	True	-	PASS
CPU 输出	嗯嗯	-	-
NPU 输出	嗯嗯	-	-

总体结果：通过

三个验证阶段全部通过。编码器隐藏状态的余弦相似度>0.9998。解码器 logits 的余弦相似度>0.9999。端到端转录结果完全一致。

项目结构

Belle-whisper-large-v3-zh/
├── README.md                  # This document
├── inference.py               # NPU inference script (single audio / benchmark)
├── evaluate.py                # Precision & performance evaluation suite
├── eval_report.json           # Full evaluation results (JSON)
└── test_audio/                # Test audio generation script
    └── generate_test.py

架构详情

基于NPU的Whisper编码器-解码器流水线：

音频预处理：梅尔频谱图提取（CPU）
编码器：32层Transformer编码器（NPU）——约50ms固定成本
解码器：带交叉注意力机制的32层Transformer解码器（NPU）——约10 tok/s
令牌解码：采用强制中文解码器ID的贪婪/波束搜索

已知限制

仅支持FP32；由于NPU的GELU差异，FP16可能导致精度下降。
单音频推理（batch=1）；多音频批处理尚未优化。
在单个NPU上，FP32模式下的内存占用约为6.5GB。
中文转录需要强制解码器提示ID。

许可证

本模型适配基于ModelScope上的Xorbits/Belle-whisper-large-v3-zh。有关许可证条款，请参考原始模型。

Belle-whisper-large-v3-zh（昇腾NPU适配）

模型信息

环境配置

快速开始

1. 下载模型

2. 安装依赖项

3. 运行推理

4. 运行完整评估

性能基准测试

固定长度音频（5秒合成音频）

可变长度音频扩展性

精度验证

编码器隐藏状态精度

解码器第一步 Logit 精度（独立测试）

端到端转录

总体结果：通过

项目结构

架构详情

已知限制

许可证

标签

Belle-whisper-large-v3-zh（昇腾NPU适配）

模型信息

环境配置

快速开始

1. 下载模型

2. 安装依赖项

3. 运行推理

4. 运行完整评估

性能基准测试

固定长度音频（5秒合成音频）

可变长度音频扩展性

精度验证

编码器隐藏状态精度

解码器第一步 Logit 精度（独立测试）

端到端转录

总体结果：通过

项目结构

架构详情

已知限制

许可证

标签