Belle-whisper-large-v3-zh是由BELLE团队基于Whisper large-v3模型进行微调得到的中文增强版模型。本仓库提供了该模型在华为昇腾硬件(Ascend 910B2)上推理的昇腾NPU适配方案。
验证状态:通过 | 编码器精度通过 | 解码器精度通过 | 端到端转录通过
| 项目 | 详情 |
|---|---|
| 模型 | Belle-whisper-large-v3-zh |
| 架构 | WhisperForConditionalGeneration(编码器-解码器) |
| 原始来源 | Xorbits/Belle-whisper-large-v3-zh(ModelScope) |
| 参数规模 | ~15亿 |
| 模型维度(d_model) | 1280 |
| 编码器层数 | 32 |
| 解码器层数 | 32 |
| 注意力头数 | 20 |
| 前馈网络维度(FFN Dimension) | 5120 |
| 词汇表大小 | 51866 |
| 梅尔频谱 bins 数 | 128 |
| 精度 | FP32 |
| 语言 | 中文(zh) |
| 任务 | 自动语音识别(ASR) |
| 组件 | 版本 |
|---|---|
| NPU | Ascend 910B2(2颗,每颗64GB HBM) |
| CANN | 8.5.1 |
| PyTorch | 2.9.0 |
| torch_npu | 2.9.0.post1+gitee7ba04 |
| transformers | >= 4.34.0 |
| Python | 3.11 |
pip install modelscope
modelscope download --model Xorbits/Belle-whisper-large-v3-zh \
--local_dir ./models/Belle-whisper-large-v3-zh \
--exclude "pytorch_model.bin"pip install torch torch_npu transformers librosa soundfile# Single audio file transcription
python inference.py --audio /path/to/audio.wav
# Benchmark mode
python inference.py --benchmark --num-runs 50python evaluate.py --num-runs 30 --warmup 5在Ascend 910B2上测试,FP32精度,单NPU(npu:0)。
| 指标 | 数值 |
|---|---|
| 平均延迟 | 0.2089 秒 |
| P50 延迟 | 0.2085 秒 |
| P90 延迟 | 0.2115 秒 |
| P99 延迟 | 0.2156 秒 |
| 标准差 | 0.0023 秒 |
| 吞吐量 | 9.58 tokens/s |
| 峰值内存 | 6526 MB |
| 音频时长 | 输入帧数 | 平均延迟 | 输出 tokens |
|---|---|---|---|
| 3秒 | 3000 | 0.216 秒 | 2.0 |
| 5秒 | 3000 | 0.223 秒 | 2.0 |
| 10秒 | 3000 | 0.212 秒 | 2.0 |
| 15秒 | 3000 | 0.340 秒 | 5.0 |
| 30秒 | 3000 | 0.817 秒 | 15.0 |
注:合成纯音音频产生的输出 tokens 极少。真实语音会根据音频内容成比例地产生更多 tokens。编码器运行时间约为 50ms(固定成本),解码器生成速度约为 10 tok/s。
在相同输入下,将NPU(FP32)输出与CPU(FP32)参考输出进行比较。
| 指标 | 数值 | 阈值 | 状态 |
|---|---|---|---|
| 余弦相似度 | 0.9998005 | > 0.999 | PASS |
| 信噪比(SNR) | 33.95 dB | > 30 dB | PASS |
| 最大绝对误差 | 1.978 | - | - |
| 平均绝对误差 | 0.007 | - | - |
| 相对误差 | 1.63% | - | - |
| 弗罗贝尼乌斯相对误差 | 0.0201 | - | - |
| 指标 | 数值 | 阈值 | 状态 |
|---|---|---|---|
| 余弦相似度 | 0.9999263 | > 0.999 | PASS |
| 信噪比(SNR) | 29.95 dB | > 20 dB | PASS |
| Top-1 重叠率 | 100% | - | - |
| Top-5 重叠率 | 100% | >= 80% | PASS |
| Top-10 重叠率 | 100% | - | - |
| Top-100 重叠率 | 99% | - | - |
| 相对误差 | 3.33% | < 5% | PASS |
| 指标 | 数值 | 阈值 | 状态 |
|---|---|---|---|
| Token 匹配准确率 | 100% | > 90% | PASS |
| 转录文本完全匹配 | True | - | PASS |
| CPU 输出 | 嗯嗯 | - | - |
| NPU 输出 | 嗯嗯 | - | - |
三个验证阶段全部通过。编码器隐藏状态的余弦相似度>0.9998。解码器 logits 的余弦相似度>0.9999。端到端转录结果完全一致。
Belle-whisper-large-v3-zh/
├── README.md # This document
├── inference.py # NPU inference script (single audio / benchmark)
├── evaluate.py # Precision & performance evaluation suite
├── eval_report.json # Full evaluation results (JSON)
└── test_audio/ # Test audio generation script
└── generate_test.py基于NPU的Whisper编码器-解码器流水线:
本模型适配基于ModelScope上的Xorbits/Belle-whisper-large-v3-zh。有关许可证条款,请参考原始模型。
#NPU #Ascend #Whisper #ASR #Speech-Recognition #Hardware-NPU