panhg/whisper-large_v3_turbo
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Whisper Large V3 Turbo - Ascend NPU Adaptation

Whisper Large V3 Turbo 是 OpenAI 开源的自动语音识别(ASR)模型,本仓库提供其在华为昇腾 Ascend NPU 上的适配版本,支持基于 torch_npu + transformers 的高效推理。

原始模型:openai/whisper-large-v3-turbo ModelScope 镜像:openai-mirror/whisper-large-v3-turbo


模型简介

Whisper Large V3 Turbo 是 Whisper 系列模型中面向高性能语音识别场景的优化版本。相比 Whisper Large V3,Turbo 版本将解码器层数从 32 层缩减至 4 层,在保持识别精度的同时大幅降低推理时延。

本仓库基于原始模型进行昇腾 NPU 适配,利用 torch_npu 实现高效推理。

模型架构

组件参数
Encoder Layers32
Decoder Layers4
Hidden Dimension (d_model)1280
Attention Heads20
FFN Dimension5120
Mel Bins128
Vocabulary Size51866
PrecisionFP16

支持规格

芯片类型CANN 版本torch_npu 版本设备数精度
Ascend 910B/910CANN 8.5.1配套版本1-2FP16

环境准备

硬件要求

  • 华为 Ascend NPU (Ascend 910 / 910B / 910B2 系列)
  • 推荐显存:≥ 8 GB

软件依赖

# 基础环境
pip install torch==2.9.0
pip install torch_npu  # 与 CANN 版本对应
pip install transformers>=4.46.0
pip install librosa soundfile
pip install modelscope  # 可选:用于模型下载

环境变量

export INF_NAN_MODE_ENABLE=1
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

快速上手

1. 下载模型

# 方式一:通过 ModelScope SDK
pip install modelscope
python -c "from modelscope import snapshot_download; snapshot_download('openai-mirror/whisper-large-v3-turbo')"

# 方式二:通过 HuggingFace
pip install huggingface_hub
huggingface-cli download openai/whisper-large-v3-turbo --local-dir ./whisper-large-v3-turbo

2. 执行推理

# 基本推理
python inference.py --audio /path/to/audio.wav --language zh

# 英文识别
python inference.py --audio /path/to/audio.wav --language en

# 翻译任务(语音 -> 英文文本)
python inference.py --audio /path/to/audio.wav --task translate

3. 精度验证

python eval_accuracy.py --audio /path/to/audio.wav

4. 性能评测

python eval_performance.py --audio /path/to/audio.wav --num_runs 10

精度评估

评估方法

比较 NPU (FP16) 与 CPU (FP32) 的输出 Token 序列一致性,要求 token 级匹配率 ≥ 99%。

评估结果

指标数值
Token 匹配率100.00%
NPU 输出与 CPU 基线误差0.00%
NPU 推理时间0.452s
CPU 推理时间 (基线)45.279s
评估状态✅ PASSED

性能评估

指标数值
设备Ascend 910B (Ascend910_9362)
精度FP16
NPU 数量2
平均推理时延0.0847s (3s 音频)
时延标准差0.0013s
RTF (实时率)35.4x
NPU 显存分配1.51 GB
NPU 显存预留1.63 GB

交付件说明

文件说明
inference.py昇腾 NPU 推理脚本
eval_accuracy.py精度评测脚本(NPU vs CPU)
eval_performance.py性能评测脚本
accuracy_eval_result.json精度评测结果
perf_benchmark_result.json性能评测结果
README.md部署文档(本文件)

使用限制与注意事项

  • 推荐使用 16kHz 单声道音频输入,以获得最佳识别效果
  • 实际识别效果受录音质量、背景噪声、说话人口音等因素影响
  • 模型输出可能存在误识别,建议结合业务规则进行后处理
  • 部署前请确认 CANN 版本、torch_npu 版本与模型兼容性

许可

本项目基于 Apache 2.0 许可。原始 Whisper 模型遵循其自身的许可协议。


引用

  • OpenAI Whisper
  • Huawei Ascend
  • torch_npu
  • Transformers