m0_74196153/Qwen3-ASR-0.6B
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen3-ASR-0.6B 在昇腾 NPU 上的部署

1. 简介

Qwen3-ASR-0.6B 是通义千问推出的多语言语音识别模型系列中的 0.6B 参数版本。该模型支持 30 种语言和 22 种中文方言的语音识别与语种识别,支持离线推理和流式推理,具有高精度、低延时的特点。

本仓库提供基于 Ascend NPU 的适配方案,支持在华为昇腾设备上使用 torch_npu + transformers 后端进行推理。

  • 权重下载(ModelScope):https://modelscope.cn/models/Qwen/Qwen3-ASR-0.6B
  • 权重下载(HuggingFace):https://huggingface.co/Qwen/Qwen3-ASR-0.6B
  • 原始论文:https://arxiv.org/abs/2601.21337

2. 环境说明

2.1 已验证环境

组件版本
vllm-ascend0.18.0rc1
vllm0.18.0+empty
transformers4.57.6
torch-npu2.9.0.post1+gitee7ba04
qwen-asr0.0.6
  • NPU:1 逻辑卡(Atlas 800 A2)
  • OS:Linux 5.10.0 aarch64
  • Python:3.11.14

2.2 安装依赖

pip install qwen-asr
# 如使用 vLLM 后端需额外安装
# pip install qwen-asr[vllm]

3. 快速开始

3.1 适配加载(关键步骤)

Qwen3-ASR 的 model_type="qwen3_asr" 未被 transformers 原生支持,加载前需注册自定义模型类:

from qwen_asr.core.transformers_backend.configuration_qwen3_asr import Qwen3ASRConfig
from qwen_asr.core.transformers_backend.modeling_qwen3_asr import Qwen3ASRForConditionalGeneration
from qwen_asr.core.transformers_backend.processing_qwen3_asr import Qwen3ASRProcessor
from transformers import AutoConfig, AutoModel, AutoProcessor

AutoConfig.register("qwen3_asr", Qwen3ASRConfig)
AutoModel.register(Qwen3ASRConfig, Qwen3ASRForConditionalGeneration)
AutoProcessor.register(Qwen3ASRConfig, Qwen3ASRProcessor)

3.2 ASR 推理

使用 Qwen3ASRModel 封装类(自动处理音频分块):

import torch
import torch_npu
from qwen_asr import Qwen3ASRModel

model = Qwen3ASRModel.from_pretrained(
    "/path/to/Qwen3-ASR-0.6B",
    dtype=torch.bfloat16,
    attn_implementation="eager",
    device_map=None,
    max_inference_batch_size=32,
    max_new_tokens=512,
)
# 手动移到 NPU(device_map="npu:0" 不被 transformers 支持)
model.model = model.model.to("npu:0")

results = model.transcribe(
    audio="audio.wav",
    language="Chinese",  # 可选,设置为 None 则自动检测
)
print(results[0].language, results[0].text)

3.3 命令行快速测试

python inference.py --audio test_audio_zh.wav
python inference.py --audio test_audio_en.wav --language English

4. 精度与性能

4.1 测试音频

样本语言时长参考文本
test_audio_zh.wav中文4.20秒甚至出现交易几乎停滞的情况。
test_audio_en.wav英文15.05秒Hmm. Oh yeah, yeah. He wasn't even that big when I started listening to him...

4.2 精度结果(NPU vs 参考文本)

语言字符错误率(CER)词错误率(WER)转录结果
中文0.00%0.00%甚至出现交易几乎停滞的情况。
英文0.00%0.00%Hmm. Oh yeah, yeah. He wasn't even that big when I started listening to him...

CER/WER 均为 0%,NPU 推理结果与参考文本完全一致,精度满足要求。

4.3 性能基准测试

语言音频时长平均延迟P50P95吞吐量
中文4.20秒0.558秒0.557秒0.562秒1.79 样本/秒
英文15.05秒3.041秒3.038秒3.062秒0.33 样本/秒

5. 支持的语言

中文、英文、粤语、阿拉伯语、德语、法语、西班牙语、葡萄牙语、印尼语、意大利语、韩语、俄语、泰语、越南语、日语、土耳其语、印地语、马来语、荷兰语、瑞典语、丹麦语、芬兰语、波兰语、捷克语、菲律宾语、波斯语、希腊语、罗马尼亚语、匈牙利语、马其顿语

6. 参考

  • Qwen3-ASR 技术报告
  • vLLM-Ascend 官方文档
  • 原始模型卡片 (HuggingFace)