Qwen3-ASR

概述

简介

Qwen3-ASR 系列包含 Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 两个版本，支持 52 种语言及方言的语言识别与语音识别。两者均基于大规模语音训练数据，并依托其基础模型 Qwen3-Omni 强大的音频理解能力。实验表明，1.7B 版本在开源语音识别模型中性能达到业界领先水平，且可与主流商业闭源 API 相媲美。主要特性如下：

一体化功能：Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持 30 种语言、22 种汉语方言以及多个国家和地区的英语口音的语言识别与语音识别。
精准高效：Qwen3-ASR 系列模型在复杂声学环境和挑战性文本场景下仍保持高质量、稳健的识别效果。Qwen3-ASR-1.7B 在开源及内部基准测试中均表现优异。0.6B 版本则实现了精度与效率的平衡，在并发量为 128 时吞吐量可达 2000 倍。两者均支持单模型流式/离线统一推理，并可处理长音频转录。
创新高效的强制对齐方案：我们推出 Qwen3-ForcedAligner-0.6B，支持 11 种语言中长达 5 分钟语音的任意单元时间戳预测。评估显示其时间戳精度优于基于端到端的强制对齐模型。
全面的推理工具包：除开源 Qwen3-ASR 系列的模型结构和权重外，我们还发布了功能强大的全特性推理框架，支持基于 vLLM 的批量推理、异步服务、流式推理、时间戳预测等功能。

模型架构

已发布模型说明与下载

以下是Qwen3-ASR模型的介绍及下载信息。请选择并下载符合您需求的模型。

模型	支持语言	支持方言	推理模式	音频类型
Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B	中文（zh）、英语（en）、粤语（yue）、阿拉伯语（ar）、德语（de）、法语（fr）、西班牙语（es）、葡萄牙语（pt）、印尼语（id）、意大利语（it）、韩语（ko）、俄语（ru）、泰语（th）、越南语（vi）、日语（ja）、土耳其语（tr）、印地语（hi）、马来语（ms）、荷兰语（nl）、瑞典语（sv）、丹麦语（da）、芬兰语（fi）、波兰语（pl）、捷克语（cs）、菲律宾语（fil）、波斯语（fa）、希腊语（el）、匈牙利语（hu）、马其顿语（mk）、罗马尼亚语（ro）	安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语（香港口音）、粤语（广东口音）、吴语、闽南语	离线 / 流式	语音、歌声、带背景音乐的歌曲
Qwen3-ForcedAligner-0.6B	中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语	--	NAR	语音

在 qwen-asr 包或 vLLM 中加载模型时，会根据模型名称自动下载模型权重。但如果您的运行环境不允许在执行过程中下载权重，可以使用以下命令手动将模型权重下载到本地目录：

# Download through ModelScope (recommended for users in Mainland China)
pip install -U modelscope
modelscope download --model Qwen/Qwen3-ASR-1.7B  --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B
modelscope download --model Qwen/Qwen3-ForcedAligner-0.6B --local_dir ./Qwen3-ForcedAligner-0.6B
# Download through Hugging Face
pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B
huggingface-cli download Qwen/Qwen3-ForcedAligner-0.6B --local-dir ./Qwen3-ForcedAligner-0.6B

快速入门

环境搭建

使用 Qwen3-ASR 最简单的方式是从 PyPI 安装 qwen-asr Python 包。这会自动安装所需的运行时依赖，并允许您加载任何已发布的 Qwen3-ASR 模型。如果您希望进一步简化环境搭建，也可以使用我们的官方 Docker 镜像。qwen-asr 包提供两种后端：transformers 后端和 vLLM 后端。有关不同后端的使用说明，请参考 Python 包使用方法。我们建议使用全新的隔离环境，以避免与现有包产生依赖冲突。您可以按以下方式创建一个干净的 Python 3.12 环境：

conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr

运行以下命令以获取支持 transformers-backend 的最小化安装：

pip install -U qwen-asr

要启用 vLLM 后端以实现更快的推理和流式传输支持，请运行：

pip install -U qwen-asr[vllm]

如果您想在本地开发或修改代码，请以可编辑模式从源代码安装：

git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
# support vLLM backend
# pip install -e ".[vllm]"

此外，我们建议使用 FlashAttention 2 以减少 GPU 内存占用并加快推理速度，尤其是在处理长输入和大批量数据时。

pip install -U flash-attn --no-build-isolation

如果您的机器内存小于96GB且拥有多个CPU核心，请运行：

MAX_JOBS=4 pip install -U flash-attn --no-build-isolation

此外，您的硬件需要与 FlashAttention 2 兼容。有关详细信息，请参阅 FlashAttention 代码库的官方文档。只有当模型以 torch.float16 或 torch.bfloat16 精度加载时，才能使用 FlashAttention 2。

Python 包使用方法

快速推理

qwen-asr 包提供两种后端：transformers 后端和vLLM 后端。您可以将音频输入作为本地路径、URL、base64 数据或 (np.ndarray, sr) 元组传入，并进行批量推理。若要快速试用 Qwen3-ASR，您可以通过以下代码，使用 Qwen3ASRModel.from_pretrained(...) 来调用 transformers 后端：

import torch
from qwen_asr import Qwen3ASRModel

model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
    max_inference_batch_size=32, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
    max_new_tokens=256, # Maximum number of tokens to generate. Set a larger value for long audio input.
)

results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None, # set "English" to force the language
)

print(results[0].language)
print(results[0].text)

如果需要返回时间戳，请传入forced_aligner及其初始化参数。以下是带时间戳输出的批量推理示例：

import torch
from qwen_asr import Qwen3ASRModel

model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
    max_inference_batch_size=32, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
    max_new_tokens=256, # Maximum number of tokens to generate. Set a larger value for long audio input.
    forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
    forced_aligner_kwargs=dict(
        dtype=torch.bfloat16,
        device_map="cuda:0",
        # attn_implementation="flash_attention_2",
    ),
)

results = model.transcribe(
    audio=[
      "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
      "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    ],
    language=["Chinese", "English"], # can also be set to None for automatic language detection
    return_time_stamps=True,
)

for r in results:
    print(r.language, r.text, r.time_stamps[0])

如需更详细的使用示例，请参考 transformers 后端的示例代码。

vLLM 后端

如果您希望 Qwen3-ASR 获得最快的推理速度，我们强烈建议使用 vLLM 后端，通过 Qwen3ASRModel.LLM(...) 初始化模型。下面提供了示例代码。请注意，您必须通过 pip install -U qwen-asr[vllm] 安装相关依赖。如果希望模型输出时间戳，最好通过 pip install -U flash-attn --no-build-isolation 安装 FlashAttention，以加快强制对齐模型的推理速度。请记住将代码放在 if __name__ == '__main__': 下，以避免 vLLM 故障排除中描述的 spawn 错误。

import torch
from qwen_asr import Qwen3ASRModel

if __name__ == '__main__':
    model = Qwen3ASRModel.LLM(
        model="Qwen/Qwen3-ASR-1.7B",
        gpu_memory_utilization=0.7,
        max_inference_batch_size=128, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
        max_new_tokens=4096, # Maximum number of tokens to generate. Set a larger value for long audio input.
        forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
        forced_aligner_kwargs=dict(
            dtype=torch.bfloat16,
            device_map="cuda:0",
            # attn_implementation="flash_attention_2",
        ),
    )

    results = model.transcribe(
        audio=[
        "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
        "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
        ],
        language=["Chinese", "English"], # can also be set to None for automatic language detection
        return_time_stamps=True,
    )

    for r in results:
        print(r.language, r.text, r.time_stamps[0])

如需更详细的使用示例，请参考 vLLM 后端的示例代码。此外，您可以通过 qwen-asr-serve 命令启动 vLLM 服务器，该命令是 vllm serve 的封装。您可以传递 vllm serve 支持的任何参数，例如：

qwen-asr-serve Qwen/Qwen3-ASR-1.7B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000

并通过以下方式向服务器发送请求：

import requests

url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}

data = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {
                        "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
                    },
                }
            ],
        }
    ]
}

response = requests.post(url, headers=headers, json=data, timeout=300)
response.raise_for_status()
content = response.json()['choices'][0]['message']['content']
print(content)

# parse ASR output if you want
from qwen_asr import parse_asr_output
language, text = parse_asr_output(content)
print(language)
print(text)

流式推理

Qwen3-ASR 全面支持流式推理。目前，流式推理仅在 vLLM 后端可用。请注意，流式推理不支持批量推理或返回时间戳。详情请参考示例代码。您也可以通过指南启动流式 Web 演示，体验 Qwen3-ASR 的流式转录功能。

强制对齐工具使用方法

Qwen3-ForcedAligner-0.6B 能够对文本-语音对进行对齐，并返回单词或字符级别的时间戳。以下是直接使用强制对齐工具的示例：

import torch
from qwen_asr import Qwen3ForcedAligner

model = Qwen3ForcedAligner.from_pretrained(
    "Qwen/Qwen3-ForcedAligner-0.6B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
)

results = model.align(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
    text="甚至出现交易几乎停滞的情况。",
    language="Chinese",
)

print(results[0])
print(results[0][0].text, results[0][0].start_time, results[0][0].end_time)

此外，强制对齐器支持本地路径/URL/base64数据/(np.ndarray, sr)输入以及批量推理。详情请参考示例代码。

DashScope API 使用方法

为进一步体验 Qwen3-ASR，我们建议您尝试 DashScope API，以获得更快速、更高效的使用体验。有关详细的 API 信息和文档，请参考以下内容：

API 说明	API 文档（中国大陆）	API 文档（国际）
Qwen3-ASR 实时 API	https://help.aliyun.com/zh/model-studio/qwen-real-time-speech-recognition	https://www.alibabacloud.com/help/en/model-studio/qwen-real-time-speech-recognition
Qwen3-ASR 文件转写 API	https://help.aliyun.com/zh/model-studio/qwen-speech-recognition	https://www.alibabacloud.com/help/en/model-studio/qwen-speech-recognition

启动本地 Web UI 演示

Gradio 演示

要启动 Qwen3-ASR 的 Gradio Web UI 演示，请安装 qwen-asr 包并运行 qwen-asr-demo。使用以下命令获取帮助：

qwen-asr-demo --help

要启动演示，您可以使用以下命令：

# Transformers backend
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --ip 0.0.0.0 --port 8000

# Transformers backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16","max_inference_batch_size":8,"max_new_tokens":256}' \
  --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
  --ip 0.0.0.0 --port 8000

# vLLM backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
  --backend vllm \
  --cuda-visible-devices 0 \
  --backend-kwargs '{"gpu_memory_utilization":0.7,"max_inference_batch_size":8,"max_new_tokens":2048}' \
  --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
  --ip 0.0.0.0 --port 8000

然后打开 http://<your-ip>:8000，或通过 VS Code 等工具中的端口转发进行访问。

后端说明

本演示支持两种后端：transformers 和 vLLM。所有特定于后端的初始化参数都应通过 --backend-kwargs 以 JSON 字典的形式传递。如果未提供，演示将使用合理的默认值。

# Example: override transformers init args without flash attention
--backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}'

# Example: override vLLM init args with 65% GPU memory
--backend-kwargs '{"gpu_memory_utilization":0.65}'

CUDA 设备说明

由于 vLLM 不遵循 cuda:0 风格的设备选择方式，本演示通过 --cuda-visible-devices 设置 CUDA_VISIBLE_DEVICES 来选择 GPU。

# Use GPU 0
--cuda-visible-devices 0

# Use GPU 1
--cuda-visible-devices 1

时间戳说明

仅当提供 --aligner-checkpoint 时，时间戳才可用。如果在启动演示时未使用强制对齐器，时间戳界面将自动隐藏。

# No forced aligner
qwen-asr-demo --asr-checkpoint Qwen/Qwen3-ASR-1.7B

# With forced aligner
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B

HTTPS 注意事项

为避免服务器部署后出现浏览器麦克风权限问题，建议/要求通过 HTTPS 运行 gradio 服务（尤其是在远程访问或通过现代浏览器/网关访问时）。使用 --ssl-certfile 和 --ssl-keyfile 启用 HTTPS。首先，生成私钥和自签名证书（有效期 365 天）：

openssl req -x509 -newkey rsa:2048 \
  -keyout key.pem -out cert.pem \
  -days 365 -nodes \
  -subj "/CN=localhost"

然后使用 HTTPS 运行演示：

qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --ip 0.0.0.0 --port 8000 \
  --ssl-certfile cert.pem \
  --ssl-keyfile key.pem \
  --no-ssl-verify

然后打开 https://<your-ip>:8000 即可使用。如果浏览器显示警告，这对于自签名证书而言是正常现象。在生产环境中，请使用真实证书。

流式演示

为了在 Web UI 中体验 Qwen3-ASR 的流式转录功能，我们提供了一个基于 Flask 的极简流式演示。该演示会在浏览器中捕获麦克风音频，将其重采样至 16,000 Hz，并持续向模型推送 PCM 数据块。使用以下命令运行演示：

qwen-asr-demo-streaming \
  --asr-model-path Qwen/Qwen3-ASR-1.7B \
  --host 0.0.0.0 \
  --port 8000 \
  --gpu-memory-utilization 0.9

然后打开 http://<your-ip>:8000，或通过 VS Code 等工具中的端口转发进行访问。

使用 vLLM 部署

vLLM 官方为 Qwen3-ASR 提供了 day-0 模型支持，以实现高效推理。

安装

您可以使用 vLLM nightly 版本的 wheel 包或 docker 镜像运行 Qwen3-ASR。要安装 vLLM 的 nightly 版本，我们建议使用 uv 作为环境管理器。

uv venv
source .venv/bin/activate
uv pip install -U vllm --pre \
    --extra-index-url https://wheels.vllm.ai/nightly/cu129 \
    --extra-index-url https://download.pytorch.org/whl/cu129 \
    --index-strategy unsafe-best-match
uv pip install "vllm[audio]" # For additional audio dependencies

在线服务

您可以通过运行以下命令，使用 vLLM 轻松部署 Qwen3-ASR

vllm serve Qwen/Qwen3-ASR-1.7B

模型服务成功部署后，您可以通过多种方式与其进行交互。

使用 OpenAI SDK

import base64
import httpx
from openai import OpenAI

# Initialize client
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

# Create multimodal chat completion request
response = client.chat.completions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {
                        {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}
                    }
                }
            ]
        }
    ],
)

print(response.choices[0].message.content)

该模型在 vLLM 上也支持 OpenAI 转录 API。

import httpx
from openai import OpenAI

# Initialize client
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
audio_file = httpx.get(audio_url).content

transcription = client.audio.transcriptions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    file=audio_file,
)

print(transcription.text)

使用 cURL

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "messages": [
    {"role": "user", "content": [
        {"type": "audio_url", "audio_url": {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}}
    ]}
    ]
    }'

离线推理

以下是使用 vLLM 运行 Qwen3-ASR 离线推理的示例。

from vllm import LLM, SamplingParams
from vllm.assets.audio import AudioAsset
import base64
import requests

# Initialize the LLM
llm = LLM(
    model="Qwen/Qwen3-ASR-1.7B"
)

# Load audio
audio_asset = AudioAsset("winning_call")

# Create conversation with audio content
conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio_url",
                "audio_url": {"url": audio_asset.url}
            }
        ]
    }
]

sampling_params = SamplingParams(temperature=0.01, max_tokens=256)

# Run inference using .chat()
outputs = llm.chat(conversation, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

Docker

为方便使用 qwen-asr Python 包，我们提供了预构建的 Docker 镜像：qwenllm/qwen3-asr。您只需安装 GPU 驱动并下载模型文件，即可运行代码。请按照 NVIDIA Container Toolkit 安装指南操作，确保 Docker 能够访问您的 GPU。如果您在中国大陆，访问 Docker Hub 存在困难，可使用镜像加速器来提升拉取镜像的速度。

首先，拉取镜像并启动容器：

LOCAL_WORKDIR=/path/to/your/workspace
HOST_PORT=8000
CONTAINER_PORT=80
docker run --gpus all --name qwen3-asr \
    -v /var/run/docker.sock:/var/run/docker.sock -p $HOST_PORT:$CONTAINER_PORT \
    --mount type=bind,source=$LOCAL_WORKDIR,target=/data/shared/Qwen3-ASR \
    --shm-size=4gb \
    -it qwenllm/qwen3-asr:latest

运行该命令后，您将进入容器的 bash shell。您的本地工作区（请将 /path/to/your/workspace 替换为实际路径）会被挂载到容器内的 /data/shared/Qwen3-ASR 目录。主机的 8000 端口映射到容器的 80 端口，因此您可以通过 http://<host-ip>:8000 访问容器内运行的服务。请注意，容器内的服务必须绑定到 0.0.0.0（而非 127.0.0.1），端口转发才能正常工作。

如果您退出容器，可以使用以下命令重新启动并进入容器：

docker start qwen3-asr
docker exec -it qwen3-asr bash

要完全移除容器，请运行：

docker rm -f qwen3-asr

评估

评估期间，我们使用 vLLM 以 dtype=torch.bfloat16 对所有模型进行推理，并设置 max_new_tokens=1024。所有解码均采用贪婪搜索，且所有测试均未指定语言参数。详细评估结果如下所示。

公开数据集上的语音识别基准测试（词错误率 ↓）

	GPT-4o -Transcribe	Gemini-2.5 -Pro	Doubao-ASR	Whisper -large-v3	Fun-ASR -MLT-Nano	Qwen3-ASR -0.6B	Qwen3-ASR -1.7B
英语（en）
Librispeech clean \| other	1.39 \| 3.75	2.89 \| 3.56	2.78 \| 5.70	1.51 \| 3.97	1.68 \| 4.03	2.11 \| 4.55	1.63 \| 3.38
GigaSpeech	25.50	9.37	9.55	9.76	-	8.88	8.45
CV-en	9.08	14.49	13.78	9.90	9.90	9.92	7.39
Fleurs-en	2.40	2.94	6.31	4.08	5.49	4.39	3.35
MLS-en	5.12	3.68	7.09	4.87	-	6.00	4.58
Tedlium	7.69	6.15	4.91	6.84	-	3.85	4.50
VoxPopuli	10.29	11.36	12.12	12.05	-	9.96	9.15
中文（zh）
WenetSpeech net \| meeting	15.30 \| 32.27	14.43 \| 13.47	N/A	9.86 \| 19.11	6.35 \| -	5.97 \| 6.88	4.97 \| 5.88
AISHELL-2-test	4.24	11.62	2.85	5.06	-	3.15	2.71
SpeechIO	12.86	5.30	2.93	7.56	-	3.44	2.88
Fleurs-zh	2.44	2.71	2.69	4.09	3.51	2.88	2.41
CV-zh	6.32	7.70	5.95	12.91	6.20	6.89	5.35
汉语方言
KeSpeech	26.87	24.71	5.27	28.79	-	7.08	5.10
Fleurs-yue	4.98	9.43	4.98	9.18	-	5.79	3.98
CV-yue	11.36	18.76	13.20	16.23	-	9.50	7.57
CV-zh-tw	6.32	7.31	4.06	7.84	-	5.59	3.77
WenetSpeech-Yue short \| long	15.62 \| 25.29	25.19 \| 11.23	9.74 \| 11.40	32.26 \| 46.64	- \| -	7.54 \| 9.92	5.82 \| 8.85
WenetSpeech-Chuan easy \| hard	34.81 \| 53.98	43.79 \| 67.30	11.40 \| 20.20	14.35 \| 26.80	- \| -	13.92 \| 24.45	11.99 \| 21.63

内部数据集上的语音识别基准测试（词错误率 ↓）

	GPT-4o -Transcribe	Gemini-2.5 -Pro	Doubao-ASR	Whisper -large-v3	Fun-ASR -MLT-Nano	Qwen3-ASR -0.6B	Qwen3-ASR -1.7B
带口音英语
Dialog-Accented English	28.56	23.85	20.41	21.30	19.96	16.62	16.07
中文普通话
Elders&Kids	14.27	36.93	4.17	10.61	4.54	4.48	3.81
ExtremeNoise	36.11	29.06	17.04	63.17	36.55	17.88	16.17
TongueTwister	20.87	4.97	3.47	16.63	9.02	4.06	2.44
Dialog-Mandarin	20.73	12.50	6.61	14.01	7.32	7.06	6.54
汉语方言
Dialog-Cantonese	16.05	14.98	7.56	31.04	5.85	4.80	4.12
Dialog-Chinese Dialects	45.37	47.70	19.85	44.55	19.41	18.24	15.94

方言覆盖范围：Dialog-Accented English 的结果为 16 种口音的平均值，Dialog-Chinese Dialects 的结果为 22 种汉语方言的平均值。

多语言语音识别基准测试（词错误率 ↓）

	GLM-ASR -Nano-2512	Whisper -large-v3	Fun-ASR -MLT-Nano	Qwen3-ASR -0.6B	Qwen3-ASR -1.7B
开源基准测试
MLS	13.32	8.62	28.70	13.19	8.55
CommonVoice	19.40	10.77	17.25	12.75	9.18
MLC-SLM	34.93	15.68	29.94	15.84	12.74
Fleurs	16.08	5.27	10.03	7.57	4.90
Fleurs^†	20.05	6.85	31.89	10.37	6.62
Fleurs^††	24.83	8.16	47.84	21.80	12.60
Qwen-ASR 内部基准测试
News-Multilingual	49.40	14.80	65.07	17.39	12.80

语言覆盖范围：MLS 包含 8 种语言：{da, de, en, es, fr, it, pl, pt}。
CommonVoice 包含 13 种语言：{en, zh, yue, zh_TW, ar, de, es, fr, it, ja, ko, pt, ru}。
MLC-SLM 包含 11 种语言：{en, fr, de, it, pt, es, ja, ko, ru, th, vi}。
Fleurs 包含 12 种语言：{en, zh, yue, ar, de, es, fr, it, ja, ko, pt, ru}。
Fleurs^† 在 Fleurs 基础上增加了 8 种语言：{hi, id, ms, nl, pl, th, tr, vi}。
Fleurs^†† 在 Fleurs^† 基础上增加了 10 种语言：{cs, da, el, fa, fi, fil, hu, mk, ro, sv}。
News-Multilingual 包含 15 种语言：{ar, de, es, fr, hi, id, it, ja, ko, nl, pl, pt, ru, th, vi}。

语言识别准确率（%）↑

	Whisper-large-v3	Qwen3-ASR-0.6B	Qwen3-ASR-1.7B
MLS	99.9	99.3	99.9
CommonVoice	92.7	98.2	98.7
MLC-SLM	89.2	92.7	94.1
Fleurs	94.6	97.1	98.7
平均值	94.1	96.8	97.9

语言覆盖范围：语言集合遵循多语言语音识别基准测试。此处，Fleurs 对应多语言语音识别基准测试中的 Fleurs^††，涵盖 30 种语言。

歌声与歌曲转录（词错误率 ↓）

歌唱与带背景音乐歌曲的 WER 对比（WER ↓）

	GPT-4o -Transcribe	Gemini-2.5 -Pro	Doubao-ASR -1.0	Whisper -large-v3	Fun-ASR-MLT -Nano	Qwen3-ASR -1.7B
歌唱
M4Singer	16.77	20.88	7.88	13.58	7.29	5.98
MIR-1k-vocal	11.87	9.85	6.56	11.71	8.17	6.25
Opencpop	7.93	6.49	3.80	9.52	2.98	3.08
Popcs	32.84	15.13	8.97	13.77	9.42	8.52
带背景音乐的歌曲
EntireSongs-en	30.71	12.18	33.51	N/A	N/A	14.60
EntireSongs-zh	34.86	18.68	23.99	N/A	N/A	13.91

ASR 推理模式性能（WER ↓）

模型	推理模式	Librispeech	Fleurs-en	Fleurs-zh	平均值
Qwen3-ASR-1.7B	离线	1.63 \| 3.38	3.35	2.41	2.69
Qwen3-ASR-1.7B	流式	1.95 \| 4.51	4.02	2.84	3.33
Qwen3-ASR-0.6B	离线	2.11 \| 4.55	4.39	2.88	3.48
Qwen3-ASR-0.6B	流式	2.54 \| 6.27	5.38	3.40	4.40

强制对齐基准测试（AAS 毫秒 ↓）

	Monotonic-Aligner	NFA	WhisperX	Qwen3-ForcedAligner-0.6B
MFA 标注的原始音频
中文	161.1	109.8	-	33.1
英文	-	107.5	92.1	37.5
法语	-	100.7	145.3	41.7
德语	-	122.7	165.1	46.5
意大利语	-	142.7	155.5	75.5
日语	-	-	-	42.2
韩语	-	-	-	37.2
葡萄牙语	-	-	-	38.4
俄语	-	200.7	-	40.2
西班牙语	-	124.7	108.0	36.8
平均值	161.1	129.8	133.2	42.9
MFA 标注的 300 秒拼接音频
中文	1742.4	235.0	-	36.5
英文	-	226.7	227.2	58.6
法语	-	230.6	2052.2	53.4
德语	-	220.3	993.4	62.4
意大利语	-	290.5	5719.4	81.6
日语	-	-	-	81.3
韩语	-	-	-	42.2
葡萄牙语	-	-	-	50.0
俄语	-	283.3	-	43.0
西班牙语	-	240.2	4549.9	39.6
跨语言	-	-	-	34.2
平均值	1742.4	246.7	2708.4	52.9
人工标注
原始音频	49.9	88.6	-	27.8
含噪原始音频	53.3	89.5	-	41.8
60 秒拼接音频	51.1	86.7	-	25.3
300 秒拼接音频	410.8	140.0	-	24.8
跨语言拼接音频	-	-	-	42.5
平均值	141.3	101.2	-	32.4

引用说明

如果您觉得我们的论文和代码对您的研究有所帮助，欢迎点亮星星 :star: 并引用我们的成果 :pencil: :)

@article{Qwen3-ASR,
  title={Qwen3-ASR Technical Report},
  author={Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin},
  journal={arXiv preprint arXiv:2601.21337},
  year={2026}
}

Qwen3-ASR

概述

简介

一体化功能：Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持 30 种语言、22 种汉语方言以及多个国家和地区的英语口音的语言识别与语音识别。
精准高效：Qwen3-ASR 系列模型在复杂声学环境和挑战性文本场景下仍保持高质量、稳健的识别效果。Qwen3-ASR-1.7B 在开源及内部基准测试中均表现优异。0.6B 版本则实现了精度与效率的平衡，在并发量为 128 时吞吐量可达 2000 倍。两者均支持单模型流式/离线统一推理，并可处理长音频转录。
创新高效的强制对齐方案：我们推出 Qwen3-ForcedAligner-0.6B，支持 11 种语言中长达 5 分钟语音的任意单元时间戳预测。评估显示其时间戳精度优于基于端到端的强制对齐模型。
全面的推理工具包：除开源 Qwen3-ASR 系列的模型结构和权重外，我们还发布了功能强大的全特性推理框架，支持基于 vLLM 的批量推理、异步服务、流式推理、时间戳预测等功能。

模型架构

已发布模型说明与下载

以下是Qwen3-ASR模型的介绍及下载信息。请选择并下载符合您需求的模型。

模型	支持语言	支持方言	推理模式	音频类型
Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B	中文（zh）、英语（en）、粤语（yue）、阿拉伯语（ar）、德语（de）、法语（fr）、西班牙语（es）、葡萄牙语（pt）、印尼语（id）、意大利语（it）、韩语（ko）、俄语（ru）、泰语（th）、越南语（vi）、日语（ja）、土耳其语（tr）、印地语（hi）、马来语（ms）、荷兰语（nl）、瑞典语（sv）、丹麦语（da）、芬兰语（fi）、波兰语（pl）、捷克语（cs）、菲律宾语（fil）、波斯语（fa）、希腊语（el）、匈牙利语（hu）、马其顿语（mk）、罗马尼亚语（ro）	安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语（香港口音）、粤语（广东口音）、吴语、闽南语	离线 / 流式	语音、歌声、带背景音乐的歌曲
Qwen3-ForcedAligner-0.6B	中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语	--	NAR	语音

# Download through ModelScope (recommended for users in Mainland China)
pip install -U modelscope
modelscope download --model Qwen/Qwen3-ASR-1.7B  --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B
modelscope download --model Qwen/Qwen3-ForcedAligner-0.6B --local_dir ./Qwen3-ForcedAligner-0.6B
# Download through Hugging Face
pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B
huggingface-cli download Qwen/Qwen3-ForcedAligner-0.6B --local-dir ./Qwen3-ForcedAligner-0.6B

快速入门

环境搭建

conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr

运行以下命令以获取支持 transformers-backend 的最小化安装：

pip install -U qwen-asr

要启用 vLLM 后端以实现更快的推理和流式传输支持，请运行：

pip install -U qwen-asr[vllm]

如果您想在本地开发或修改代码，请以可编辑模式从源代码安装：

git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
# support vLLM backend
# pip install -e ".[vllm]"

此外，我们建议使用 FlashAttention 2 以减少 GPU 内存占用并加快推理速度，尤其是在处理长输入和大批量数据时。

pip install -U flash-attn --no-build-isolation

如果您的机器内存小于96GB且拥有多个CPU核心，请运行：

MAX_JOBS=4 pip install -U flash-attn --no-build-isolation

Python 包使用方法

快速推理

import torch
from qwen_asr import Qwen3ASRModel

model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
    max_inference_batch_size=32, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
    max_new_tokens=256, # Maximum number of tokens to generate. Set a larger value for long audio input.
)

results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None, # set "English" to force the language
)

print(results[0].language)
print(results[0].text)

如果需要返回时间戳，请传入forced_aligner及其初始化参数。以下是带时间戳输出的批量推理示例：

import torch
from qwen_asr import Qwen3ASRModel

model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
    max_inference_batch_size=32, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
    max_new_tokens=256, # Maximum number of tokens to generate. Set a larger value for long audio input.
    forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
    forced_aligner_kwargs=dict(
        dtype=torch.bfloat16,
        device_map="cuda:0",
        # attn_implementation="flash_attention_2",
    ),
)

results = model.transcribe(
    audio=[
      "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
      "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    ],
    language=["Chinese", "English"], # can also be set to None for automatic language detection
    return_time_stamps=True,
)

for r in results:
    print(r.language, r.text, r.time_stamps[0])

如需更详细的使用示例，请参考 transformers 后端的示例代码。

vLLM 后端

import torch
from qwen_asr import Qwen3ASRModel

if __name__ == '__main__':
    model = Qwen3ASRModel.LLM(
        model="Qwen/Qwen3-ASR-1.7B",
        gpu_memory_utilization=0.7,
        max_inference_batch_size=128, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
        max_new_tokens=4096, # Maximum number of tokens to generate. Set a larger value for long audio input.
        forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
        forced_aligner_kwargs=dict(
            dtype=torch.bfloat16,
            device_map="cuda:0",
            # attn_implementation="flash_attention_2",
        ),
    )

    results = model.transcribe(
        audio=[
        "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
        "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
        ],
        language=["Chinese", "English"], # can also be set to None for automatic language detection
        return_time_stamps=True,
    )

    for r in results:
        print(r.language, r.text, r.time_stamps[0])

qwen-asr-serve Qwen/Qwen3-ASR-1.7B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000

并通过以下方式向服务器发送请求：

import requests

url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}

data = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {
                        "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
                    },
                }
            ],
        }
    ]
}

response = requests.post(url, headers=headers, json=data, timeout=300)
response.raise_for_status()
content = response.json()['choices'][0]['message']['content']
print(content)

# parse ASR output if you want
from qwen_asr import parse_asr_output
language, text = parse_asr_output(content)
print(language)
print(text)

流式推理

强制对齐工具使用方法

Qwen3-ForcedAligner-0.6B 能够对文本-语音对进行对齐，并返回单词或字符级别的时间戳。以下是直接使用强制对齐工具的示例：

import torch
from qwen_asr import Qwen3ForcedAligner

model = Qwen3ForcedAligner.from_pretrained(
    "Qwen/Qwen3-ForcedAligner-0.6B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
)

results = model.align(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
    text="甚至出现交易几乎停滞的情况。",
    language="Chinese",
)

print(results[0])
print(results[0][0].text, results[0][0].start_time, results[0][0].end_time)

此外，强制对齐器支持本地路径/URL/base64数据/(np.ndarray, sr)输入以及批量推理。详情请参考示例代码。

DashScope API 使用方法

为进一步体验 Qwen3-ASR，我们建议您尝试 DashScope API，以获得更快速、更高效的使用体验。有关详细的 API 信息和文档，请参考以下内容：

API 说明	API 文档（中国大陆）	API 文档（国际）
Qwen3-ASR 实时 API	https://help.aliyun.com/zh/model-studio/qwen-real-time-speech-recognition	https://www.alibabacloud.com/help/en/model-studio/qwen-real-time-speech-recognition
Qwen3-ASR 文件转写 API	https://help.aliyun.com/zh/model-studio/qwen-speech-recognition	https://www.alibabacloud.com/help/en/model-studio/qwen-speech-recognition

启动本地 Web UI 演示

Gradio 演示

要启动 Qwen3-ASR 的 Gradio Web UI 演示，请安装 qwen-asr 包并运行 qwen-asr-demo。使用以下命令获取帮助：

qwen-asr-demo --help

要启动演示，您可以使用以下命令：

# Transformers backend
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --ip 0.0.0.0 --port 8000

# Transformers backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16","max_inference_batch_size":8,"max_new_tokens":256}' \
  --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
  --ip 0.0.0.0 --port 8000

# vLLM backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
  --backend vllm \
  --cuda-visible-devices 0 \
  --backend-kwargs '{"gpu_memory_utilization":0.7,"max_inference_batch_size":8,"max_new_tokens":2048}' \
  --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
  --ip 0.0.0.0 --port 8000

然后打开 http://<your-ip>:8000，或通过 VS Code 等工具中的端口转发进行访问。

后端说明

# Example: override transformers init args without flash attention
--backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}'

# Example: override vLLM init args with 65% GPU memory
--backend-kwargs '{"gpu_memory_utilization":0.65}'

CUDA 设备说明

由于 vLLM 不遵循 cuda:0 风格的设备选择方式，本演示通过 --cuda-visible-devices 设置 CUDA_VISIBLE_DEVICES 来选择 GPU。

# Use GPU 0
--cuda-visible-devices 0

# Use GPU 1
--cuda-visible-devices 1

时间戳说明

仅当提供 --aligner-checkpoint 时，时间戳才可用。如果在启动演示时未使用强制对齐器，时间戳界面将自动隐藏。

# No forced aligner
qwen-asr-demo --asr-checkpoint Qwen/Qwen3-ASR-1.7B

# With forced aligner
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B

HTTPS 注意事项

openssl req -x509 -newkey rsa:2048 \
  -keyout key.pem -out cert.pem \
  -days 365 -nodes \
  -subj "/CN=localhost"

然后使用 HTTPS 运行演示：

qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --ip 0.0.0.0 --port 8000 \
  --ssl-certfile cert.pem \
  --ssl-keyfile key.pem \
  --no-ssl-verify

然后打开 https://<your-ip>:8000 即可使用。如果浏览器显示警告，这对于自签名证书而言是正常现象。在生产环境中，请使用真实证书。

流式演示

qwen-asr-demo-streaming \
  --asr-model-path Qwen/Qwen3-ASR-1.7B \
  --host 0.0.0.0 \
  --port 8000 \
  --gpu-memory-utilization 0.9

然后打开 http://<your-ip>:8000，或通过 VS Code 等工具中的端口转发进行访问。

使用 vLLM 部署

vLLM 官方为 Qwen3-ASR 提供了 day-0 模型支持，以实现高效推理。

安装

您可以使用 vLLM nightly 版本的 wheel 包或 docker 镜像运行 Qwen3-ASR。要安装 vLLM 的 nightly 版本，我们建议使用 uv 作为环境管理器。

uv venv
source .venv/bin/activate
uv pip install -U vllm --pre \
    --extra-index-url https://wheels.vllm.ai/nightly/cu129 \
    --extra-index-url https://download.pytorch.org/whl/cu129 \
    --index-strategy unsafe-best-match
uv pip install "vllm[audio]" # For additional audio dependencies

在线服务

您可以通过运行以下命令，使用 vLLM 轻松部署 Qwen3-ASR

vllm serve Qwen/Qwen3-ASR-1.7B

模型服务成功部署后，您可以通过多种方式与其进行交互。

使用 OpenAI SDK

import base64
import httpx
from openai import OpenAI

# Initialize client
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

# Create multimodal chat completion request
response = client.chat.completions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {
                        {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}
                    }
                }
            ]
        }
    ],
)

print(response.choices[0].message.content)

该模型在 vLLM 上也支持 OpenAI 转录 API。

import httpx
from openai import OpenAI

# Initialize client
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
audio_file = httpx.get(audio_url).content

transcription = client.audio.transcriptions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    file=audio_file,
)

print(transcription.text)

使用 cURL

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "messages": [
    {"role": "user", "content": [
        {"type": "audio_url", "audio_url": {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}}
    ]}
    ]
    }'

离线推理

以下是使用 vLLM 运行 Qwen3-ASR 离线推理的示例。

from vllm import LLM, SamplingParams
from vllm.assets.audio import AudioAsset
import base64
import requests

# Initialize the LLM
llm = LLM(
    model="Qwen/Qwen3-ASR-1.7B"
)

# Load audio
audio_asset = AudioAsset("winning_call")

# Create conversation with audio content
conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio_url",
                "audio_url": {"url": audio_asset.url}
            }
        ]
    }
]

sampling_params = SamplingParams(temperature=0.01, max_tokens=256)

# Run inference using .chat()
outputs = llm.chat(conversation, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

Docker

首先，拉取镜像并启动容器：

LOCAL_WORKDIR=/path/to/your/workspace
HOST_PORT=8000
CONTAINER_PORT=80
docker run --gpus all --name qwen3-asr \
    -v /var/run/docker.sock:/var/run/docker.sock -p $HOST_PORT:$CONTAINER_PORT \
    --mount type=bind,source=$LOCAL_WORKDIR,target=/data/shared/Qwen3-ASR \
    --shm-size=4gb \
    -it qwenllm/qwen3-asr:latest

如果您退出容器，可以使用以下命令重新启动并进入容器：

docker start qwen3-asr
docker exec -it qwen3-asr bash

要完全移除容器，请运行：

docker rm -f qwen3-asr

评估

公开数据集上的语音识别基准测试（词错误率 ↓）

	GPT-4o -Transcribe	Gemini-2.5 -Pro	Doubao-ASR	Whisper -large-v3	Fun-ASR -MLT-Nano	Qwen3-ASR -0.6B	Qwen3-ASR -1.7B
英语（en）
Librispeech clean \| other	1.39 \| 3.75	2.89 \| 3.56	2.78 \| 5.70	1.51 \| 3.97	1.68 \| 4.03	2.11 \| 4.55	1.63 \| 3.38
GigaSpeech	25.50	9.37	9.55	9.76	-	8.88	8.45
CV-en	9.08	14.49	13.78	9.90	9.90	9.92	7.39
Fleurs-en	2.40	2.94	6.31	4.08	5.49	4.39	3.35
MLS-en	5.12	3.68	7.09	4.87	-	6.00	4.58
Tedlium	7.69	6.15	4.91	6.84	-	3.85	4.50
VoxPopuli	10.29	11.36	12.12	12.05	-	9.96	9.15
中文（zh）
WenetSpeech net \| meeting	15.30 \| 32.27	14.43 \| 13.47	N/A	9.86 \| 19.11	6.35 \| -	5.97 \| 6.88	4.97 \| 5.88
AISHELL-2-test	4.24	11.62	2.85	5.06	-	3.15	2.71
SpeechIO	12.86	5.30	2.93	7.56	-	3.44	2.88
Fleurs-zh	2.44	2.71	2.69	4.09	3.51	2.88	2.41
CV-zh	6.32	7.70	5.95	12.91	6.20	6.89	5.35
汉语方言
KeSpeech	26.87	24.71	5.27	28.79	-	7.08	5.10
Fleurs-yue	4.98	9.43	4.98	9.18	-	5.79	3.98
CV-yue	11.36	18.76	13.20	16.23	-	9.50	7.57
CV-zh-tw	6.32	7.31	4.06	7.84	-	5.59	3.77
WenetSpeech-Yue short \| long	15.62 \| 25.29	25.19 \| 11.23	9.74 \| 11.40	32.26 \| 46.64	- \| -	7.54 \| 9.92	5.82 \| 8.85
WenetSpeech-Chuan easy \| hard	34.81 \| 53.98	43.79 \| 67.30	11.40 \| 20.20	14.35 \| 26.80	- \| -	13.92 \| 24.45	11.99 \| 21.63

内部数据集上的语音识别基准测试（词错误率 ↓）

	GPT-4o -Transcribe	Gemini-2.5 -Pro	Doubao-ASR	Whisper -large-v3	Fun-ASR -MLT-Nano	Qwen3-ASR -0.6B	Qwen3-ASR -1.7B
带口音英语
Dialog-Accented English	28.56	23.85	20.41	21.30	19.96	16.62	16.07
中文普通话
Elders&Kids	14.27	36.93	4.17	10.61	4.54	4.48	3.81
ExtremeNoise	36.11	29.06	17.04	63.17	36.55	17.88	16.17
TongueTwister	20.87	4.97	3.47	16.63	9.02	4.06	2.44
Dialog-Mandarin	20.73	12.50	6.61	14.01	7.32	7.06	6.54
汉语方言
Dialog-Cantonese	16.05	14.98	7.56	31.04	5.85	4.80	4.12
Dialog-Chinese Dialects	45.37	47.70	19.85	44.55	19.41	18.24	15.94

方言覆盖范围：Dialog-Accented English 的结果为 16 种口音的平均值，Dialog-Chinese Dialects 的结果为 22 种汉语方言的平均值。

多语言语音识别基准测试（词错误率 ↓）

	GLM-ASR -Nano-2512	Whisper -large-v3	Fun-ASR -MLT-Nano	Qwen3-ASR -0.6B	Qwen3-ASR -1.7B
开源基准测试
MLS	13.32	8.62	28.70	13.19	8.55
CommonVoice	19.40	10.77	17.25	12.75	9.18
MLC-SLM	34.93	15.68	29.94	15.84	12.74
Fleurs	16.08	5.27	10.03	7.57	4.90
Fleurs^†	20.05	6.85	31.89	10.37	6.62
Fleurs^††	24.83	8.16	47.84	21.80	12.60
Qwen-ASR 内部基准测试
News-Multilingual	49.40	14.80	65.07	17.39	12.80

语言识别准确率（%）↑

	Whisper-large-v3	Qwen3-ASR-0.6B	Qwen3-ASR-1.7B
MLS	99.9	99.3	99.9
CommonVoice	92.7	98.2	98.7
MLC-SLM	89.2	92.7	94.1
Fleurs	94.6	97.1	98.7
平均值	94.1	96.8	97.9

语言覆盖范围：语言集合遵循多语言语音识别基准测试。此处，Fleurs 对应多语言语音识别基准测试中的 Fleurs^††，涵盖 30 种语言。

歌声与歌曲转录（词错误率 ↓）

歌唱与带背景音乐歌曲的 WER 对比（WER ↓）

	GPT-4o -Transcribe	Gemini-2.5 -Pro	Doubao-ASR -1.0	Whisper -large-v3	Fun-ASR-MLT -Nano	Qwen3-ASR -1.7B
歌唱
M4Singer	16.77	20.88	7.88	13.58	7.29	5.98
MIR-1k-vocal	11.87	9.85	6.56	11.71	8.17	6.25
Opencpop	7.93	6.49	3.80	9.52	2.98	3.08
Popcs	32.84	15.13	8.97	13.77	9.42	8.52
带背景音乐的歌曲
EntireSongs-en	30.71	12.18	33.51	N/A	N/A	14.60
EntireSongs-zh	34.86	18.68	23.99	N/A	N/A	13.91

ASR 推理模式性能（WER ↓）

模型	推理模式	Librispeech	Fleurs-en	Fleurs-zh	平均值
Qwen3-ASR-1.7B	离线	1.63 \| 3.38	3.35	2.41	2.69
Qwen3-ASR-1.7B	流式	1.95 \| 4.51	4.02	2.84	3.33
Qwen3-ASR-0.6B	离线	2.11 \| 4.55	4.39	2.88	3.48
Qwen3-ASR-0.6B	流式	2.54 \| 6.27	5.38	3.40	4.40

强制对齐基准测试（AAS 毫秒 ↓）

	Monotonic-Aligner	NFA	WhisperX	Qwen3-ForcedAligner-0.6B
MFA 标注的原始音频
中文	161.1	109.8	-	33.1
英文	-	107.5	92.1	37.5
法语	-	100.7	145.3	41.7
德语	-	122.7	165.1	46.5
意大利语	-	142.7	155.5	75.5
日语	-	-	-	42.2
韩语	-	-	-	37.2
葡萄牙语	-	-	-	38.4
俄语	-	200.7	-	40.2
西班牙语	-	124.7	108.0	36.8
平均值	161.1	129.8	133.2	42.9
MFA 标注的 300 秒拼接音频
中文	1742.4	235.0	-	36.5
英文	-	226.7	227.2	58.6
法语	-	230.6	2052.2	53.4
德语	-	220.3	993.4	62.4
意大利语	-	290.5	5719.4	81.6
日语	-	-	-	81.3
韩语	-	-	-	42.2
葡萄牙语	-	-	-	50.0
俄语	-	283.3	-	43.0
西班牙语	-	240.2	4549.9	39.6
跨语言	-	-	-	34.2
平均值	1742.4	246.7	2708.4	52.9
人工标注
原始音频	49.9	88.6	-	27.8
含噪原始音频	53.3	89.5	-	41.8
60 秒拼接音频	51.1	86.7	-	25.3
300 秒拼接音频	410.8	140.0	-	24.8
跨语言拼接音频	-	-	-	42.5
平均值	141.3	101.2	-	32.4

引用说明

如果您觉得我们的论文和代码对您的研究有所帮助，欢迎点亮星星 :star: 并引用我们的成果 :pencil: :)

@article{Qwen3-ASR,
  title={Qwen3-ASR Technical Report},
  author={Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin},
  journal={arXiv preprint arXiv:2601.21337},
  year={2026}
}