HuggingFace镜像/Qwen3-ASR-0.6B
模型介绍文件和版本分析
下载使用量0

Qwen3-ASR

概述

简介

Qwen3-ASR 系列包含 Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 两个版本,支持 52 种语言及方言的语言识别与语音识别。两者均基于大规模语音训练数据,并依托其基础模型 Qwen3-Omni 强大的音频理解能力。实验表明,1.7B 版本在开源语音识别模型中性能达到业界领先水平,且可与主流商业闭源 API 相媲美。主要特性如下:

  • 一体化功能:Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持 30 种语言、22 种汉语方言以及多个国家和地区的英语口音的语言识别与语音识别。

  • 精准高效:Qwen3-ASR 系列模型在复杂声学环境和挑战性文本场景下仍保持高质量、稳健的识别效果。Qwen3-ASR-1.7B 在开源及内部基准测试中均表现优异。0.6B 版本则实现了精度与效率的平衡,在并发量为 128 时吞吐量可达 2000 倍。两者均支持单模型流式/离线统一推理,并可处理长音频转录。

  • 创新高效的强制对齐方案:我们推出 Qwen3-ForcedAligner-0.6B,支持 11 种语言中长达 5 分钟语音的任意单元时间戳预测。评估显示其时间戳精度优于基于端到端的强制对齐模型。

  • 全面的推理工具包:除开源 Qwen3-ASR 系列的模型结构和权重外,我们还发布了功能强大的全特性推理框架,支持基于 vLLM 的批量推理、异步服务、流式推理、时间戳预测等功能。

模型架构

已发布模型说明与下载

以下是Qwen3-ASR模型的介绍及下载信息。请选择并下载符合您需求的模型。

模型支持语言支持方言推理模式音频类型
Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B中文(zh)、英语(en)、粤语(yue)、阿拉伯语(ar)、德语(de)、法语(fr)、西班牙语(es)、葡萄牙语(pt)、印尼语(id)、意大利语(it)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)、日语(ja)、土耳其语(tr)、印地语(hi)、马来语(ms)、荷兰语(nl)、瑞典语(sv)、丹麦语(da)、芬兰语(fi)、波兰语(pl)、捷克语(cs)、菲律宾语(fil)、波斯语(fa)、希腊语(el)、匈牙利语(hu)、马其顿语(mk)、罗马尼亚语(ro)安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语(香港口音)、粤语(广东口音)、吴语、闽南语离线 / 流式语音、歌声、带背景音乐的歌曲
Qwen3-ForcedAligner-0.6B中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语--NAR语音

在 qwen-asr 包或 vLLM 中加载模型时,会根据模型名称自动下载模型权重。但如果您的运行环境不允许在执行过程中下载权重,可以使用以下命令手动将模型权重下载到本地目录:

# Download through ModelScope (recommended for users in Mainland China)
pip install -U modelscope
modelscope download --model Qwen/Qwen3-ASR-1.7B  --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B
modelscope download --model Qwen/Qwen3-ForcedAligner-0.6B --local_dir ./Qwen3-ForcedAligner-0.6B
# Download through Hugging Face
pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B
huggingface-cli download Qwen/Qwen3-ForcedAligner-0.6B --local-dir ./Qwen3-ForcedAligner-0.6B

快速入门

环境搭建

使用 Qwen3-ASR 最简单的方式是从 PyPI 安装 qwen-asr Python 包。这会自动安装所需的运行时依赖,并允许您加载任何已发布的 Qwen3-ASR 模型。如果您希望进一步简化环境搭建,也可以使用我们的官方 Docker 镜像。qwen-asr 包提供两种后端:transformers 后端和 vLLM 后端。有关不同后端的使用说明,请参考 Python 包使用方法。我们建议使用全新的隔离环境,以避免与现有包产生依赖冲突。您可以按以下方式创建一个干净的 Python 3.12 环境:

conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr

运行以下命令以获取支持 transformers-backend 的最小化安装:

pip install -U qwen-asr

要启用 vLLM 后端以实现更快的推理和流式传输支持,请运行:

pip install -U qwen-asr[vllm]

如果您想在本地开发或修改代码,请以可编辑模式从源代码安装:

git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
# support vLLM backend
# pip install -e ".[vllm]"

此外,我们建议使用 FlashAttention 2 以减少 GPU 内存占用并加快推理速度,尤其是在处理长输入和大批量数据时。

pip install -U flash-attn --no-build-isolation

如果您的机器内存小于96GB且拥有多个CPU核心,请运行:

MAX_JOBS=4 pip install -U flash-attn --no-build-isolation

此外,您的硬件需要与 FlashAttention 2 兼容。有关详细信息,请参阅 FlashAttention 代码库 的官方文档。只有当模型以 torch.float16 或 torch.bfloat16 精度加载时,才能使用 FlashAttention 2。

Python 包使用方法

快速推理

qwen-asr 包提供两种后端:transformers 后端和vLLM 后端。您可以将音频输入作为本地路径、URL、base64 数据或 (np.ndarray, sr) 元组传入,并进行批量推理。若要快速试用 Qwen3-ASR,您可以通过以下代码,使用 Qwen3ASRModel.from_pretrained(...) 来调用 transformers 后端:

import torch
from qwen_asr import Qwen3ASRModel

model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
    max_inference_batch_size=32, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
    max_new_tokens=256, # Maximum number of tokens to generate. Set a larger value for long audio input.
)

results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None, # set "English" to force the language
)

print(results[0].language)
print(results[0].text)

如果需要返回时间戳,请传入forced_aligner及其初始化参数。以下是带时间戳输出的批量推理示例:

import torch
from qwen_asr import Qwen3ASRModel

model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
    max_inference_batch_size=32, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
    max_new_tokens=256, # Maximum number of tokens to generate. Set a larger value for long audio input.
    forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
    forced_aligner_kwargs=dict(
        dtype=torch.bfloat16,
        device_map="cuda:0",
        # attn_implementation="flash_attention_2",
    ),
)

results = model.transcribe(
    audio=[
      "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
      "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    ],
    language=["Chinese", "English"], # can also be set to None for automatic language detection
    return_time_stamps=True,
)

for r in results:
    print(r.language, r.text, r.time_stamps[0])

如需更详细的使用示例,请参考 transformers 后端的示例代码。

vLLM 后端

如果您希望 Qwen3-ASR 获得最快的推理速度,我们强烈建议使用 vLLM 后端,通过 Qwen3ASRModel.LLM(...) 初始化模型。下面提供了示例代码。请注意,您必须通过 pip install -U qwen-asr[vllm] 安装相关依赖。如果希望模型输出时间戳,最好通过 pip install -U flash-attn --no-build-isolation 安装 FlashAttention,以加快强制对齐模型的推理速度。请记住将代码放在 if __name__ == '__main__': 下,以避免 vLLM 故障排除 中描述的 spawn 错误。

import torch
from qwen_asr import Qwen3ASRModel

if __name__ == '__main__':
    model = Qwen3ASRModel.LLM(
        model="Qwen/Qwen3-ASR-1.7B",
        gpu_memory_utilization=0.7,
        max_inference_batch_size=128, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
        max_new_tokens=4096, # Maximum number of tokens to generate. Set a larger value for long audio input.
        forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
        forced_aligner_kwargs=dict(
            dtype=torch.bfloat16,
            device_map="cuda:0",
            # attn_implementation="flash_attention_2",
        ),
    )

    results = model.transcribe(
        audio=[
        "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
        "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
        ],
        language=["Chinese", "English"], # can also be set to None for automatic language detection
        return_time_stamps=True,
    )

    for r in results:
        print(r.language, r.text, r.time_stamps[0])

如需更详细的使用示例,请参考 vLLM 后端的示例代码。此外,您可以通过 qwen-asr-serve 命令启动 vLLM 服务器,该命令是 vllm serve 的封装。您可以传递 vllm serve 支持的任何参数,例如:

qwen-asr-serve Qwen/Qwen3-ASR-1.7B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000

并通过以下方式向服务器发送请求:

import requests

url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}

data = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {
                        "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
                    },
                }
            ],
        }
    ]
}

response = requests.post(url, headers=headers, json=data, timeout=300)
response.raise_for_status()
content = response.json()['choices'][0]['message']['content']
print(content)

# parse ASR output if you want
from qwen_asr import parse_asr_output
language, text = parse_asr_output(content)
print(language)
print(text)

流式推理

Qwen3-ASR 全面支持流式推理。目前,流式推理仅在 vLLM 后端可用。请注意,流式推理不支持批量推理或返回时间戳。详情请参考示例代码。您也可以通过指南启动流式 Web 演示,体验 Qwen3-ASR 的流式转录功能。

强制对齐工具使用方法

Qwen3-ForcedAligner-0.6B 能够对文本-语音对进行对齐,并返回单词或字符级别的时间戳。以下是直接使用强制对齐工具的示例:

import torch
from qwen_asr import Qwen3ForcedAligner

model = Qwen3ForcedAligner.from_pretrained(
    "Qwen/Qwen3-ForcedAligner-0.6B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    # attn_implementation="flash_attention_2",
)

results = model.align(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
    text="甚至出现交易几乎停滞的情况。",
    language="Chinese",
)

print(results[0])
print(results[0][0].text, results[0][0].start_time, results[0][0].end_time)

此外,强制对齐器支持本地路径/URL/base64数据/(np.ndarray, sr)输入以及批量推理。详情请参考示例代码。

DashScope API 使用方法

为进一步体验 Qwen3-ASR,我们建议您尝试 DashScope API,以获得更快速、更高效的使用体验。有关详细的 API 信息和文档,请参考以下内容:

API 说明API 文档(中国大陆)API 文档(国际)
Qwen3-ASR 实时 APIhttps://help.aliyun.com/zh/model-studio/qwen-real-time-speech-recognitionhttps://www.alibabacloud.com/help/en/model-studio/qwen-real-time-speech-recognition
Qwen3-ASR 文件转写 APIhttps://help.aliyun.com/zh/model-studio/qwen-speech-recognitionhttps://www.alibabacloud.com/help/en/model-studio/qwen-speech-recognition

启动本地 Web UI 演示

Gradio 演示

要启动 Qwen3-ASR 的 Gradio Web UI 演示,请安装 qwen-asr 包并运行 qwen-asr-demo。使用以下命令获取帮助:

qwen-asr-demo --help

要启动演示,您可以使用以下命令:

# Transformers backend
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --ip 0.0.0.0 --port 8000

# Transformers backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16","max_inference_batch_size":8,"max_new_tokens":256}' \
  --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
  --ip 0.0.0.0 --port 8000

# vLLM backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
  --backend vllm \
  --cuda-visible-devices 0 \
  --backend-kwargs '{"gpu_memory_utilization":0.7,"max_inference_batch_size":8,"max_new_tokens":2048}' \
  --aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
  --ip 0.0.0.0 --port 8000

然后打开 http://<your-ip>:8000,或通过 VS Code 等工具中的端口转发进行访问。

后端说明

本演示支持两种后端:transformers 和 vLLM。所有特定于后端的初始化参数都应通过 --backend-kwargs 以 JSON 字典的形式传递。如果未提供,演示将使用合理的默认值。

# Example: override transformers init args without flash attention
--backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}'

# Example: override vLLM init args with 65% GPU memory
--backend-kwargs '{"gpu_memory_utilization":0.65}'

CUDA 设备说明

由于 vLLM 不遵循 cuda:0 风格的设备选择方式,本演示通过 --cuda-visible-devices 设置 CUDA_VISIBLE_DEVICES 来选择 GPU。

# Use GPU 0
--cuda-visible-devices 0

# Use GPU 1
--cuda-visible-devices 1

时间戳说明

仅当提供 --aligner-checkpoint 时,时间戳才可用。如果在启动演示时未使用强制对齐器,时间戳界面将自动隐藏。

# No forced aligner
qwen-asr-demo --asr-checkpoint Qwen/Qwen3-ASR-1.7B

# With forced aligner
qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B

HTTPS 注意事项

为避免服务器部署后出现浏览器麦克风权限问题,建议/要求通过 HTTPS 运行 gradio 服务(尤其是在远程访问或通过现代浏览器/网关访问时)。使用 --ssl-certfile 和 --ssl-keyfile 启用 HTTPS。首先,生成私钥和自签名证书(有效期 365 天):

openssl req -x509 -newkey rsa:2048 \
  -keyout key.pem -out cert.pem \
  -days 365 -nodes \
  -subj "/CN=localhost"

然后使用 HTTPS 运行演示:

qwen-asr-demo \
  --asr-checkpoint Qwen/Qwen3-ASR-1.7B \
  --backend transformers \
  --cuda-visible-devices 0 \
  --ip 0.0.0.0 --port 8000 \
  --ssl-certfile cert.pem \
  --ssl-keyfile key.pem \
  --no-ssl-verify

然后打开 https://<your-ip>:8000 即可使用。如果浏览器显示警告,这对于自签名证书而言是正常现象。在生产环境中,请使用真实证书。

流式演示

为了在 Web UI 中体验 Qwen3-ASR 的流式转录功能,我们提供了一个基于 Flask 的极简流式演示。该演示会在浏览器中捕获麦克风音频,将其重采样至 16,000 Hz,并持续向模型推送 PCM 数据块。使用以下命令运行演示:

qwen-asr-demo-streaming \
  --asr-model-path Qwen/Qwen3-ASR-1.7B \
  --host 0.0.0.0 \
  --port 8000 \
  --gpu-memory-utilization 0.9

然后打开 http://<your-ip>:8000,或通过 VS Code 等工具中的端口转发进行访问。

使用 vLLM 部署

vLLM 官方为 Qwen3-ASR 提供了 day-0 模型支持,以实现高效推理。

安装

您可以使用 vLLM nightly 版本的 wheel 包或 docker 镜像运行 Qwen3-ASR。要安装 vLLM 的 nightly 版本,我们建议使用 uv 作为环境管理器。

uv venv
source .venv/bin/activate
uv pip install -U vllm --pre \
    --extra-index-url https://wheels.vllm.ai/nightly/cu129 \
    --extra-index-url https://download.pytorch.org/whl/cu129 \
    --index-strategy unsafe-best-match
uv pip install "vllm[audio]" # For additional audio dependencies

在线服务

您可以通过运行以下命令,使用 vLLM 轻松部署 Qwen3-ASR

vllm serve Qwen/Qwen3-ASR-1.7B

模型服务成功部署后,您可以通过多种方式与其进行交互。

使用 OpenAI SDK

import base64
import httpx
from openai import OpenAI

# Initialize client
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

# Create multimodal chat completion request
response = client.chat.completions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {
                        {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}
                    }
                }
            ]
        }
    ],
)

print(response.choices[0].message.content)

该模型在 vLLM 上也支持 OpenAI 转录 API。

import httpx
from openai import OpenAI

# Initialize client
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
audio_file = httpx.get(audio_url).content

transcription = client.audio.transcriptions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    file=audio_file,
)

print(transcription.text)

使用 cURL

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "messages": [
    {"role": "user", "content": [
        {"type": "audio_url", "audio_url": {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}}
    ]}
    ]
    }'

离线推理

以下是使用 vLLM 运行 Qwen3-ASR 离线推理的示例。

from vllm import LLM, SamplingParams
from vllm.assets.audio import AudioAsset
import base64
import requests

# Initialize the LLM
llm = LLM(
    model="Qwen/Qwen3-ASR-1.7B"
)

# Load audio
audio_asset = AudioAsset("winning_call")

# Create conversation with audio content
conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio_url",
                "audio_url": {"url": audio_asset.url}
            }
        ]
    }
]

sampling_params = SamplingParams(temperature=0.01, max_tokens=256)

# Run inference using .chat()
outputs = llm.chat(conversation, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)

Docker

为方便使用 qwen-asr Python 包,我们提供了预构建的 Docker 镜像:qwenllm/qwen3-asr。您只需安装 GPU 驱动并下载模型文件,即可运行代码。请按照 NVIDIA Container Toolkit 安装指南 操作,确保 Docker 能够访问您的 GPU。如果您在中国大陆,访问 Docker Hub 存在困难,可使用镜像加速器来提升拉取镜像的速度。

首先,拉取镜像并启动容器:

LOCAL_WORKDIR=/path/to/your/workspace
HOST_PORT=8000
CONTAINER_PORT=80
docker run --gpus all --name qwen3-asr \
    -v /var/run/docker.sock:/var/run/docker.sock -p $HOST_PORT:$CONTAINER_PORT \
    --mount type=bind,source=$LOCAL_WORKDIR,target=/data/shared/Qwen3-ASR \
    --shm-size=4gb \
    -it qwenllm/qwen3-asr:latest

运行该命令后,您将进入容器的 bash shell。您的本地工作区(请将 /path/to/your/workspace 替换为实际路径)会被挂载到容器内的 /data/shared/Qwen3-ASR 目录。主机的 8000 端口映射到容器的 80 端口,因此您可以通过 http://<host-ip>:8000 访问容器内运行的服务。请注意,容器内的服务必须绑定到 0.0.0.0(而非 127.0.0.1),端口转发才能正常工作。

如果您退出容器,可以使用以下命令重新启动并进入容器:

docker start qwen3-asr
docker exec -it qwen3-asr bash

要完全移除容器,请运行:

docker rm -f qwen3-asr

评估

评估期间,我们使用 vLLM 以 dtype=torch.bfloat16 对所有模型进行推理,并设置 max_new_tokens=1024。所有解码均采用贪婪搜索,且所有测试均未指定语言参数。详细评估结果如下所示。

公开数据集上的语音识别基准测试(词错误率 ↓)
GPT-4o
-Transcribe
Gemini-2.5
-Pro
Doubao-ASRWhisper
-large-v3
Fun-ASR
-MLT-Nano
Qwen3-ASR
-0.6B
Qwen3-ASR
-1.7B
英语(en)
Librispeech
clean | other
1.39 | 3.752.89 | 3.562.78 | 5.701.51 | 3.971.68 | 4.032.11 | 4.551.63 | 3.38
GigaSpeech25.509.379.559.76-8.888.45
CV-en9.0814.4913.789.909.909.927.39
Fleurs-en2.402.946.314.085.494.393.35
MLS-en5.123.687.094.87-6.004.58
Tedlium7.696.154.916.84-3.854.50
VoxPopuli10.2911.3612.1212.05-9.969.15
中文(zh)
WenetSpeech
net | meeting
15.30 | 32.2714.43 | 13.47N/A9.86 | 19.116.35 | -5.97 | 6.884.97 | 5.88
AISHELL-2-test4.2411.622.855.06-3.152.71
SpeechIO12.865.302.937.56-3.442.88
Fleurs-zh2.442.712.694.093.512.882.41
CV-zh6.327.705.9512.916.206.895.35
汉语方言
KeSpeech26.8724.715.2728.79-7.085.10
Fleurs-yue4.989.434.989.18-5.793.98
CV-yue11.3618.7613.2016.23-9.507.57
CV-zh-tw6.327.314.067.84-5.593.77
WenetSpeech-Yue
short | long
15.62 | 25.2925.19 | 11.239.74 | 11.4032.26 | 46.64- | -7.54 | 9.925.82 | 8.85
WenetSpeech-Chuan
easy | hard
34.81 | 53.9843.79 | 67.3011.40 | 20.2014.35 | 26.80- | -13.92 | 24.4511.99 | 21.63
内部数据集上的语音识别基准测试(词错误率 ↓)
GPT-4o
-Transcribe
Gemini-2.5
-Pro
Doubao-ASRWhisper
-large-v3
Fun-ASR
-MLT-Nano
Qwen3-ASR
-0.6B
Qwen3-ASR
-1.7B
带口音英语
Dialog-Accented English28.5623.8520.4121.3019.9616.6216.07
中文普通话
Elders&Kids14.2736.934.1710.614.544.483.81
ExtremeNoise36.1129.0617.0463.1736.5517.8816.17
TongueTwister20.874.973.4716.639.024.062.44
Dialog-Mandarin20.7312.506.6114.017.327.066.54
汉语方言
Dialog-Cantonese16.0514.987.5631.045.854.804.12
Dialog-Chinese Dialects45.3747.7019.8544.5519.4118.2415.94

方言覆盖范围:Dialog-Accented English 的结果为 16 种口音的平均值,Dialog-Chinese Dialects 的结果为 22 种汉语方言的平均值。

多语言语音识别基准测试(词错误率 ↓)
GLM-ASR
-Nano-2512
Whisper
-large-v3
Fun-ASR
-MLT-Nano
Qwen3-ASR
-0.6B
Qwen3-ASR
-1.7B
开源基准测试
MLS13.328.6228.7013.198.55
CommonVoice19.4010.7717.2512.759.18
MLC-SLM34.9315.6829.9415.8412.74
Fleurs16.085.2710.037.574.90
Fleurs†20.056.8531.8910.376.62
Fleurs††24.838.1647.8421.8012.60
Qwen-ASR 内部基准测试
News-Multilingual49.4014.8065.0717.3912.80

语言覆盖范围:MLS 包含 8 种语言:{da, de, en, es, fr, it, pl, pt}。
CommonVoice 包含 13 种语言:{en, zh, yue, zh_TW, ar, de, es, fr, it, ja, ko, pt, ru}。
MLC-SLM 包含 11 种语言:{en, fr, de, it, pt, es, ja, ko, ru, th, vi}。
Fleurs 包含 12 种语言:{en, zh, yue, ar, de, es, fr, it, ja, ko, pt, ru}。
Fleurs† 在 Fleurs 基础上增加了 8 种语言:{hi, id, ms, nl, pl, th, tr, vi}。
Fleurs†† 在 Fleurs† 基础上增加了 10 种语言:{cs, da, el, fa, fi, fil, hu, mk, ro, sv}。
News-Multilingual 包含 15 种语言:{ar, de, es, fr, hi, id, it, ja, ko, nl, pl, pt, ru, th, vi}。

语言识别准确率(%)↑
Whisper-large-v3Qwen3-ASR-0.6BQwen3-ASR-1.7B
MLS99.999.399.9
CommonVoice92.798.298.7
MLC-SLM89.292.794.1
Fleurs94.697.198.7
平均值94.196.897.9

语言覆盖范围:语言集合遵循多语言语音识别基准测试。此处,Fleurs 对应多语言语音识别基准测试中的 Fleurs††,涵盖 30 种语言。

歌声与歌曲转录(词错误率 ↓)
歌唱与带背景音乐歌曲的 WER 对比(WER ↓)
GPT-4o
-Transcribe
Gemini-2.5
-Pro
Doubao-ASR
-1.0
Whisper
-large-v3
Fun-ASR-MLT
-Nano
Qwen3-ASR
-1.7B
歌唱
M4Singer16.7720.887.8813.587.295.98
MIR-1k-vocal11.879.856.5611.718.176.25
Opencpop7.936.493.809.522.983.08
Popcs32.8415.138.9713.779.428.52
带背景音乐的歌曲
EntireSongs-en30.7112.1833.51N/AN/A14.60
EntireSongs-zh34.8618.6823.99N/AN/A13.91
ASR 推理模式性能(WER ↓)
模型推理模式LibrispeechFleurs-enFleurs-zh平均值
Qwen3-ASR-1.7B离线1.63 | 3.383.352.412.69
流式1.95 | 4.514.022.843.33
Qwen3-ASR-0.6B离线2.11 | 4.554.392.883.48
流式2.54 | 6.275.383.404.40
强制对齐基准测试(AAS 毫秒 ↓)
Monotonic-AlignerNFAWhisperXQwen3-ForcedAligner-0.6B
MFA 标注的原始音频
中文161.1109.8-33.1
英文-107.592.137.5
法语-100.7145.341.7
德语-122.7165.146.5
意大利语-142.7155.575.5
日语---42.2
韩语---37.2
葡萄牙语---38.4
俄语-200.7-40.2
西班牙语-124.7108.036.8
平均值161.1129.8133.242.9
MFA 标注的 300 秒拼接音频
中文1742.4235.0-36.5
英文-226.7227.258.6
法语-230.62052.253.4
德语-220.3993.462.4
意大利语-290.55719.481.6
日语---81.3
韩语---42.2
葡萄牙语---50.0
俄语-283.3-43.0
西班牙语-240.24549.939.6
跨语言---34.2
平均值1742.4246.72708.452.9
人工标注
原始音频49.988.6-27.8
含噪原始音频53.389.5-41.8
60 秒拼接音频51.186.7-25.3
300 秒拼接音频410.8140.0-24.8
跨语言拼接音频---42.5
平均值141.3101.2-32.4

引用说明

如果您觉得我们的论文和代码对您的研究有所帮助,欢迎点亮星星 :star: 并引用我们的成果 :pencil: :)

@article{Qwen3-ASR,
  title={Qwen3-ASR Technical Report},
  author={Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin},
  journal={arXiv preprint arXiv:2601.21337},
  year={2026}
}