Qwen3-ASR 系列包含 Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 两个版本,支持 52 种语言及方言的语言识别与语音识别。两者均基于大规模语音训练数据,并依托其基础模型 Qwen3-Omni 强大的音频理解能力。实验表明,1.7B 版本在开源语音识别模型中性能达到业界领先水平,且可与主流商业闭源 API 相媲美。主要特性如下:
一体化功能:Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持 30 种语言、22 种汉语方言以及多个国家和地区的英语口音的语言识别与语音识别。
精准高效:Qwen3-ASR 系列模型在复杂声学环境和挑战性文本场景下仍保持高质量、稳健的识别效果。Qwen3-ASR-1.7B 在开源及内部基准测试中均表现优异。0.6B 版本则实现了精度与效率的平衡,在并发量为 128 时吞吐量可达 2000 倍。两者均支持单模型流式/离线统一推理,并可处理长音频转录。
创新高效的强制对齐方案:我们推出 Qwen3-ForcedAligner-0.6B,支持 11 种语言中长达 5 分钟语音的任意单元时间戳预测。评估显示其时间戳精度优于基于端到端的强制对齐模型。
全面的推理工具包:除开源 Qwen3-ASR 系列的模型结构和权重外,我们还发布了功能强大的全特性推理框架,支持基于 vLLM 的批量推理、异步服务、流式推理、时间戳预测等功能。
以下是Qwen3-ASR模型的介绍及下载信息。请选择并下载符合您需求的模型。
| 模型 | 支持语言 | 支持方言 | 推理模式 | 音频类型 |
|---|---|---|---|---|
| Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B | 中文(zh)、英语(en)、粤语(yue)、阿拉伯语(ar)、德语(de)、法语(fr)、西班牙语(es)、葡萄牙语(pt)、印尼语(id)、意大利语(it)、韩语(ko)、俄语(ru)、泰语(th)、越南语(vi)、日语(ja)、土耳其语(tr)、印地语(hi)、马来语(ms)、荷兰语(nl)、瑞典语(sv)、丹麦语(da)、芬兰语(fi)、波兰语(pl)、捷克语(cs)、菲律宾语(fil)、波斯语(fa)、希腊语(el)、匈牙利语(hu)、马其顿语(mk)、罗马尼亚语(ro) | 安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语(香港口音)、粤语(广东口音)、吴语、闽南语 | 离线 / 流式 | 语音、歌声、带背景音乐的歌曲 |
| Qwen3-ForcedAligner-0.6B | 中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语 | -- | NAR | 语音 |
在 qwen-asr 包或 vLLM 中加载模型时,会根据模型名称自动下载模型权重。但如果您的运行环境不允许在执行过程中下载权重,可以使用以下命令手动将模型权重下载到本地目录:
# Download through ModelScope (recommended for users in Mainland China)
pip install -U modelscope
modelscope download --model Qwen/Qwen3-ASR-1.7B --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B
modelscope download --model Qwen/Qwen3-ForcedAligner-0.6B --local_dir ./Qwen3-ForcedAligner-0.6B
# Download through Hugging Face
pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B
huggingface-cli download Qwen/Qwen3-ForcedAligner-0.6B --local-dir ./Qwen3-ForcedAligner-0.6B使用 Qwen3-ASR 最简单的方式是从 PyPI 安装 qwen-asr Python 包。这会自动安装所需的运行时依赖,并允许您加载任何已发布的 Qwen3-ASR 模型。如果您希望进一步简化环境搭建,也可以使用我们的官方 Docker 镜像。qwen-asr 包提供两种后端:transformers 后端和 vLLM 后端。有关不同后端的使用说明,请参考 Python 包使用方法。我们建议使用全新的隔离环境,以避免与现有包产生依赖冲突。您可以按以下方式创建一个干净的 Python 3.12 环境:
conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr运行以下命令以获取支持 transformers-backend 的最小化安装:
pip install -U qwen-asr要启用 vLLM 后端以实现更快的推理和流式传输支持,请运行:
pip install -U qwen-asr[vllm]如果您想在本地开发或修改代码,请以可编辑模式从源代码安装:
git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
# support vLLM backend
# pip install -e ".[vllm]"此外,我们建议使用 FlashAttention 2 以减少 GPU 内存占用并加快推理速度,尤其是在处理长输入和大批量数据时。
pip install -U flash-attn --no-build-isolation如果您的机器内存小于96GB且拥有多个CPU核心,请运行:
MAX_JOBS=4 pip install -U flash-attn --no-build-isolation此外,您的硬件需要与 FlashAttention 2 兼容。有关详细信息,请参阅 FlashAttention 代码库 的官方文档。只有当模型以 torch.float16 或 torch.bfloat16 精度加载时,才能使用 FlashAttention 2。
qwen-asr 包提供两种后端:transformers 后端和vLLM 后端。您可以将音频输入作为本地路径、URL、base64 数据或 (np.ndarray, sr) 元组传入,并进行批量推理。若要快速试用 Qwen3-ASR,您可以通过以下代码,使用 Qwen3ASRModel.from_pretrained(...) 来调用 transformers 后端:
import torch
from qwen_asr import Qwen3ASRModel
model = Qwen3ASRModel.from_pretrained(
"Qwen/Qwen3-ASR-1.7B",
dtype=torch.bfloat16,
device_map="cuda:0",
# attn_implementation="flash_attention_2",
max_inference_batch_size=32, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
max_new_tokens=256, # Maximum number of tokens to generate. Set a larger value for long audio input.
)
results = model.transcribe(
audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
language=None, # set "English" to force the language
)
print(results[0].language)
print(results[0].text)如果需要返回时间戳,请传入forced_aligner及其初始化参数。以下是带时间戳输出的批量推理示例:
import torch
from qwen_asr import Qwen3ASRModel
model = Qwen3ASRModel.from_pretrained(
"Qwen/Qwen3-ASR-1.7B",
dtype=torch.bfloat16,
device_map="cuda:0",
# attn_implementation="flash_attention_2",
max_inference_batch_size=32, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
max_new_tokens=256, # Maximum number of tokens to generate. Set a larger value for long audio input.
forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
forced_aligner_kwargs=dict(
dtype=torch.bfloat16,
device_map="cuda:0",
# attn_implementation="flash_attention_2",
),
)
results = model.transcribe(
audio=[
"https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
"https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
],
language=["Chinese", "English"], # can also be set to None for automatic language detection
return_time_stamps=True,
)
for r in results:
print(r.language, r.text, r.time_stamps[0])如需更详细的使用示例,请参考 transformers 后端的示例代码。
如果您希望 Qwen3-ASR 获得最快的推理速度,我们强烈建议使用 vLLM 后端,通过 Qwen3ASRModel.LLM(...) 初始化模型。下面提供了示例代码。请注意,您必须通过 pip install -U qwen-asr[vllm] 安装相关依赖。如果希望模型输出时间戳,最好通过 pip install -U flash-attn --no-build-isolation 安装 FlashAttention,以加快强制对齐模型的推理速度。请记住将代码放在 if __name__ == '__main__': 下,以避免 vLLM 故障排除 中描述的 spawn 错误。
import torch
from qwen_asr import Qwen3ASRModel
if __name__ == '__main__':
model = Qwen3ASRModel.LLM(
model="Qwen/Qwen3-ASR-1.7B",
gpu_memory_utilization=0.7,
max_inference_batch_size=128, # Batch size limit for inference. -1 means unlimited. Smaller values can help avoid OOM.
max_new_tokens=4096, # Maximum number of tokens to generate. Set a larger value for long audio input.
forced_aligner="Qwen/Qwen3-ForcedAligner-0.6B",
forced_aligner_kwargs=dict(
dtype=torch.bfloat16,
device_map="cuda:0",
# attn_implementation="flash_attention_2",
),
)
results = model.transcribe(
audio=[
"https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
"https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
],
language=["Chinese", "English"], # can also be set to None for automatic language detection
return_time_stamps=True,
)
for r in results:
print(r.language, r.text, r.time_stamps[0])如需更详细的使用示例,请参考 vLLM 后端的示例代码。此外,您可以通过 qwen-asr-serve 命令启动 vLLM 服务器,该命令是 vllm serve 的封装。您可以传递 vllm serve 支持的任何参数,例如:
qwen-asr-serve Qwen/Qwen3-ASR-1.7B --gpu-memory-utilization 0.8 --host 0.0.0.0 --port 8000并通过以下方式向服务器发送请求:
import requests
url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}
data = {
"messages": [
{
"role": "user",
"content": [
{
"type": "audio_url",
"audio_url": {
"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
},
}
],
}
]
}
response = requests.post(url, headers=headers, json=data, timeout=300)
response.raise_for_status()
content = response.json()['choices'][0]['message']['content']
print(content)
# parse ASR output if you want
from qwen_asr import parse_asr_output
language, text = parse_asr_output(content)
print(language)
print(text)Qwen3-ASR 全面支持流式推理。目前,流式推理仅在 vLLM 后端可用。请注意,流式推理不支持批量推理或返回时间戳。详情请参考示例代码。您也可以通过指南启动流式 Web 演示,体验 Qwen3-ASR 的流式转录功能。
Qwen3-ForcedAligner-0.6B 能够对文本-语音对进行对齐,并返回单词或字符级别的时间戳。以下是直接使用强制对齐工具的示例:
import torch
from qwen_asr import Qwen3ForcedAligner
model = Qwen3ForcedAligner.from_pretrained(
"Qwen/Qwen3-ForcedAligner-0.6B",
dtype=torch.bfloat16,
device_map="cuda:0",
# attn_implementation="flash_attention_2",
)
results = model.align(
audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
text="甚至出现交易几乎停滞的情况。",
language="Chinese",
)
print(results[0])
print(results[0][0].text, results[0][0].start_time, results[0][0].end_time)此外,强制对齐器支持本地路径/URL/base64数据/(np.ndarray, sr)输入以及批量推理。详情请参考示例代码。
为进一步体验 Qwen3-ASR,我们建议您尝试 DashScope API,以获得更快速、更高效的使用体验。有关详细的 API 信息和文档,请参考以下内容:
要启动 Qwen3-ASR 的 Gradio Web UI 演示,请安装 qwen-asr 包并运行 qwen-asr-demo。使用以下命令获取帮助:
qwen-asr-demo --help要启动演示,您可以使用以下命令:
# Transformers backend
qwen-asr-demo \
--asr-checkpoint Qwen/Qwen3-ASR-1.7B \
--backend transformers \
--cuda-visible-devices 0 \
--ip 0.0.0.0 --port 8000
# Transformers backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
--asr-checkpoint Qwen/Qwen3-ASR-1.7B \
--aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
--backend transformers \
--cuda-visible-devices 0 \
--backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16","max_inference_batch_size":8,"max_new_tokens":256}' \
--aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
--ip 0.0.0.0 --port 8000
# vLLM backend + Forced Aligner (enable timestamps)
qwen-asr-demo \
--asr-checkpoint Qwen/Qwen3-ASR-1.7B \
--aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B \
--backend vllm \
--cuda-visible-devices 0 \
--backend-kwargs '{"gpu_memory_utilization":0.7,"max_inference_batch_size":8,"max_new_tokens":2048}' \
--aligner-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}' \
--ip 0.0.0.0 --port 8000然后打开 http://<your-ip>:8000,或通过 VS Code 等工具中的端口转发进行访问。
本演示支持两种后端:transformers 和 vLLM。所有特定于后端的初始化参数都应通过 --backend-kwargs 以 JSON 字典的形式传递。如果未提供,演示将使用合理的默认值。
# Example: override transformers init args without flash attention
--backend-kwargs '{"device_map":"cuda:0","dtype":"bfloat16"}'
# Example: override vLLM init args with 65% GPU memory
--backend-kwargs '{"gpu_memory_utilization":0.65}'由于 vLLM 不遵循 cuda:0 风格的设备选择方式,本演示通过 --cuda-visible-devices 设置 CUDA_VISIBLE_DEVICES 来选择 GPU。
# Use GPU 0
--cuda-visible-devices 0
# Use GPU 1
--cuda-visible-devices 1仅当提供 --aligner-checkpoint 时,时间戳才可用。如果在启动演示时未使用强制对齐器,时间戳界面将自动隐藏。
# No forced aligner
qwen-asr-demo --asr-checkpoint Qwen/Qwen3-ASR-1.7B
# With forced aligner
qwen-asr-demo \
--asr-checkpoint Qwen/Qwen3-ASR-1.7B \
--aligner-checkpoint Qwen/Qwen3-ForcedAligner-0.6B为避免服务器部署后出现浏览器麦克风权限问题,建议/要求通过 HTTPS 运行 gradio 服务(尤其是在远程访问或通过现代浏览器/网关访问时)。使用 --ssl-certfile 和 --ssl-keyfile 启用 HTTPS。首先,生成私钥和自签名证书(有效期 365 天):
openssl req -x509 -newkey rsa:2048 \
-keyout key.pem -out cert.pem \
-days 365 -nodes \
-subj "/CN=localhost"然后使用 HTTPS 运行演示:
qwen-asr-demo \
--asr-checkpoint Qwen/Qwen3-ASR-1.7B \
--backend transformers \
--cuda-visible-devices 0 \
--ip 0.0.0.0 --port 8000 \
--ssl-certfile cert.pem \
--ssl-keyfile key.pem \
--no-ssl-verify然后打开 https://<your-ip>:8000 即可使用。如果浏览器显示警告,这对于自签名证书而言是正常现象。在生产环境中,请使用真实证书。
为了在 Web UI 中体验 Qwen3-ASR 的流式转录功能,我们提供了一个基于 Flask 的极简流式演示。该演示会在浏览器中捕获麦克风音频,将其重采样至 16,000 Hz,并持续向模型推送 PCM 数据块。使用以下命令运行演示:
qwen-asr-demo-streaming \
--asr-model-path Qwen/Qwen3-ASR-1.7B \
--host 0.0.0.0 \
--port 8000 \
--gpu-memory-utilization 0.9然后打开 http://<your-ip>:8000,或通过 VS Code 等工具中的端口转发进行访问。
vLLM 官方为 Qwen3-ASR 提供了 day-0 模型支持,以实现高效推理。
您可以使用 vLLM nightly 版本的 wheel 包或 docker 镜像运行 Qwen3-ASR。要安装 vLLM 的 nightly 版本,我们建议使用 uv 作为环境管理器。
uv venv
source .venv/bin/activate
uv pip install -U vllm --pre \
--extra-index-url https://wheels.vllm.ai/nightly/cu129 \
--extra-index-url https://download.pytorch.org/whl/cu129 \
--index-strategy unsafe-best-match
uv pip install "vllm[audio]" # For additional audio dependencies您可以通过运行以下命令,使用 vLLM 轻松部署 Qwen3-ASR
vllm serve Qwen/Qwen3-ASR-1.7B模型服务成功部署后,您可以通过多种方式与其进行交互。
import base64
import httpx
from openai import OpenAI
# Initialize client
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY"
)
# Create multimodal chat completion request
response = client.chat.completions.create(
model="Qwen/Qwen3-ASR-1.7B",
messages=[
{
"role": "user",
"content": [
{
"type": "audio_url",
"audio_url": {
{"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}
}
}
]
}
],
)
print(response.choices[0].message.content)该模型在 vLLM 上也支持 OpenAI 转录 API。
import httpx
from openai import OpenAI
# Initialize client
client = OpenAI(
base_url="http://localhost:8000/v1",
api_key="EMPTY"
)
audio_url = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
audio_file = httpx.get(audio_url).content
transcription = client.audio.transcriptions.create(
model="Qwen/Qwen3-ASR-1.7B",
file=audio_file,
)
print(transcription.text)curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": [
{"type": "audio_url", "audio_url": {"url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"}}
]}
]
}'以下是使用 vLLM 运行 Qwen3-ASR 离线推理的示例。
from vllm import LLM, SamplingParams
from vllm.assets.audio import AudioAsset
import base64
import requests
# Initialize the LLM
llm = LLM(
model="Qwen/Qwen3-ASR-1.7B"
)
# Load audio
audio_asset = AudioAsset("winning_call")
# Create conversation with audio content
conversation = [
{
"role": "user",
"content": [
{
"type": "audio_url",
"audio_url": {"url": audio_asset.url}
}
]
}
]
sampling_params = SamplingParams(temperature=0.01, max_tokens=256)
# Run inference using .chat()
outputs = llm.chat(conversation, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)为方便使用 qwen-asr Python 包,我们提供了预构建的 Docker 镜像:qwenllm/qwen3-asr。您只需安装 GPU 驱动并下载模型文件,即可运行代码。请按照 NVIDIA Container Toolkit 安装指南 操作,确保 Docker 能够访问您的 GPU。如果您在中国大陆,访问 Docker Hub 存在困难,可使用镜像加速器来提升拉取镜像的速度。
首先,拉取镜像并启动容器:
LOCAL_WORKDIR=/path/to/your/workspace
HOST_PORT=8000
CONTAINER_PORT=80
docker run --gpus all --name qwen3-asr \
-v /var/run/docker.sock:/var/run/docker.sock -p $HOST_PORT:$CONTAINER_PORT \
--mount type=bind,source=$LOCAL_WORKDIR,target=/data/shared/Qwen3-ASR \
--shm-size=4gb \
-it qwenllm/qwen3-asr:latest运行该命令后,您将进入容器的 bash shell。您的本地工作区(请将 /path/to/your/workspace 替换为实际路径)会被挂载到容器内的 /data/shared/Qwen3-ASR 目录。主机的 8000 端口映射到容器的 80 端口,因此您可以通过 http://<host-ip>:8000 访问容器内运行的服务。请注意,容器内的服务必须绑定到 0.0.0.0(而非 127.0.0.1),端口转发才能正常工作。
如果您退出容器,可以使用以下命令重新启动并进入容器:
docker start qwen3-asr
docker exec -it qwen3-asr bash要完全移除容器,请运行:
docker rm -f qwen3-asr评估期间,我们使用 vLLM 以 dtype=torch.bfloat16 对所有模型进行推理,并设置 max_new_tokens=1024。所有解码均采用贪婪搜索,且所有测试均未指定语言参数。详细评估结果如下所示。
| GPT-4o -Transcribe | Gemini-2.5 -Pro | Doubao-ASR | Whisper -large-v3 | Fun-ASR -MLT-Nano | Qwen3-ASR -0.6B | Qwen3-ASR -1.7B | ||
|---|---|---|---|---|---|---|---|---|
| 英语(en) | ||||||||
| Librispeech clean | other | 1.39 | 3.75 | 2.89 | 3.56 | 2.78 | 5.70 | 1.51 | 3.97 | 1.68 | 4.03 | 2.11 | 4.55 | 1.63 | 3.38 | |
| GigaSpeech | 25.50 | 9.37 | 9.55 | 9.76 | - | 8.88 | 8.45 | |
| CV-en | 9.08 | 14.49 | 13.78 | 9.90 | 9.90 | 9.92 | 7.39 | |
| Fleurs-en | 2.40 | 2.94 | 6.31 | 4.08 | 5.49 | 4.39 | 3.35 | |
| MLS-en | 5.12 | 3.68 | 7.09 | 4.87 | - | 6.00 | 4.58 | |
| Tedlium | 7.69 | 6.15 | 4.91 | 6.84 | - | 3.85 | 4.50 | |
| VoxPopuli | 10.29 | 11.36 | 12.12 | 12.05 | - | 9.96 | 9.15 | |
| 中文(zh) | ||||||||
| WenetSpeech net | meeting | 15.30 | 32.27 | 14.43 | 13.47 | N/A | 9.86 | 19.11 | 6.35 | - | 5.97 | 6.88 | 4.97 | 5.88 | |
| AISHELL-2-test | 4.24 | 11.62 | 2.85 | 5.06 | - | 3.15 | 2.71 | |
| SpeechIO | 12.86 | 5.30 | 2.93 | 7.56 | - | 3.44 | 2.88 | |
| Fleurs-zh | 2.44 | 2.71 | 2.69 | 4.09 | 3.51 | 2.88 | 2.41 | |
| CV-zh | 6.32 | 7.70 | 5.95 | 12.91 | 6.20 | 6.89 | 5.35 | |
| 汉语方言 | ||||||||
| KeSpeech | 26.87 | 24.71 | 5.27 | 28.79 | - | 7.08 | 5.10 | |
| Fleurs-yue | 4.98 | 9.43 | 4.98 | 9.18 | - | 5.79 | 3.98 | |
| CV-yue | 11.36 | 18.76 | 13.20 | 16.23 | - | 9.50 | 7.57 | |
| CV-zh-tw | 6.32 | 7.31 | 4.06 | 7.84 | - | 5.59 | 3.77 | |
| WenetSpeech-Yue short | long | 15.62 | 25.29 | 25.19 | 11.23 | 9.74 | 11.40 | 32.26 | 46.64 | - | - | 7.54 | 9.92 | 5.82 | 8.85 | |
| WenetSpeech-Chuan easy | hard | 34.81 | 53.98 | 43.79 | 67.30 | 11.40 | 20.20 | 14.35 | 26.80 | - | - | 13.92 | 24.45 | 11.99 | 21.63 | |
| GPT-4o -Transcribe | Gemini-2.5 -Pro | Doubao-ASR | Whisper -large-v3 | Fun-ASR -MLT-Nano | Qwen3-ASR -0.6B | Qwen3-ASR -1.7B | |
|---|---|---|---|---|---|---|---|
| 带口音英语 | |||||||
| Dialog-Accented English | 28.56 | 23.85 | 20.41 | 21.30 | 19.96 | 16.62 | 16.07 |
| 中文普通话 | |||||||
| Elders&Kids | 14.27 | 36.93 | 4.17 | 10.61 | 4.54 | 4.48 | 3.81 |
| ExtremeNoise | 36.11 | 29.06 | 17.04 | 63.17 | 36.55 | 17.88 | 16.17 |
| TongueTwister | 20.87 | 4.97 | 3.47 | 16.63 | 9.02 | 4.06 | 2.44 |
| Dialog-Mandarin | 20.73 | 12.50 | 6.61 | 14.01 | 7.32 | 7.06 | 6.54 |
| 汉语方言 | |||||||
| Dialog-Cantonese | 16.05 | 14.98 | 7.56 | 31.04 | 5.85 | 4.80 | 4.12 |
| Dialog-Chinese Dialects | 45.37 | 47.70 | 19.85 | 44.55 | 19.41 | 18.24 | 15.94 |
方言覆盖范围:Dialog-Accented English 的结果为 16 种口音的平均值,Dialog-Chinese Dialects 的结果为 22 种汉语方言的平均值。
| GLM-ASR -Nano-2512 | Whisper -large-v3 | Fun-ASR -MLT-Nano | Qwen3-ASR -0.6B | Qwen3-ASR -1.7B | |
|---|---|---|---|---|---|
| 开源基准测试 | |||||
| MLS | 13.32 | 8.62 | 28.70 | 13.19 | 8.55 |
| CommonVoice | 19.40 | 10.77 | 17.25 | 12.75 | 9.18 |
| MLC-SLM | 34.93 | 15.68 | 29.94 | 15.84 | 12.74 |
| Fleurs | 16.08 | 5.27 | 10.03 | 7.57 | 4.90 |
| Fleurs† | 20.05 | 6.85 | 31.89 | 10.37 | 6.62 |
| Fleurs†† | 24.83 | 8.16 | 47.84 | 21.80 | 12.60 |
| Qwen-ASR 内部基准测试 | |||||
| News-Multilingual | 49.40 | 14.80 | 65.07 | 17.39 | 12.80 |
语言覆盖范围:MLS 包含 8 种语言:{da, de, en, es, fr, it, pl, pt}。
CommonVoice 包含 13 种语言:{en, zh, yue, zh_TW, ar, de, es, fr, it, ja, ko, pt, ru}。
MLC-SLM 包含 11 种语言:{en, fr, de, it, pt, es, ja, ko, ru, th, vi}。
Fleurs 包含 12 种语言:{en, zh, yue, ar, de, es, fr, it, ja, ko, pt, ru}。
Fleurs† 在 Fleurs 基础上增加了 8 种语言:{hi, id, ms, nl, pl, th, tr, vi}。
Fleurs†† 在 Fleurs† 基础上增加了 10 种语言:{cs, da, el, fa, fi, fil, hu, mk, ro, sv}。
News-Multilingual 包含 15 种语言:{ar, de, es, fr, hi, id, it, ja, ko, nl, pl, pt, ru, th, vi}。
| Whisper-large-v3 | Qwen3-ASR-0.6B | Qwen3-ASR-1.7B | |
|---|---|---|---|
| MLS | 99.9 | 99.3 | 99.9 |
| CommonVoice | 92.7 | 98.2 | 98.7 |
| MLC-SLM | 89.2 | 92.7 | 94.1 |
| Fleurs | 94.6 | 97.1 | 98.7 |
| 平均值 | 94.1 | 96.8 | 97.9 |
语言覆盖范围:语言集合遵循多语言语音识别基准测试。此处,Fleurs 对应多语言语音识别基准测试中的 Fleurs††,涵盖 30 种语言。
| GPT-4o -Transcribe | Gemini-2.5 -Pro | Doubao-ASR -1.0 | Whisper -large-v3 | Fun-ASR-MLT -Nano | Qwen3-ASR -1.7B | |
|---|---|---|---|---|---|---|
| 歌唱 | ||||||
| M4Singer | 16.77 | 20.88 | 7.88 | 13.58 | 7.29 | 5.98 |
| MIR-1k-vocal | 11.87 | 9.85 | 6.56 | 11.71 | 8.17 | 6.25 |
| Opencpop | 7.93 | 6.49 | 3.80 | 9.52 | 2.98 | 3.08 |
| Popcs | 32.84 | 15.13 | 8.97 | 13.77 | 9.42 | 8.52 |
| 带背景音乐的歌曲 | ||||||
| EntireSongs-en | 30.71 | 12.18 | 33.51 | N/A | N/A | 14.60 |
| EntireSongs-zh | 34.86 | 18.68 | 23.99 | N/A | N/A | 13.91 |
| 模型 | 推理模式 | Librispeech | Fleurs-en | Fleurs-zh | 平均值 |
|---|---|---|---|---|---|
| Qwen3-ASR-1.7B | 离线 | 1.63 | 3.38 | 3.35 | 2.41 | 2.69 |
| 流式 | 1.95 | 4.51 | 4.02 | 2.84 | 3.33 | |
| Qwen3-ASR-0.6B | 离线 | 2.11 | 4.55 | 4.39 | 2.88 | 3.48 |
| 流式 | 2.54 | 6.27 | 5.38 | 3.40 | 4.40 |
| Monotonic-Aligner | NFA | WhisperX | Qwen3-ForcedAligner-0.6B | |
|---|---|---|---|---|
| MFA 标注的原始音频 | ||||
| 中文 | 161.1 | 109.8 | - | 33.1 |
| 英文 | - | 107.5 | 92.1 | 37.5 |
| 法语 | - | 100.7 | 145.3 | 41.7 |
| 德语 | - | 122.7 | 165.1 | 46.5 |
| 意大利语 | - | 142.7 | 155.5 | 75.5 |
| 日语 | - | - | - | 42.2 |
| 韩语 | - | - | - | 37.2 |
| 葡萄牙语 | - | - | - | 38.4 |
| 俄语 | - | 200.7 | - | 40.2 |
| 西班牙语 | - | 124.7 | 108.0 | 36.8 |
| 平均值 | 161.1 | 129.8 | 133.2 | 42.9 |
| MFA 标注的 300 秒拼接音频 | ||||
| 中文 | 1742.4 | 235.0 | - | 36.5 |
| 英文 | - | 226.7 | 227.2 | 58.6 |
| 法语 | - | 230.6 | 2052.2 | 53.4 |
| 德语 | - | 220.3 | 993.4 | 62.4 |
| 意大利语 | - | 290.5 | 5719.4 | 81.6 |
| 日语 | - | - | - | 81.3 |
| 韩语 | - | - | - | 42.2 |
| 葡萄牙语 | - | - | - | 50.0 |
| 俄语 | - | 283.3 | - | 43.0 |
| 西班牙语 | - | 240.2 | 4549.9 | 39.6 |
| 跨语言 | - | - | - | 34.2 |
| 平均值 | 1742.4 | 246.7 | 2708.4 | 52.9 |
| 人工标注 | ||||
| 原始音频 | 49.9 | 88.6 | - | 27.8 |
| 含噪原始音频 | 53.3 | 89.5 | - | 41.8 |
| 60 秒拼接音频 | 51.1 | 86.7 | - | 25.3 |
| 300 秒拼接音频 | 410.8 | 140.0 | - | 24.8 |
| 跨语言拼接音频 | - | - | - | 42.5 |
| 平均值 | 141.3 | 101.2 | - | 32.4 |
如果您觉得我们的论文和代码对您的研究有所帮助,欢迎点亮星星 :star: 并引用我们的成果 :pencil: :)
@article{Qwen3-ASR,
title={Qwen3-ASR Technical Report},
author={Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin},
journal={arXiv preprint arXiv:2601.21337},
year={2026}
}