Q
Qwen/Qwen3-235B-A22B-Thinking-2507
模型介绍模型推理文件和版本分析
下载使用量0

[!NOTE] 包含 Unsloth 聊天模板修复!
对于 llama.cpp,请使用 --jinja 参数

Unsloth Dynamic 2.0 实现了卓越的准确性,性能超越其他主流量化方法。

Qwen3-235B-A22B-Thinking-2507

Chat

主要亮点

在过去三个月中,我们持续提升 Qwen3-235B-A22B 的思考能力,同时改进推理的质量与深度。我们荣幸地推出 Qwen3-235B-A22B-Thinking-2507,主要增强如下:

  • 推理任务性能显著提升,涵盖逻辑推理、数学、科学、编程及通常需要人类专业知识的学术基准测试——在开源思考模型中实现最先进成果。
  • 通用能力大幅增强,包括指令遵循、工具使用、文本生成及与人类偏好的对齐。
  • 256K 长上下文理解能力优化。

注意:本版本延长了思考时长。强烈建议用于高度复杂的推理任务。

image/jpeg

模型概述

Qwen3-235B-A22B-Thinking-2507 具有以下特性:

  • 类型:因果语言模型
  • 训练阶段:预训练与后训练
  • 参数数量:总计2350亿,激活220亿
  • 非嵌入参数数量:2340亿
  • 层数:94层
  • 注意力头数(GQA):Q为64个,KV为4个
  • 专家数量:128个
  • 激活专家数量:8个
  • 上下文长度:原生支持262,144 tokens

注意:本模型仅支持思考模式。

此外,为确保模型进入思考状态,默认对话模板会自动包含 </think>。因此,模型输出中仅包含 </think> 而无显式开头 </think> 标签属于正常现象。

更多详情,包括基准测试评估、硬件要求和推理性能,请参阅我们的 博客、GitHub 和 文档。

性能表现

Deepseek-R1-0528OpenAI O4-miniOpenAI O3Gemini-2.5 ProClaude4 Opus ThinkingQwen3-235B-A22B ThinkingQwen3-235B-A22B-Thinking-2507
知识
MMLU-Pro85.081.985.985.6-82.884.4
MMLU-Redux93.492.894.994.494.692.793.8
GPQA81.081.4*83.3*86.479.671.181.1
SuperGPQA61.756.4-62.3-60.764.9
推理
AIME2587.592.7*88.9*88.075.581.592.3
HMMT2579.466.777.582.558.362.583.9
LiveBench 2024112574.775.878.382.478.277.178.4
HLE17.7#18.1*20.321.610.711.8#18.2#
代码
LiveCodeBench v6(25.02-25.05)68.771.858.672.548.955.774.1
CFEval2099192920432001-20562134
OJBench33.633.325.438.9-25.632.5
对齐
IFEval79.192.492.190.889.783.487.8
Arena-Hard v2$72.259.380.872.559.161.579.7
Creative Writing v386.378.887.785.983.884.686.1
WritingBench83.278.485.383.179.180.388.3
智能体
BFCL-v363.867.272.467.261.870.871.9
TAU2-Retail64.971.076.371.3-40.471.9
TAU2-Airline60.059.070.060.0-30.058.0
TAU2-Telecom33.342.060.537.4-21.945.6
多语言
MultiIF63.578.080.377.8-71.980.6
MMLU-ProX80.679.083.384.7-80.081.0
INCLUDE79.480.886.685.1-78.781.0
PolyMATH46.948.749.752.2-54.760.1

* 对于 OpenAI O4-mini 和 O3,我们采用中等推理力度,标有 * 的分数除外,这些分数使用高推理力度生成。

# 根据 HLE 的官方评估标准,标有 # 的分数指非多模态模型,仅在纯文本子集上进行评估。

$ 为保证可复现性,我们报告由 GPT-4.1 评估的胜率。

& 对于高难度任务(包括 PolyMATH 以及所有推理和代码任务),我们使用 81,920 tokens 的输出长度。其他所有任务的输出长度设为 32,768。

快速入门

Qwen3-MoE 的代码已集成到最新版的 Hugging Face transformers 中,建议您使用最新版本的 transformers。

若使用 transformers<4.51.0,您将遇到以下错误:

KeyError: 'qwen3_moe'

以下是一段代码片段,展示了如何使用模型根据给定输入生成内容。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content) # no opening