基于Qwen/Qwen3.6-35B-A3B模型进行的推理SFT微调,主要通过从Claude Opus 4.6提取的思维链(CoT)蒸馏数据训练而成。本项目旨在保留Qwen3.6强大的智能体编码与推理基础,同时引导模型形成结构化的Claude Opus风格推理轨迹,并提升其长文本问题解决的稳定性。
训练路径仅限文本。Qwen3.6基础架构包含视觉编码器,但本次微调未使用图像或视频样本进行训练。
Qwen/Qwen3.6-35B-A3B本次微调受Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled启发,包括笔记本/训练工作流风格及Claude Opus推理蒸馏方向。
MMLU-Pro测试中,每个模型使用70道题:在14个MMLU-Pro科目中执行--limit 5。此结果仅作为初步对比参考,非发布级完整基准测试。
| 基准测试 | 测试工具 | 每个模型样本数 | 设置 | 指标 | 基础模型 | 微调后合并模型 | 差值 |
|---|---|---|---|---|---|---|---|
| MMLU-Pro 总体 | lm-evaluation-harness | 70 | 在14个科目中--limit 5 | exact_match, custom-extract | 42.86% | 75.71% | +32.85 pp |
基础模型:Qwen/Qwen3.6-35B-A3B。微调模型:hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled。
[!WARNING] 欢迎社区基准测试
为更好地了解此微调模型的性能,欢迎进行独立基准测试。若您开展评估,请尽可能包含基准测试名称、测试工具/脚本、样本数量、解码设置以及原始日志或结果文件。
可通过提交PR/讨论或在X上私信@hesamation分享结果。
本次发布带来了重大升级,尤其在以下方面:

更多详情,请参阅 Qwen 博客文章 Qwen3.6-35B-A3B。
下表源自上游 Qwen3.6-35B-A3B 版本发布内容,仅作为基础模型参考。除非上述微调基准测试表中明确说明,否则此表不代表本微调 checkpoint 的基准测试结果。
| 类别 | 基准测试 | Qwen3.5-27B | Gemma4-31B | Qwen3.5-35BA3B | Gemma4-26BA4B | Qwen3.6-35BA3B |
|---|---|---|---|---|---|---|
| 编码智能体 | SWE-bench Verified | 75.0 | 52.0 | 70.0 | 17.4 | 73.4 |
| 编码智能体 | SWE-bench Multilingual | 69.3 | 51.7 | 60.3 | 17.3 | 67.2 |
| 编码智能体 | SWE-bench Pro | 51.2 | 35.7 | 44.6 | 13.8 | 49.5 |
| 编码智能体 | Terminal-Bench 2.0 | 41.6 | 42.9 | 40.5 | 34.2 | 51.5 |
| 编码智能体 | Claw-Eval Avg | 64.3 | 48.5 | 65.4 | 58.8 | 68.7 |
| 编码智能体 | Claw-Eval Pass^3 | 46.2 | 25.0 | 51.0 | 28.0 | 50.0 |
| 编码智能体 | SkillsBench Avg5 | 27.2 | 23.6 | 4.4 | 12.3 | 28.7 |
| 编码智能体 | QwenClawBench | 52.2 | 41.7 | 47.7 | 38.7 | 52.6 |
| 编码智能体 | NL2Repo | 27.3 | 15.5 | 20.5 | 11.6 | 29.4 |
| 编码智能体 | QwenWebBench | 1068 | 1197 | 978 | 1178 | 1397 |
| 通用智能体 | TAU3-Bench | 68.4 | 67.5 | 68.9 | 59.0 | 67.2 |
| 通用智能体 | VITA-Bench | 41.8 | 43.0 | 29.1 | 36.9 | 35.6 |
| 通用智能体 | DeepPlanning | 22.6 | 24.0 | 22.8 | 16.2 | 25.9 |
| 通用智能体 | Tool Decathlon | 31.5 | 21.2 | 28.7 | 12.0 | 26.9 |
| 通用智能体 | MCPMark | 36.3 | 18.1 | 27.0 | 14.2 | 37.0 |
| 通用智能体 | MCP-Atlas | 68.4 | 57.2 | 62.4 | 50.0 | 62.8 |
| 通用智能体 | WideSearch | 66.4 | 35.2 | 59.1 | 38.3 | 60.1 |
| 知识 | MMLU-Pro | 86.1 | 85.2 | 85.3 | 82.6 | 85.2 |
| 知识 | MMLU-Redux | 93.2 | 93.7 | 93.3 | 92.7 | 93.3 |
| 知识 | SuperGPQA | 65.6 | 65.7 | 63.4 | 61.4 | 64.7 |
| 知识 | C-Eval | 90.5 | 82.6 | 90.2 | 82.5 | 90.0 |
| STEM 与推理 | GPQA | 85.5 | 84.3 | 84.2 | 82.3 | 86.0 |
| STEM 与推理 | HLE | 24.3 | 19.5 | 22.4 | 8.7 | 21.4 |
| STEM 与推理 | LiveCodeBench v6 | 80.7 | 80.0 | 74.6 | 77.1 | 80.4 |
| STEM 与推理 | HMMT Feb 25 | 92.0 | 88.7 | 89.0 | 91.7 | 90.7 |
| STEM 与推理 | HMMT Nov 25 | 89.8 | 87.5 | 89.2 | 87.5 | 89.1 |
| STEM 与推理 | HMMT Feb 26 | 84.3 | 77.2 | 78.7 | 79.0 | 83.6 |
| STEM 与推理 | IMOAnswerBench | 79.9 | 74.5 | 76.8 | 74.3 | 78.9 |
| STEM 与推理 | AIME26 | 92.6 | 89.2 | 91.0 | 88.3 | 92.7 |
上游 Qwen3.6 版本发布说明:
Qwen/Qwen3.6-35B-A3B
-> supervised fine-tuning with LoRA
-> merged full model
-> Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled训练配置:
| 设置 | 值 |
|---|---|
| 微调方法 | 结合LoRA的监督式微调 |
| LoRA目标 | 仅注意力模块 |
| LoRA秩/alpha值 | 32 / 32 |
| 微批次大小 | 1 |
| 梯度累积 | 32 |
| 训练轮次 | 2 |
| 已完成步数 | 762 / 762 |
| 最终报告训练损失 | 0.3362497625740494 |
| 数据集最大令牌数 | 8192 |
| 最大序列长度 | 32768 |
本方案从三个数据集中抽样并规范化推理对话,然后使用qwen3-thinking聊天模板和仅响应SFT掩码进行处理。
| 数据集 | 请求样本数量 | 角色 |
|---|---|---|
nohurry/Opus-4.6-Reasoning-3000x-filtered | 3,900 | Claude Opus推理轨迹 |
Jackrong/Qwen3.5-reasoning-700x | 700 | 精选Qwen推理样本 |
Roman1111111/claude-opus-4.6-10000x | 9,633 | 额外Claude Opus推理示例 |
该模型适用于推理密集型文本工作流,如代码辅助、规划、数学式推理和结构化分析响应。由于微调仅针对文本,图像/视频处理能力应视为继承自基础模型,而非本次训练所改进。
感谢Qwen团队提供基础模型,Unsloth提供训练框架,以及Jackrong公开的推理蒸馏工作流为本微调项目提供了灵感。