HuggingFace镜像/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

🔥 Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

基于Qwen/Qwen3.6-35B-A3B模型进行的推理SFT微调，主要通过从Claude Opus 4.6提取的思维链（CoT）蒸馏数据训练而成。本项目旨在保留Qwen3.6强大的智能体编码与推理基础，同时引导模型形成结构化的Claude Opus风格推理轨迹，并提升其长文本问题解决的稳定性。

训练路径仅限文本。Qwen3.6基础架构包含视觉编码器，但本次微调未使用图像或视频样本进行训练。

开发者： @hesamation
基础模型： Qwen/Qwen3.6-35B-A3B
许可证： apache-2.0

本次微调受Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled启发，包括笔记本/训练工作流风格及Claude Opus推理蒸馏方向。

基准测试结果

MMLU-Pro测试中，每个模型使用70道题：在14个MMLU-Pro科目中执行--limit 5。此结果仅作为初步对比参考，非发布级完整基准测试。

基准测试	测试工具	每个模型样本数	设置	指标	基础模型	微调后合并模型	差值
MMLU-Pro 总体	lm-evaluation-harness	70	在14个科目中`--limit 5`	exact_match, custom-extract	42.86%	75.71%	+32.85 pp

基础模型：Qwen/Qwen3.6-35B-A3B。微调模型：hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled。

[!WARNING] 欢迎社区基准测试

为更好地了解此微调模型的性能，欢迎进行独立基准测试。若您开展评估，请尽可能包含基准测试名称、测试工具/脚本、样本数量、解码设置以及原始日志或结果文件。

可通过提交PR/讨论或在X上私信@hesamation分享结果。

Qwen3.6 基础版亮点

本次发布带来了重大升级，尤其在以下方面：

智能体编码能力：该模型现在能更流畅、精准地处理前端工作流和仓库级推理任务。
思维保持功能：Qwen 引入了一项新选项，可保留历史消息中的推理上下文，从而简化迭代开发并减少额外开销。

基准测试结果

更多详情，请参阅 Qwen 博客文章 Qwen3.6-35B-A3B。

基础模型概述

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
语言模型：
- 参数数量：总计 350 亿，激活 30 亿
- 隐藏维度：2048
- 令牌嵌入：248320（已填充）
- 层数：40
- 隐藏层结构：10 × (3 × (门控 DeltaNet -> MoE) -> 1 × (门控注意力 -> MoE))
- 门控 DeltaNet：
  - 线性注意力头数量：V 为 32，QK 为 16
  - 头维度：128
- 门控注意力：
  - 注意力头数量：Q 为 16，KV 为 2
  - 头维度：256
  - 旋转位置嵌入维度：64
- 混合专家（Mixture Of Experts）：
  - 专家数量：256
  - 激活专家数量：8 个路由专家 + 1 个共享专家
  - 专家中间维度：512
- 语言模型输出：248320（已填充）
- MTP：采用多步训练
上下文长度：原生支持 262,144 令牌，可扩展至 1,010,000 令牌。

基础模型基准测试结果

下表源自上游 Qwen3.6-35B-A3B 版本发布内容，仅作为基础模型参考。除非上述微调基准测试表中明确说明，否则此表不代表本微调 checkpoint 的基准测试结果。

类别	基准测试	Qwen3.5-27B	Gemma4-31B	Qwen3.5-35BA3B	Gemma4-26BA4B	Qwen3.6-35BA3B
编码智能体	SWE-bench Verified	75.0	52.0	70.0	17.4	73.4
编码智能体	SWE-bench Multilingual	69.3	51.7	60.3	17.3	67.2
编码智能体	SWE-bench Pro	51.2	35.7	44.6	13.8	49.5
编码智能体	Terminal-Bench 2.0	41.6	42.9	40.5	34.2	51.5
编码智能体	Claw-Eval Avg	64.3	48.5	65.4	58.8	68.7
编码智能体	Claw-Eval Pass^3	46.2	25.0	51.0	28.0	50.0
编码智能体	SkillsBench Avg5	27.2	23.6	4.4	12.3	28.7
编码智能体	QwenClawBench	52.2	41.7	47.7	38.7	52.6
编码智能体	NL2Repo	27.3	15.5	20.5	11.6	29.4
编码智能体	QwenWebBench	1068	1197	978	1178	1397
通用智能体	TAU3-Bench	68.4	67.5	68.9	59.0	67.2
通用智能体	VITA-Bench	41.8	43.0	29.1	36.9	35.6
通用智能体	DeepPlanning	22.6	24.0	22.8	16.2	25.9
通用智能体	Tool Decathlon	31.5	21.2	28.7	12.0	26.9
通用智能体	MCPMark	36.3	18.1	27.0	14.2	37.0
通用智能体	MCP-Atlas	68.4	57.2	62.4	50.0	62.8
通用智能体	WideSearch	66.4	35.2	59.1	38.3	60.1
知识	MMLU-Pro	86.1	85.2	85.3	82.6	85.2
知识	MMLU-Redux	93.2	93.7	93.3	92.7	93.3
知识	SuperGPQA	65.6	65.7	63.4	61.4	64.7
知识	C-Eval	90.5	82.6	90.2	82.5	90.0
STEM 与推理	GPQA	85.5	84.3	84.2	82.3	86.0
STEM 与推理	HLE	24.3	19.5	22.4	8.7	21.4
STEM 与推理	LiveCodeBench v6	80.7	80.0	74.6	77.1	80.4
STEM 与推理	HMMT Feb 25	92.0	88.7	89.0	91.7	90.7
STEM 与推理	HMMT Nov 25	89.8	87.5	89.2	87.5	89.1
STEM 与推理	HMMT Feb 26	84.3	77.2	78.7	79.0	83.6
STEM 与推理	IMOAnswerBench	79.9	74.5	76.8	74.3	78.9
STEM 与推理	AIME26	92.6	89.2	91.0	88.3	92.7

上游 Qwen3.6 版本发布说明：

SWE-Bench 系列：内部智能体脚手架，配备 bash 和文件编辑工具；温度参数=1.0，top_p=0.95，200K 上下文窗口。
Terminal-Bench 2.0：采用 Harbor/Terminus-2 测试框架；3 小时超时，32 CPU/48 GB 内存；温度参数=1.0，top_p=0.95，top_k=20，最大令牌数=80K，256K 上下文；5 次运行的平均值。
SkillsBench：通过 OpenCode 在 78 个任务上进行评估，使用不包含 API 依赖任务的独立子集；5 次运行的平均值。
NL2Repo：其他模型通过 Claude Code 进行评估，温度参数=1.0，top_p=0.95，最大轮次=900。
QwenClawBench：内部真实用户分布的 Claw 智能体基准测试；温度参数=0.6，256K 上下文。
QwenWebBench：内部前端代码生成基准测试；双语（英文/中文），七个类别，自动渲染加多模态评判，BT/Elo 评分系统。
TAU3-Bench：官方用户模型，采用 gpt-5.2 低推理成本和默认 BM25 检索。
VITA-Bench：子领域分数平均值，使用 claude-4-sonnet 作为评判者。
MCPMark：GitHub MCP v0.30.3，Playwright 响应截断至 32K 令牌。
MCP-Atlas：公开集分数，gemini-2.5-pro 作为评判者。
AIME 26：完整的 2026 年 AIME I 和 II 卷。

训练流程

Qwen/Qwen3.6-35B-A3B
  -> supervised fine-tuning with LoRA
  -> merged full model
  -> Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

训练配置：

设置	值
微调方法	结合LoRA的监督式微调
LoRA目标	仅注意力模块
LoRA秩/alpha值	32 / 32
微批次大小	1
梯度累积	32
训练轮次	2
已完成步数	762 / 762
最终报告训练损失	0.3362497625740494
数据集最大令牌数	8192
最大序列长度	32768

训练数据

本方案从三个数据集中抽样并规范化推理对话，然后使用qwen3-thinking聊天模板和仅响应SFT掩码进行处理。

数据集	请求样本数量	角色
`nohurry/Opus-4.6-Reasoning-3000x-filtered`	3,900	Claude Opus推理轨迹
`Jackrong/Qwen3.5-reasoning-700x`	700	精选Qwen推理样本
`Roman1111111/claude-opus-4.6-10000x`	9,633	额外Claude Opus推理示例

预期用途

该模型适用于推理密集型文本工作流，如代码辅助、规划、数学式推理和结构化分析响应。由于微调仅针对文本，图像/视频处理能力应视为继承自基础模型，而非本次训练所改进。

致谢

感谢Qwen团队提供基础模型，Unsloth提供训练框架，以及Jackrong公开的推理蒸馏工作流为本微调项目提供了灵感。

🔥 Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

训练路径仅限文本。Qwen3.6基础架构包含视觉编码器，但本次微调未使用图像或视频样本进行训练。

开发者： @hesamation
基础模型： Qwen/Qwen3.6-35B-A3B
许可证： apache-2.0

本次微调受Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled启发，包括笔记本/训练工作流风格及Claude Opus推理蒸馏方向。

基准测试结果

MMLU-Pro测试中，每个模型使用70道题：在14个MMLU-Pro科目中执行--limit 5。此结果仅作为初步对比参考，非发布级完整基准测试。

基准测试	测试工具	每个模型样本数	设置	指标	基础模型	微调后合并模型	差值
MMLU-Pro 总体	lm-evaluation-harness	70	在14个科目中`--limit 5`	exact_match, custom-extract	42.86%	75.71%	+32.85 pp

基础模型：Qwen/Qwen3.6-35B-A3B。微调模型：hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled。

[!WARNING] 欢迎社区基准测试

为更好地了解此微调模型的性能，欢迎进行独立基准测试。若您开展评估，请尽可能包含基准测试名称、测试工具/脚本、样本数量、解码设置以及原始日志或结果文件。

可通过提交PR/讨论或在X上私信@hesamation分享结果。

Qwen3.6 基础版亮点

本次发布带来了重大升级，尤其在以下方面：

智能体编码能力：该模型现在能更流畅、精准地处理前端工作流和仓库级推理任务。
思维保持功能：Qwen 引入了一项新选项，可保留历史消息中的推理上下文，从而简化迭代开发并减少额外开销。

基准测试结果

更多详情，请参阅 Qwen 博客文章 Qwen3.6-35B-A3B。

基础模型概述

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
语言模型：
- 参数数量：总计 350 亿，激活 30 亿
- 隐藏维度：2048
- 令牌嵌入：248320（已填充）
- 层数：40
- 隐藏层结构：10 × (3 × (门控 DeltaNet -> MoE) -> 1 × (门控注意力 -> MoE))
- 门控 DeltaNet：
  - 线性注意力头数量：V 为 32，QK 为 16
  - 头维度：128
- 门控注意力：
  - 注意力头数量：Q 为 16，KV 为 2
  - 头维度：256
  - 旋转位置嵌入维度：64
- 混合专家（Mixture Of Experts）：
  - 专家数量：256
  - 激活专家数量：8 个路由专家 + 1 个共享专家
  - 专家中间维度：512
- 语言模型输出：248320（已填充）
- MTP：采用多步训练
上下文长度：原生支持 262,144 令牌，可扩展至 1,010,000 令牌。

基础模型基准测试结果

类别	基准测试	Qwen3.5-27B	Gemma4-31B	Qwen3.5-35BA3B	Gemma4-26BA4B	Qwen3.6-35BA3B
编码智能体	SWE-bench Verified	75.0	52.0	70.0	17.4	73.4
编码智能体	SWE-bench Multilingual	69.3	51.7	60.3	17.3	67.2
编码智能体	SWE-bench Pro	51.2	35.7	44.6	13.8	49.5
编码智能体	Terminal-Bench 2.0	41.6	42.9	40.5	34.2	51.5
编码智能体	Claw-Eval Avg	64.3	48.5	65.4	58.8	68.7
编码智能体	Claw-Eval Pass^3	46.2	25.0	51.0	28.0	50.0
编码智能体	SkillsBench Avg5	27.2	23.6	4.4	12.3	28.7
编码智能体	QwenClawBench	52.2	41.7	47.7	38.7	52.6
编码智能体	NL2Repo	27.3	15.5	20.5	11.6	29.4
编码智能体	QwenWebBench	1068	1197	978	1178	1397
通用智能体	TAU3-Bench	68.4	67.5	68.9	59.0	67.2
通用智能体	VITA-Bench	41.8	43.0	29.1	36.9	35.6
通用智能体	DeepPlanning	22.6	24.0	22.8	16.2	25.9
通用智能体	Tool Decathlon	31.5	21.2	28.7	12.0	26.9
通用智能体	MCPMark	36.3	18.1	27.0	14.2	37.0
通用智能体	MCP-Atlas	68.4	57.2	62.4	50.0	62.8
通用智能体	WideSearch	66.4	35.2	59.1	38.3	60.1
知识	MMLU-Pro	86.1	85.2	85.3	82.6	85.2
知识	MMLU-Redux	93.2	93.7	93.3	92.7	93.3
知识	SuperGPQA	65.6	65.7	63.4	61.4	64.7
知识	C-Eval	90.5	82.6	90.2	82.5	90.0
STEM 与推理	GPQA	85.5	84.3	84.2	82.3	86.0
STEM 与推理	HLE	24.3	19.5	22.4	8.7	21.4
STEM 与推理	LiveCodeBench v6	80.7	80.0	74.6	77.1	80.4
STEM 与推理	HMMT Feb 25	92.0	88.7	89.0	91.7	90.7
STEM 与推理	HMMT Nov 25	89.8	87.5	89.2	87.5	89.1
STEM 与推理	HMMT Feb 26	84.3	77.2	78.7	79.0	83.6
STEM 与推理	IMOAnswerBench	79.9	74.5	76.8	74.3	78.9
STEM 与推理	AIME26	92.6	89.2	91.0	88.3	92.7

上游 Qwen3.6 版本发布说明：

SWE-Bench 系列：内部智能体脚手架，配备 bash 和文件编辑工具；温度参数=1.0，top_p=0.95，200K 上下文窗口。
Terminal-Bench 2.0：采用 Harbor/Terminus-2 测试框架；3 小时超时，32 CPU/48 GB 内存；温度参数=1.0，top_p=0.95，top_k=20，最大令牌数=80K，256K 上下文；5 次运行的平均值。
SkillsBench：通过 OpenCode 在 78 个任务上进行评估，使用不包含 API 依赖任务的独立子集；5 次运行的平均值。
NL2Repo：其他模型通过 Claude Code 进行评估，温度参数=1.0，top_p=0.95，最大轮次=900。
QwenClawBench：内部真实用户分布的 Claw 智能体基准测试；温度参数=0.6，256K 上下文。
QwenWebBench：内部前端代码生成基准测试；双语（英文/中文），七个类别，自动渲染加多模态评判，BT/Elo 评分系统。
TAU3-Bench：官方用户模型，采用 gpt-5.2 低推理成本和默认 BM25 检索。
VITA-Bench：子领域分数平均值，使用 claude-4-sonnet 作为评判者。
MCPMark：GitHub MCP v0.30.3，Playwright 响应截断至 32K 令牌。
MCP-Atlas：公开集分数，gemini-2.5-pro 作为评判者。
AIME 26：完整的 2026 年 AIME I 和 II 卷。

训练流程

Qwen/Qwen3.6-35B-A3B
  -> supervised fine-tuning with LoRA
  -> merged full model
  -> Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

训练配置：

设置	值
微调方法	结合LoRA的监督式微调
LoRA目标	仅注意力模块
LoRA秩/alpha值	32 / 32
微批次大小	1
梯度累积	32
训练轮次	2
已完成步数	762 / 762
最终报告训练损失	0.3362497625740494
数据集最大令牌数	8192
最大序列长度	32768

训练数据

本方案从三个数据集中抽样并规范化推理对话，然后使用qwen3-thinking聊天模板和仅响应SFT掩码进行处理。

数据集	请求样本数量	角色
`nohurry/Opus-4.6-Reasoning-3000x-filtered`	3,900	Claude Opus推理轨迹
`Jackrong/Qwen3.5-reasoning-700x`	700	精选Qwen推理样本
`Roman1111111/claude-opus-4.6-10000x`	9,633	额外Claude Opus推理示例

预期用途

致谢

感谢Qwen团队提供基础模型，Unsloth提供训练框架，以及Jackrong公开的推理蒸馏工作流为本微调项目提供了灵感。