HuggingFace镜像/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
模型介绍文件和版本分析
下载使用量0

🔥 Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

基于Qwen/Qwen3.6-35B-A3B模型进行的推理SFT微调,主要通过从Claude Opus 4.6提取的思维链(CoT)蒸馏数据训练而成。本项目旨在保留Qwen3.6强大的智能体编码与推理基础,同时引导模型形成结构化的Claude Opus风格推理轨迹,并提升其长文本问题解决的稳定性。

训练路径仅限文本。Qwen3.6基础架构包含视觉编码器,但本次微调未使用图像或视频样本进行训练。

  • 开发者: @hesamation
  • 基础模型: Qwen/Qwen3.6-35B-A3B
  • 许可证: apache-2.0

本次微调受Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled启发,包括笔记本/训练工作流风格及Claude Opus推理蒸馏方向。

在X上关注 Discord

基准测试结果

MMLU-Pro测试中,每个模型使用70道题:在14个MMLU-Pro科目中执行--limit 5。此结果仅作为初步对比参考,非发布级完整基准测试。

基准测试测试工具每个模型样本数设置指标基础模型微调后合并模型差值
MMLU-Pro 总体lm-evaluation-harness70在14个科目中--limit 5exact_match, custom-extract42.86%75.71%+32.85 pp

基础模型:Qwen/Qwen3.6-35B-A3B。微调模型:hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled。

[!WARNING] 欢迎社区基准测试

为更好地了解此微调模型的性能,欢迎进行独立基准测试。若您开展评估,请尽可能包含基准测试名称、测试工具/脚本、样本数量、解码设置以及原始日志或结果文件。

可通过提交PR/讨论或在X上私信@hesamation分享结果。

Qwen3.6 基础版亮点

本次发布带来了重大升级,尤其在以下方面:

  • 智能体编码能力:该模型现在能更流畅、精准地处理前端工作流和仓库级推理任务。
  • 思维保持功能:Qwen 引入了一项新选项,可保留历史消息中的推理上下文,从而简化迭代开发并减少额外开销。

基准测试结果

更多详情,请参阅 Qwen 博客文章 Qwen3.6-35B-A3B。

基础模型概述

  • 类型:带视觉编码器的因果语言模型
  • 训练阶段:预训练与后训练
  • 语言模型:
    • 参数数量:总计 350 亿,激活 30 亿
    • 隐藏维度:2048
    • 令牌嵌入:248320(已填充)
    • 层数:40
    • 隐藏层结构:10 × (3 × (门控 DeltaNet -> MoE) -> 1 × (门控注意力 -> MoE))
    • 门控 DeltaNet:
      • 线性注意力头数量:V 为 32,QK 为 16
      • 头维度:128
    • 门控注意力:
      • 注意力头数量:Q 为 16,KV 为 2
      • 头维度:256
      • 旋转位置嵌入维度:64
    • 混合专家(Mixture Of Experts):
      • 专家数量:256
      • 激活专家数量:8 个路由专家 + 1 个共享专家
      • 专家中间维度:512
    • 语言模型输出:248320(已填充)
    • MTP:采用多步训练
  • 上下文长度:原生支持 262,144 令牌,可扩展至 1,010,000 令牌。

基础模型基准测试结果

下表源自上游 Qwen3.6-35B-A3B 版本发布内容,仅作为基础模型参考。除非上述微调基准测试表中明确说明,否则此表不代表本微调 checkpoint 的基准测试结果。

类别基准测试Qwen3.5-27BGemma4-31BQwen3.5-35BA3BGemma4-26BA4BQwen3.6-35BA3B
编码智能体SWE-bench Verified75.052.070.017.473.4
编码智能体SWE-bench Multilingual69.351.760.317.367.2
编码智能体SWE-bench Pro51.235.744.613.849.5
编码智能体Terminal-Bench 2.041.642.940.534.251.5
编码智能体Claw-Eval Avg64.348.565.458.868.7
编码智能体Claw-Eval Pass^346.225.051.028.050.0
编码智能体SkillsBench Avg527.223.64.412.328.7
编码智能体QwenClawBench52.241.747.738.752.6
编码智能体NL2Repo27.315.520.511.629.4
编码智能体QwenWebBench1068119797811781397
通用智能体TAU3-Bench68.467.568.959.067.2
通用智能体VITA-Bench41.843.029.136.935.6
通用智能体DeepPlanning22.624.022.816.225.9
通用智能体Tool Decathlon31.521.228.712.026.9
通用智能体MCPMark36.318.127.014.237.0
通用智能体MCP-Atlas68.457.262.450.062.8
通用智能体WideSearch66.435.259.138.360.1
知识MMLU-Pro86.185.285.382.685.2
知识MMLU-Redux93.293.793.392.793.3
知识SuperGPQA65.665.763.461.464.7
知识C-Eval90.582.690.282.590.0
STEM 与推理GPQA85.584.384.282.386.0
STEM 与推理HLE24.319.522.48.721.4
STEM 与推理LiveCodeBench v680.780.074.677.180.4
STEM 与推理HMMT Feb 2592.088.789.091.790.7
STEM 与推理HMMT Nov 2589.887.589.287.589.1
STEM 与推理HMMT Feb 2684.377.278.779.083.6
STEM 与推理IMOAnswerBench79.974.576.874.378.9
STEM 与推理AIME2692.689.291.088.392.7

上游 Qwen3.6 版本发布说明:

  • SWE-Bench 系列:内部智能体脚手架,配备 bash 和文件编辑工具;温度参数=1.0,top_p=0.95,200K 上下文窗口。
  • Terminal-Bench 2.0:采用 Harbor/Terminus-2 测试框架;3 小时超时,32 CPU/48 GB 内存;温度参数=1.0,top_p=0.95,top_k=20,最大令牌数=80K,256K 上下文;5 次运行的平均值。
  • SkillsBench:通过 OpenCode 在 78 个任务上进行评估,使用不包含 API 依赖任务的独立子集;5 次运行的平均值。
  • NL2Repo:其他模型通过 Claude Code 进行评估,温度参数=1.0,top_p=0.95,最大轮次=900。
  • QwenClawBench:内部真实用户分布的 Claw 智能体基准测试;温度参数=0.6,256K 上下文。
  • QwenWebBench:内部前端代码生成基准测试;双语(英文/中文),七个类别,自动渲染加多模态评判,BT/Elo 评分系统。
  • TAU3-Bench:官方用户模型,采用 gpt-5.2 低推理成本和默认 BM25 检索。
  • VITA-Bench:子领域分数平均值,使用 claude-4-sonnet 作为评判者。
  • MCPMark:GitHub MCP v0.30.3,Playwright 响应截断至 32K 令牌。
  • MCP-Atlas:公开集分数,gemini-2.5-pro 作为评判者。
  • AIME 26:完整的 2026 年 AIME I 和 II 卷。

训练流程

Qwen/Qwen3.6-35B-A3B
  -> supervised fine-tuning with LoRA
  -> merged full model
  -> Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

训练配置:

设置值
微调方法结合LoRA的监督式微调
LoRA目标仅注意力模块
LoRA秩/alpha值32 / 32
微批次大小1
梯度累积32
训练轮次2
已完成步数762 / 762
最终报告训练损失0.3362497625740494
数据集最大令牌数8192
最大序列长度32768

训练数据

本方案从三个数据集中抽样并规范化推理对话,然后使用qwen3-thinking聊天模板和仅响应SFT掩码进行处理。

数据集请求样本数量角色
nohurry/Opus-4.6-Reasoning-3000x-filtered3,900Claude Opus推理轨迹
Jackrong/Qwen3.5-reasoning-700x700精选Qwen推理样本
Roman1111111/claude-opus-4.6-10000x9,633额外Claude Opus推理示例

预期用途

该模型适用于推理密集型文本工作流,如代码辅助、规划、数学式推理和结构化分析响应。由于微调仅针对文本,图像/视频处理能力应视为继承自基础模型,而非本次训练所改进。

致谢

感谢Qwen团队提供基础模型,Unsloth提供训练框架,以及Jackrong公开的推理蒸馏工作流为本微调项目提供了灵感。