📢 发布说明 构建环境升级:
- 微调框架:Unsloth 2026.3.3
- 核心依赖:Transformers 5.2.0
- 与原始模型相比,自主性和稳定性显著提升。

Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled 是一款性能卓越的推理模型,它在强大的 Qwen3.5 架构基础上进行了微调。该模型的核心目标是利用最先进的思维链(Chain-of-Thought,CoT)蒸馏技术,其主要数据来源于 Claude-4.6 Opus 的交互内容。
通过专注于结构化推理逻辑的监督微调(Supervised Fine-Tuning,SFT),该模型擅长拆解用户的复杂问题,在严格格式化的 </think> 标签内制定逐步解决方案,并最终提供精确、细致的答案。
该模型针对 Qwen3.5 在处理简单查询时容易出现过渡性或重复性推理的倾向进行了针对性优化。通过对 Claude-4.6-Opus 推理链的深度蒸馏和结构模仿,模型采用了更高效的结构化思维模式:
“让我仔细分析这个请求:1..2..3...”
这种精简的推理范式在保留深度分析能力的同时,显著减少了冗余的认知循环,从而大幅提升了推理效率。
Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.
.
.
.Base Model (Qwen3.5-35B-A3B)
│
▼
Supervised Fine-Tuning (SFT) + LoRA
│
▼
Final Model (Claude-4.6-Opus-Reasoning-Distilled,text-only)train_on_responses_only策略,该策略会对指令进行掩码处理,因此损失仅通过</think>序列的生成和后续解决方案来计算。</think> {内部推理} </think>\n {最终答案}的结构。该数据集包含高质量、经过筛选的推理蒸馏数据:
| 数据集名称 | 描述/用途 |
|---|---|
| nohurry/Opus-4.6-Reasoning-3000x-filtered | 提供全面的 Claude 4.6 Opus 推理轨迹。 |
| TeichAI/claude-4.5-opus-high-reasoning-250x | 注入高强度、结构化的推理实例。 |
| Jackrong/Qwen3.5-reasoning-700x | 额外的精选推理样本,旨在加强结构化的逐步问题解决能力并提高推理多样性。 |
</think>块中按顺序制定出清晰的计划,而非进行探索性的“试错式”自我怀疑。在微调过程中,Triton内核每个CUDA块大约需要131072字节的共享内存。在部分GPU上,这超出了可用共享内存限制,导致内核执行问题。为确保训练稳定性和内核正确执行,微调因此在80GB VRAM GPU上进行。
本模型采用基于LoRA的参数高效训练策略进行微调,仅更新了一小部分参数。在总计35,572,733,296个参数中,共有465,551,360个参数可训练,约占模型总量的1.31%。
训练期间,损失曲线出现明显波动,这在基于LoRA的推理蒸馏任务中较为常见。然而,总体趋势保持持续下降,最终训练损失收敛至约0.384。
特别感谢Unsloth AI团队,他们让MoE和大型LLM模型的快速微调变得触手可及。此外,我们感谢内部的Qwen团队,以及开源社区中制作出色蒸馏数据集的开发者(nohurry和TeichAI)。
如果您在研究或项目中使用本模型,请引用:
@misc{jackrong_qwen35_opus_distilled,
title = {Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Jackrong/Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled}}
}