🔥 更新(4月5日): 我已发布完整的训练笔记本、代码库以及一份详尽的PDF指南,旨在帮助初学者和爱好者理解并复现该模型的微调过程。
❤️ 特别感谢 Unsloth 开源库和 @KyleHessling1 提供的支持。
👉 GitHub仓库:Jackrong-llm-finetuning-guide 访问该仓库,深入了解代码库,并在本地或Colab上复现结果。
说明: 我的目标不仅仅是详述工作流程,更是为了揭开LLM训练的神秘面纱。抛开社交媒体上的炒作,微调并非遥不可及的仪式——通常,您所需要的只是一个Google账户、一台普通笔记本电脑,以及永不满足的好奇心。
没有人一开始就是专家,但每一位专家都曾勇敢地迈出第一步。
本项目的所有训练和测试均为自费。如果您觉得此模型或指南对您有帮助,在GitHub上点个星标 ⭐️ 将是对我最大的鼓励。谢谢!🙏
[!Note] Claude系列模型优化版本命名为 Qwopus3.5系列,最新版本为 🌟Qwopus3.5-v3。
注意:由于SFT样本量和训练范围的限制,模型的广泛通用能力可能会受到轻微影响。本文讨论的效率和准确性结果基于HumanEval和HumanEval+基准测试。感谢您的理解!

Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 是这款专注于推理能力的 Qwen3.5-9B 微调模型的第二个版本,旨在显著提升思维链生成的效率,在大幅提高推理速度和降低成本的同时,实际提升绝对准确率。
与早期版本相比,v2 版本使用了 14,000 个 Claude 4.6 Opus 风格的通用推理样本进行训练,更加强调迁移简洁、可复用的推理模式,而非仅仅追求原始基准分数的最大化。v2 的目标并非简单地让模型“思考更多”,而是帮助它更经济地思考:减少不必要的冗长内部链条,避免在简单问题上进行 verbose 的过度分析,并在超越基线模型基准正确性的同时,大幅提高推理成本与质量的比率。
v2 的一个关键设计选择是,蒸馏数据主要是通用领域的推理数据——特别专注于数学、文字问题、逻辑推理,以及平衡混合的通用知识和指令——而非专门的代码密集型监督数据。因此,HumanEval 和 HumanEval+ 在此用于评估跨任务泛化能力和能力迁移,而非作为直接的优化目标。尽管缺乏以代码为中心的训练,但模型在这些基准上仍表现出高性能,这证实了模型的推理框架已变得更加稳健和可迁移,证明基础推理逻辑能够有效支持编程等专业任务。






对于关心单位推理预算下推理效率的用户,v2 版本异常强大——不仅实现了更高的峰值准确率,而且消耗的字符和 tokens 减少了 20% 以上。
这一点在以下方面尤为重要:
简而言之,v2 版本不再强制在绝对编码基准分数和推理经济性之间进行权衡。它提供了一个完全优化的部署就绪配置:更快、更短、更经济的推理,同时具备更强的泛化能力和准确率。对于本地用户、智能体构建者和成本敏感型应用而言,v2 版本是一次彻底的升级。
Base Model (Qwen3.5-9B)
│
▼
Qwen3.5-9B fine-tuned with Unsloth
│
▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n<think>")
│
▼
Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2该模型包含针对性优化,旨在解决Qwen3.5在简单查询上过度使用过渡性或重复性推理的倾向。通过对Claude-4.6-Opus推理链的深度蒸馏和结构模仿,模型采用了更高效的结构化思维模式:
“让我仔细分析这个请求:1..2..3...”
这种精简的推理范式在保留深度分析能力的同时,显著减少了冗余的认知循环,从而大幅提升了推理效率。
Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.
.
.
.该数据集包含高质量、经过筛选的推理蒸馏数据:
| 数据集名称 | 描述/用途 |
|---|---|
| nohurry/Opus-4.6-Reasoning-3000x-filtered | 提供全面的 Claude 4.6 Opus 推理轨迹。 |
| Roman1111111/claude-opus-4.6-10000x | 大规模公开的 Claude 4.6 Opus 蒸馏数据,用于增强 v2 版本的通用推理迁移能力。 |
| Jackrong/Qwen3.5-reasoning-700x | 额外精选的推理样本,旨在加强结构化分步解题能力并提升推理多样性。 |
特别感谢 Unsloth AI 团队,他们让大型 LLM 模型的快速微调变得触手可及。此外,我们感谢 Qwen 内部团队以及开源社区中制作出色蒸馏数据集的开发者们。