🔥 更新(4月5日):为了帮助初学者和爱好者更好地理解并复现本模型的微调过程,我已准备好完整的训练笔记本、代码库以及一份详尽的配套PDF指南!请查看下方资源链接。
❤️ 特别感谢 Unsloth 开源库和 @KyleHessling1 提供的支持。
如果您想深入了解本模型的训练方式,或希望在本地或Colab上复现结果,请访问我的GitHub仓库: 👉 🔗Jackrong-llm-finetuning-guide
您可以点击下方链接,直接获取Qwopus3.5训练的完整技术手册:
温馨提示: 我撰写本指南的目的不仅仅是详细介绍单一训练流程。我想传达一个更广泛的信息:微调、训练后处理,甚至中等规模的预训练并非遥不可及的技术仪式,也不是社交媒体上常被夸大的炒作。通常情况下,您所需要的只是一个Google账户、一台标准笔记本电脑,以及永不熄灭的好奇心。
没有人天生就是专家。但每一位专家都曾勇敢地迈出第一步。
本项目的所有微调训练和测试均由我自费进行。如果您觉得本模型或指南对您有所帮助,在GitHub上点个 Star ⭐️ 将是对我最大的鼓励。非常感谢!🙏
构建环境升级:
- 微调框架:Unsloth 2026.3.3
- 核心依赖:Transformers 5.2.0
- 此模型修复了官方模型中因Jinja模板不支持**"developer"**角色而导致的崩溃问题。(通常由Claude Code和OpenCode等现代编码代理发送)
- 它默认不禁用思考模式,允许代理连续运行超过9分钟不中断。
- 与原始模型相比,自主性和稳定性显著提升。

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled是一款基于强大的Qwen3.5架构微调而成的高性能推理模型。该模型的核心目标是利用最先进的思维链(Chain-of-Thought,CoT)蒸馏技术,主要源自Claude-4.6 Opus的交互数据。
通过专注于结构化推理逻辑的监督微调(Supervised Fine-Tuning,SFT),该模型擅长分解复杂的用户问题,在严格格式化的</think>标签内规划逐步解决方法,并最终提供精确、细致的解决方案。
该模型包含针对性优化,解决了Qwen3.5在简单查询上过度使用过渡性或重复性推理的倾向。通过对Claude-4.6-Opus推理链的深度蒸馏和结构模仿,模型采用了更高效的结构化思维模式:
“让我仔细分析这个请求:1..2..3...”。
这种精简的推理范式在保留深度分析能力的同时,显著减少了冗余的认知循环,从而大幅提升了推理效率。
Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency.
.
.
.Base Model (Qwen3.5-27B)
│
▼
Supervised Fine-Tuning (SFT) + LoRA
│
▼
Final Model (Claude-4.6-Opus-Reasoning-Distilled,text-only)🔧工具调用基准测试(由用户 @Chris Klaus 进行的基准测试)

从测试结果可以明显看出,不同的 Qwen3.5 量化模型在工具调用能力上存在显著差异。其中,只有经过 Claude Opus 推理蒸馏的 27B 模型表现出稳定的性能。
🔥社区测试优势(由用户 @sudoing 在单张 RTX 3090 上进行的基准测试):
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 在 Claude Code 和 OpenCode 等编码代理环境中展现出显著优势:
- 原生支持“开发者”角色,无需 Jinja 模板补丁或 ChatML 替代方案。
- 思考模式完全保留(日志确认
thinking=1),未被静默禁用,保持完整的思维链推理过程。- 自主性和稳定性大幅提升——能够自主连续运行超过 9 分钟(零人工干预)。它会主动等待工具响应、读取输出、自我纠正错误,甚至可以自动生成 README,而基础模型则经常在执行过程中停滞或冻结。
硬件使用情况保持不变:
- 采用 Q4_K_M 量化时,显存占用约 16.5 GB
- 生成速度为 29–35 tok/s
- 完整支持 262K 上下文,无任何妥协
train_on_responses_only 策略,通过屏蔽指令,使损失仅在 </think> 序列的生成和后续解决方案上计算。</think> {内部推理} </think>\n {最终答案} 的结构。该数据集包含高质量、经过筛选的推理蒸馏数据:
| 数据集名称 | 描述/用途 |
|---|---|
| nohurry/Opus-4.6-Reasoning-3000x-filtered | 提供全面的 Claude 4.6 Opus 推理轨迹。 |
| Jackrong/Qwen3.5-reasoning-700x | 额外的精选推理样本,旨在加强结构化的逐步问题解决能力并提升推理多样性。 |
</think> 块中按顺序建立大纲式计划,而非探索性的“试错式”自我怀疑。特别感谢 Unsloth AI 团队,他们使 MoE 和大型 LLM 模型的快速微调变得触手可及。此外,我们感谢 Qwen 内部团队,以及开源社区中制作出色蒸馏数据集的开发者(nohurry 和 TeichAI)。
如果您在研究或项目中使用本模型,请引用:
@misc{jackrong_qwen35_opus_distilled,
title = {Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled}}
}