🔥 更新(4月5日): 我已发布完整的训练笔记本、代码库以及一份详尽的PDF指南,旨在帮助初学者和爱好者理解并复现该模型的微调过程。
❤️ 特别感谢 Unsloth 开源库和 @KyleHessling1 提供的支持。
👉 GitHub 仓库:Jackrong-llm-finetuning-guide 访问此仓库,深入了解代码库并在本地或 Colab 上复现结果。
说明: 我的目标不仅仅是详述一个工作流程,更是为了揭开 LLM 训练的神秘面纱。抛开社交媒体上的炒作,微调并非遥不可及的仪式——通常,你所需要的只是一个 Google 账户、一台普通的笔记本电脑,以及永不熄灭的好奇心。 本项目的所有训练和测试均为自筹资金。如果您觉得此模型或指南对您有帮助,在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢!🙏
[!IMPORTANT] Claude 系列模型优化版本命名为 Qwopus3.5 系列,最新版本为 🌟Qwopus3.5-v3.5。



[!Note] Qwopus 3.5-27B-v3 在广泛的基准测试中实现了 准确性与效率之间的良好平衡。
如上图所示,该模型在大多数任务上 达到或超越了 Qwen3.5-27B,同时保持了 显著提升的 token 效率。
值得注意的是,它能以 显著更少的生成 token 数 达到高性能,体现出更 紧凑和结构化的推理过程。
在 MMLU-Pro 上,Qwopus 略微 超越了 Qwen3.5-27B——这是一个有些出乎意料的结果,因为后训练通常会削弱通用知识。在 pass@4 指标下,差距也有所缩小(从约 4 个百分点缩小到约 2 个百分点),表明鲁棒性有所提升。
特别感谢 Benjamin Marie (@bnjmn_marie) 提供的原始分析和可视化。
近年来,语言智能体(language agents)的研究进展主要集中在通过思维链(Chain-of-Thought, CoT)和自我反思机制提升推理准确性,鼓励模型在采取行动前进行迭代式推理优化。
然而,新的证据表明,这种**“行动前过度思考”在序列决策任务中并非总是最优策略。相反,通过试错范式**(trial-and-error paradigm)——即尽早执行行动并基于环境反馈进行优化——能更有效地提升智能体性能。
Reflexion[^1]研究表明,智能体可通过试错与自我反思显著改善决策能力——将反思的作用从行动前深思熟虑转变为行动后修正,使智能体能够从具体的执行结果中学习,而非依赖推测性推理。
失败后反思+重试[^2]策略显著提升性能:
这为反思在基于执行结果时最有效(而非纯内部推理)提供了有力的实证支持。
对于多步骤工具增强型智能体系统,性能优化不应仅依赖更深层次的执行前推理。更有效的策略是构建执行驱动的优化循环——智能体先进行轻量化初始推理,在环境中执行行动,再基于反馈信号迭代优化行为。
范式转变: 从 “先推理后行动” → “先行动后优化”
核心目标不是通过单次推理达到最优,而是通过迭代交互与修正实现稳健的任务完成。
Qwopus3.5-27B-v3 是基于 Qwen3.5-27B 开发的推理增强模型,旨在同时提升推理稳定性与正确性,并优化推理效率——最终实现更强的跨任务泛化能力,尤其在编程领域。
核心亮点:
v2 模型主要通过在从 Claude 等强大教师模型蒸馏出的 CoT 数据上进行 SFT 训练。虽然这可以迁移高质量的推理模式,但第三方数据集的 CoT 轨迹并不总是能真实反映模型真正的内部推理过程——经过分析,我发现部分内容甚至可能是**“伪造的”**,即这些轨迹并非由声称的教师模型实际生成。[^3][^4]
先前的研究进一步表明,CoT 解释可能只是事后合理化,而非真正的逐步推理[^3]。因此,学生模型可能会学到:
| v2(蒸馏) | v3(结构对齐) | |
|---|---|---|
| CoT 来源 | 第三方蒸馏轨迹 | 精选、可验证的推理链 |
| 学习目标 | 模仿教师输出 | 学习过程级推理 |
| 推理风格 | 压缩、可能伪造 | 显式、逐步、忠实 |
| 鲁棒性 | 对未见任务较低 | 更高的泛化性 |
v3 专注于提高推理轨迹的忠实性、完整性和结构清晰度。该模型不再模仿压缩的教师 CoT,而是被训练生成更显式、可验证的中间步骤——实现从**“答案模仿”到过程级推理学习**的转变。
这提高了推理过程的可解释性和可靠性,为下游多步骤和基于智能体的任务提供了更稳定的基础。
⚠️ 副作用: v3 生成的 CoT 长度将比 v2 略长,这是更显式中间推理的直接结果。
🔬 推理设置:所有模型均在 Unsloth 运行时下使用 bfloat16 (BF16) 精度进行评估——在 27B 规模下实现了数值范围与内存效率的优化平衡。答案验证、部分 CoT 裁决和统计分析均通过 GPT-4.5-Pro (Thinking) 和 Claude Opus 4.6 (Thinking) 进行交叉验证,以确保可复现性。
三款 27B 规模的 Qwen 系列模型在保守人工裁决协议下接受评估,解决了以下问题:
🏆 结果:在这种公平且严格的评估环境下,Qwopus3.5-27B-v3 取得了 95.73% (157/164) 的最佳严格总分——优于 Qwen3.5-27B(94.51%,155/164)和 Claude-Distilled-v2(92.68%,152/164),同时减少了所需的人工修正次数。
| 模型 | 基础通过率 | 增强通过率 | 与 Qwen3.5-27B 对比 |
|---|---|---|---|
| 🥇 Qwopus3.5-27B-v3 | 97.56% (160/164) | 95.73% (157/164) | 📈 +1.22 百分点 |
| Qwen3.5-27B | 95.73% (157/164) | 94.51% (155/164) | — 基准线 — |
| Claude-Distilled-v2 | 95.12% (156/164) | 92.68% (152/164) | 📉 −1.83 百分点 |


❤️ 特别感谢:@KyleHessling1 提供的出色社区支持。在他的 前端设计测试(可在 X 平台观看演示) 中,Qwopus 3.5 27B v3 展现了卓越的创造力和输出多样性。
Base Model (Qwen3.5-27B)
│
▼
Qwen3.5-27B fine-tuned with Unsloth
│
▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n