[!NOTE] Gemopus 是基于 "稳定性优先" 核心理念对 Gemma 4 进行微调的尝试。
在尽可能保留 Gemma 4 原有推理逻辑的基础上,我们针对答案质量、结构、清晰度和一致性进行了定向优化。
🍎 因此,我的微调策略没有跟随其他团队直接从 Claude 进行激进的蒸馏,而是选择了一条更保守且可控的路径。
Gemopus-4-26B-A4B-it 是基于 Gemma 4 26B Instruction 模型的监督微调版本。
[!IMPORTANT] 2026 年的一篇自蒸馏论文发现,虽然自蒸馏通常可以缩短推理轨迹并提升部分域内性能,但也可能导致数学推理能力下降。这种下降与不确定性表达的抑制相关。作者报告称,在某些模型和设置下,域外(OOD)性能下降可能非常显著。该结果意味着,表面上更简洁、更"擅长解题"的推理文本,并不代表学生真正获得了更强健的推理能力。

当仅能进行监督微调(SFT),而缺乏后续强化学习(RL)或过程监督时,强行向学生模型灌输可能不忠实的冗长推理轨迹及最终答案,会带来重大的潜在风险。
核心问题在于,学生模型可能无法可靠地将 token 级别的推理序列与实际支撑最终决策的潜在计算过程对齐。因此,训练很容易退化为对推理文本表面形式的模仿,而非对底层推理机制的真正内化。
在这种情况下,此类长文本推理数据可能会提高风格上的相似度,但不一定能提升推理的忠实度。
相比之下,与 Qwen 系列相比,Gemma 4 已展现出更具结构性、条理性和规范性的推理对话风格。它也明显更不易出现“过度思考”或生成过长、不受控的推理链。因此,在 SFT 阶段强行重塑其推理风格价值不大。这样做可能会破坏 Gemma 4 原生且已然强大的推理节奏,而在缺乏后期对齐方法的情况下,收益有限。
基于上述方法推导,我选择将优化重点放在风险更低、回报更稳定的最终答案质量与交互体验层面:
⏳ 感谢 Kyle Hessling 独立运行这些基准测试并分享结果!


为获得最佳性能,请使用以下配置和最佳实践:
在所有使用场景中使用以下标准化采样配置:
temperature=1.0top_p=0.95top_k=64与 Gemma 3 相比,这些模型使用标准的 system、assistant 和 user 角色。为了正确管理思维过程,请使用以下控制令牌:
<|think|> 令牌来启用思维。要禁用思维,请移除该令牌。<|channel>thought\n [内部推理] <channel|><|channel>thought\n<channel|> [最终答案][!NOTE] 请注意,许多库(如 Transformers 和 llama.cpp)会为您处理聊天模板的复杂性。
🚧 此模型的完整微调代码和相关笔记本将很快更新,请保持关注!
👉 GitHub 仓库:Jackrong-llm-finetuning-guide
欢迎访问此仓库,以深入了解代码库并在本地或 Colab 上复现训练结果。
没有人一开始就是专家,但所有专家都勇敢地迈出了第一步。
本项目的所有训练和测试均为自费。如果您觉得本模型或指南对您有帮助,在 GitHub 上给予 Star ⭐️ 就是对我最大的鼓励。🙏
Base Model (google/gemma4-26B-it)
│
▼
Targeted Supervised Fine-Tuning (SFT)
(Focus on Answer Quality & Structural Alignment, Retaining Restrained CoT)
│
▼
Gemopus-4-26B-A4B-it训练数据专门从开源社区精选出结构优化、连贯性强的指令对,同时包含自然的多轮对话。我们的目标是引导模型学习更成熟的结论组织与呈现方式,而非机械模仿缺乏内在逻辑的“伪思维链”。
工具调用兼容性:Gemma 4系列模型在 llama.cpp / LM Studio 等本地推理生态中,工具调用功能仍存在已知兼容性问题(包括调用失败、格式不匹配、持续循环等)。此问题已在社区广泛反馈,并非本模型特有。若您的工作流严重依赖工具调用,建议正式使用前进行充分测试,或暂时考虑生态支持更成熟的解决方案。
关于Gemma架构的微调特性:从工程实践角度看,Gemma系列在微调过程中确实表现出与Qwen系列不同的训练动态——包括更宽的损失曲线波动,以及梯度稳定性对超参数更高的敏感性。这可能与Google的模型架构设计相关。此外,Gemma 4基础模型在部分原始能力维度上,客观上与Qwen 3.5系列仍存在差距。我们认为,如实陈述这些观察,比选择性回避更有助于社区的技术判断。
项目定位:Gemopus-4-26B-A4B-it的核心价值在于为Gemma 4架构下的SFT微调提供一个方法论支撑的工程探索参考,而非完全生产就绪的解决方案。如果您正在寻找经过更多迭代验证、生态兼容性更稳定的生产力模型,建议关注Qwopus-3.5-v3系列——其微调后的表现更为稳健。
特别感谢开源社区的开发者们构建了如此繁荣的生态系统。感谢Unsloth团队提供卓越且高效的LLM微调支持,向Google团队开源杰出的Gemma 4基础模型表示诚挚的敬意。最后,感谢所有在CoT Faithfulness和LLM推理可解释性方面贡献深刻见解的研究人员。正是这些严谨的前沿学术探讨,深刻启发了本项目的核心微调方法论。