
模型名称: Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1
基础模型: Qwen3.5-9B
训练类型: 监督微调(SFT,蒸馏)
参数规模: 90亿
训练框架: Unsloth
本模型是Qwen3.5-9B的蒸馏变体,使用源自GLM-5.1的高质量推理数据进行训练。
主要目标包括:
Jackrong/GLM-5.1-Reasoning-1M-CleanedKassadin88/GLM-5.1-1000000x数据集清理得到Qwen3.5-reasoning-700x的700倍Jackrong/Qwen3.5-reasoning-700x[!IMPORTANT] 训练使用了**
Jackrong/GLM-5.1-Reasoning-1M-Cleaned,这是Kassadin88/GLM-5.1-1000000x的清理衍生版本。特别感谢Kassadin88 ❤️提供原始数据集。请通过关注和点赞支持原作者。 蒸馏仅使用了经过质量筛选的子集**,而非完整的原始数据集。
Base Model (Qwen3.5-9B)
│
▼
Qwen3.5-9B fine-tuned with Unsloth
│
▼
Supervised Fine-Tuning (SFT) + LoRA
Distillation from GLM-5.1 reasoning data
│
▼
Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1该模型学习了从GLM-5.1轨迹中提取的推理结构,而非之前的Qwopus/Claude风格框架。
从GLM-5.1蒸馏数据来看,其推理模式通常更具任务优先性和结构驱动性:
典型的抽象框架如下:
示例:
用户询问的是**[主题/问题],且需满足[特定约束条件]。
这主要是一项[推理/编码/数学/STEM/指令遵循]** 任务。
理解任务
分解问题
逐步推理
构建最终答案
[!NOTE] 与之前的Claude风格推理框架相比,GLM-5.1蒸馏数据更注重结构化任务分解、领域感知推理和最终答案组织。
对于9B量级的学生模型而言,目标并非完美复制教师模型,而是学习更简洁的推理流程并生成更稳定的输出。
与典型的SFT数据集相比:
本模型旨在实现实际应用中渐进但有意义的提升:
[!WARNING] 对于9B规模的模型,SFT带来的增益通常是渐进而非戏剧性的。 主要优势通常体现在更好的一致性、更清晰的推理过程和更强的答案组织能力,而非原始能力的突然跃升。
本模型将蒸馏视为超越简单输出模仿的过程。
目标并非让9B模型逐 token 复制教师模型,而是将更强的推理结构和问题解决风格迁移至Qwen3.5-9B。
在此项目中,高质量的教师数据具有重要价值,因为它提供:
[!NOTE] 高质量的推理监督能帮助学生模型更好地运用其已有知识,而非简单地用教师输出替代。
近期研究:
Ren 等人,2026 — Rethinking Generalization in Reasoning SFT (arXiv:2604.06628)
短轮次推理SFT可能低估泛化能力——域内增益可能较早显现,而域外改进往往需要充分的优化。
该论文表明,推理SFT的泛化能力并非固定不变,而是有条件的——取决于优化程度、数据质量和模型能力。
核心结论:
对于本项目,这些证据至关重要,因为它们支持对蒸馏式SFT采取更具耐心的解读。 如果推理监督是清晰的且经过充分优化,所产生的增益不一定是即时或线性的,但仍可能是真实且可迁移的。
这与本版本的理念高度一致:
[!IMPORTANT] 这表明改进并非简单的记忆或数据集重叠。相反,充分优化的推理SFT可以帮助学生模型:
- 🧠 更好地利用已有知识
- 🔍 通过结构化推理激活潜在知识
- 🏗️ 学习推理过程,而非仅仅是输出格式
👉 GitHub 仓库:Jackrong-llm-finetuning-guide 访问该仓库以深入了解代码库,并在本地或 Colab 上复现结果。
说明: 我的目标不仅仅是详述一个工作流程,更是为了揭开 LLM 训练的神秘面纱。抛开社交媒体上的炒作,微调并非遥不可及的仪式——通常,你所需要的只是一个 Google 账户、一台普通笔记本电脑,以及永不熄灭的好奇心。 本项目的所有训练和测试均为自费。如果您觉得这个模型或指南对您有帮助,在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢!🙏
本项目的实现离不开开源社区的支持与贡献。
特别感谢 Unsloth AI 团队,他们让大型语言模型的高效微调变得更加普及。本 qwen3_5 模型基于 Unsloth 和 Hugging Face 的 TRL 库进行训练,显著提升了微调流程的速度和实用性。
同时,我还要感谢:
GLM-5.1-1000000x 数据集,本训练流程正是基于此数据集构建。Jackrong/GLM-5.1-Reasoning-1M-Cleaned,该项目使源数据更加一致,更适合蒸馏训练。如果您在研究或项目中使用了本模型,请引用:
@misc{jackrong_qwen35_9b_glm51_distill_v1,
title = {Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1}}
}