
[!NOTE] Qwen3.5-9B-DeepSeek-V4-Flash 是一款利用 DeepSeek-V4 高质量数据蒸馏而成的高效推理模型。
通过采用 Jackrong/DeepSeek-V4-Distill-8000x 数据集,该模型成功将 DeepSeek-V4 架构的高级结构化推理和多步骤问题解决能力迁移至高效的 Qwen3.5-9B 参数空间。
本模型在 Unsloth 环境中训练,注重稳定的梯度传播和严格的数据筛选,确保蒸馏过程避免仅学习“空洞的思维链”,而是捕捉真正的逻辑泛化能力。
适用于:

DeepSeek-V4 是深度求索(DeepSeek)推出的最新旗舰开源模型系列,专为极致效率、百万级 token 长上下文(1M)和高级智能体(Agentic)工作流设计。作为本蒸馏项目的知识源,DeepSeek-V4 提供了高保真的推理信号,使 9B 模型能够突破其架构限制。
教师模型的核心技术优势:
通过从 DeepSeek-V4-Flash 进行蒸馏,我们成功将万亿参数级模型的高密度逻辑映射到灵活高效的 Qwen3.5-9B 框架中。
本模型是与硬件工程师Kyle Hessling密切合作的成果。他慷慨提供了关键的计算设备,并负责严格的训练后测试及服务器日常维护工作。 在此对Kyle的宝贵支持表示衷心感谢! 你可以在X/Twitter上找到他:@KyleHessling1
训练基础设施与配置:
[!IMPORTANT] 这是Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash与官方Qwen3.5-9B基础模型之间的早期受控Q5_K_M版本对比。
本次评估由Kyle Hessling完成,他在相同的本地推理条件下对两个模型(DeepSeek-V4蒸馏模型和官方Qwen3.5-9B基础模型)运行了相同的评估套件。






近期的研究成果和实证测试均支持这一蒸馏方法:
Ren 等人,2026 年 — 重新思考推理 SFT 中的泛化能力(arXiv:2604.06628)
该论文指出,推理 SFT 中的泛化能力具有条件性。 核心要点:
为获得最佳性能,我们建议使用以下生成参数:
temperature=0.7 至 1.0(严格的编码任务使用较低温度,创造性推理任务使用较高温度)top_p=0.95与模型交互时,使用结构化的提示模板或标准 ChatML 格式将获得最佳推理结果。
👉 GitHub 仓库:Jackrong-llm-finetuning-guide 访问该仓库,深入了解代码库,并在本地或 Colab 上复现结果。
备注: 我的目标不仅仅是详细介绍一个工作流程,更是要揭开 LLM 训练的神秘面纱。除了社交媒体上的炒作之外,微调并非遥不可及的仪式——通常,你所需要的只是一个 Google 账户、一台普通笔记本电脑,以及永不熄灭的好奇心。 本项目的所有训练和测试均为自筹资金。如果您觉得此模型或指南对您有所帮助,在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢!🙏
特别感谢:
@misc{jackrong_qwen35_9b_deepseek_v4_flash,
title = {Qwen3.5-9B-DeepSeek-V4-Flash},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}