HuggingFace镜像/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

🌟 Qwen3.5-9B-DeepSeek-V4-Flash

💡 模型概述与设计

ChatGPT Image Apr 24, 2026 at 04_32_09 PM

[!NOTE] Qwen3.5-9B-DeepSeek-V4-Flash 是一款利用 DeepSeek-V4 高质量数据蒸馏而成的高效推理模型。

通过采用 Jackrong/DeepSeek-V4-Distill-8000x 数据集，该模型成功将 DeepSeek-V4 架构的高级结构化推理和多步骤问题解决能力迁移至高效的 Qwen3.5-9B 参数空间。
本模型在 Unsloth 环境中训练，注重稳定的梯度传播和严格的数据筛选，确保蒸馏过程避免仅学习“空洞的思维链”，而是捕捉真正的逻辑泛化能力。

适用于：

🧩 结构化推理：继承 DeepSeek-V4 的深度逻辑能力。
⚡ 快速推理：保持 9B 参数规模的 token 效率和速度优势。
🔧 工具增强型工作流：生成可靠的智能体行动指令。

🍎 关于教师模型：DeepSeek-V4

dsv4_performance

DeepSeek-V4 是深度求索（DeepSeek）推出的最新旗舰开源模型系列，专为极致效率、百万级 token 长上下文（1M）和高级智能体（Agentic）工作流设计。作为本蒸馏项目的知识源，DeepSeek-V4 提供了高保真的推理信号，使 9B 模型能够突破其架构限制。

教师模型的核心技术优势：

🏆 世界级推理与编码能力：DeepSeek-V4 在数学（MATH-500）、STEM 学科和实际软件工程（SWE-bench）领域表现卓越。其“Think”模式提供了定义该模型逻辑的复杂 Long-CoT（思维链）轨迹。
🧠 架构创新：
- 混合注意力与 DSA：采用 Token 级压缩和深度求索稀疏注意力（DeepSeek Sparse Attention），将 KV Cache 内存开销降低高达 90%，实现高效长上下文处理。
- 记忆印记（Engram Memory）与 mHC：利用流形约束超连接（Manifold-constrained Hyper-connections）解耦事实知识检索与动态逻辑推理，确保卓越的稳定性和泛化能力。
🤖 智能体中心设计：专门针对多步骤工具调用和复杂环境交互优化，确保蒸馏的知识不仅包含“如何表达”，更涵盖可靠的“如何行动”流程。

通过从 DeepSeek-V4-Flash 进行蒸馏，我们成功将万亿参数级模型的高密度逻辑映射到灵活高效的 Qwen3.5-9B 框架中。

🤝 合作与训练详情

本模型是与硬件工程师Kyle Hessling密切合作的成果。他慷慨提供了关键的计算设备，并负责严格的训练后测试及服务器日常维护工作。在此对Kyle的宝贵支持表示衷心感谢！你可以在X/Twitter上找到他：@KyleHessling1

训练基础设施与配置：

🖥️ 硬件：NVIDIA DGX
💾 训练数据：DeepSeek-V4-Distill-8000x
🧪 训练方法：知识蒸馏

🎯 模型改进动机与蒸馏见解

🧠 潜在知识激活：DeepSeek-V4的推理轨迹有助于Qwen3.5-9B模型更有效地激活其已有的潜在知识。
🏗️ 学习解题过程：模型学习的是实际的问题解决步骤，而非仅仅是输出格式。
🚀 效率提升：8000x数据集提供了密集的信号，使9B模型在推理任务上的收敛速度远快于传统的大规模SFT（监督微调）。

📊 评估结果

[!IMPORTANT] 这是Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash与官方Qwen3.5-9B基础模型之间的早期受控Q5_K_M版本对比。

本次评估由Kyle Hessling完成，他在相同的本地推理条件下对两个模型（DeepSeek-V4蒸馏模型和官方Qwen3.5-9B基础模型）运行了相同的评估套件。

❤️ 特别感谢Kyle进行的细致训练后测试和详细对比报告。你可以在X/Twitter上找到他：@KyleHessling1。
📄 完整评估报告：KyleHessling1/jackrong-deepseek-9b-eval。

Evaluation Report

Comparison Method

Agentic Reasoning Results

Front-end Design Results

Tool Calling Results

Evaluation Setup

🔬 支持证据

近期的研究成果和实证测试均支持这一蒸馏方法：

Ren 等人，2026 年 — 重新思考推理 SFT 中的泛化能力（arXiv:2604.06628）

该论文指出，推理 SFT 中的泛化能力具有条件性。核心要点：

高质量长链思维（CoT）数据：来自 DeepSeek-V4 的高质量长 CoT 数据可实现跨领域迁移。
优化准则：简短且高度精选的蒸馏过程（8000 个样本）可防止模型过度拟合教师模型的风格特点，同时保留核心推理引擎。

🛠️ 最佳实践

为获得最佳性能，我们建议使用以下生成参数：

temperature=0.7 至 1.0（严格的编码任务使用较低温度，创造性推理任务使用较高温度）
top_p=0.95

与模型交互时，使用结构化的提示模板或标准 ChatML 格式将获得最佳推理结果。

📚 资源与指南

👉 GitHub 仓库：Jackrong-llm-finetuning-guide 访问该仓库，深入了解代码库，并在本地或 Colab 上复现结果。

📥 核心技术文档

🔗 完整微调指南（PDF）

备注： 我的目标不仅仅是详细介绍一个工作流程，更是要揭开 LLM 训练的神秘面纱。除了社交媒体上的炒作之外，微调并非遥不可及的仪式——通常，你所需要的只是一个 Google 账户、一台普通笔记本电脑，以及永不熄灭的好奇心。本项目的所有训练和测试均为自筹资金。如果您觉得此模型或指南对您有所帮助，在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢！🙏

⚠️ 局限性

参数限制：尽管通过 DeepSeek-V4 蒸馏得到了增强，但该模型仍受限于 90 亿参数规模，可能难以处理极为晦涩的知识。
过度推理：对于非常简单的查询，由于 SFT 的偏向性，模型仍可能尝试生成冗长的推理链。
安全性权衡：非对称收益意味着在推理能力提升的同时，某些与对齐相关的行为可能会出现退化。

🙏 致谢

特别感谢：

DeepSeek 团队在 V4 架构方面的基础性进展。
Unsloth 提供的高效微调框架。
开源数据集及社区贡献者。
致力于推理 SFT 和蒸馏研究的科研人员。

📖 引用

@misc{jackrong_qwen35_9b_deepseek_v4_flash,
  title        = {Qwen3.5-9B-DeepSeek-V4-Flash},
  author       = {Jackrong},
  year         = {2026},
  publisher    = {Hugging Face}
}