HuggingFace镜像/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
模型介绍文件和版本分析
下载使用量0

🌟 Qwen3.5-9B-DeepSeek-V4-Flash

💡 模型概述与设计

ChatGPT Image Apr 24, 2026 at 04_32_09 PM

[!NOTE] Qwen3.5-9B-DeepSeek-V4-Flash 是一款利用 DeepSeek-V4 高质量数据蒸馏而成的高效推理模型。

  • 通过采用 Jackrong/DeepSeek-V4-Distill-8000x 数据集,该模型成功将 DeepSeek-V4 架构的高级结构化推理和多步骤问题解决能力迁移至高效的 Qwen3.5-9B 参数空间。

  • 本模型在 Unsloth 环境中训练,注重稳定的梯度传播和严格的数据筛选,确保蒸馏过程避免仅学习“空洞的思维链”,而是捕捉真正的逻辑泛化能力。

适用于:

  • 🧩 结构化推理:继承 DeepSeek-V4 的深度逻辑能力。
  • ⚡ 快速推理:保持 9B 参数规模的 token 效率和速度优势。
  • 🔧 工具增强型工作流:生成可靠的智能体行动指令。

🍎 关于教师模型:DeepSeek-V4

dsv4_performance

DeepSeek-V4 是深度求索(DeepSeek)推出的最新旗舰开源模型系列,专为极致效率、百万级 token 长上下文(1M)和高级智能体(Agentic)工作流设计。作为本蒸馏项目的知识源,DeepSeek-V4 提供了高保真的推理信号,使 9B 模型能够突破其架构限制。

教师模型的核心技术优势:

  • 🏆 世界级推理与编码能力:DeepSeek-V4 在数学(MATH-500)、STEM 学科和实际软件工程(SWE-bench)领域表现卓越。其“Think”模式提供了定义该模型逻辑的复杂 Long-CoT(思维链)轨迹。
  • 🧠 架构创新:
    • 混合注意力与 DSA:采用 Token 级压缩和深度求索稀疏注意力(DeepSeek Sparse Attention),将 KV Cache 内存开销降低高达 90%,实现高效长上下文处理。
    • 记忆印记(Engram Memory)与 mHC:利用流形约束超连接(Manifold-constrained Hyper-connections)解耦事实知识检索与动态逻辑推理,确保卓越的稳定性和泛化能力。
  • 🤖 智能体中心设计:专门针对多步骤工具调用和复杂环境交互优化,确保蒸馏的知识不仅包含“如何表达”,更涵盖可靠的“如何行动”流程。

通过从 DeepSeek-V4-Flash 进行蒸馏,我们成功将万亿参数级模型的高密度逻辑映射到灵活高效的 Qwen3.5-9B 框架中。


🤝 合作与训练详情

本模型是与硬件工程师Kyle Hessling密切合作的成果。他慷慨提供了关键的计算设备,并负责严格的训练后测试及服务器日常维护工作。 在此对Kyle的宝贵支持表示衷心感谢! 你可以在X/Twitter上找到他:@KyleHessling1

训练基础设施与配置:

  • 🖥️ 硬件:NVIDIA DGX
  • 💾 训练数据:DeepSeek-V4-Distill-8000x
  • 🧪 训练方法:知识蒸馏

🎯 模型改进动机与蒸馏见解

  • 🧠 潜在知识激活:DeepSeek-V4的推理轨迹有助于Qwen3.5-9B模型更有效地激活其已有的潜在知识。
  • 🏗️ 学习解题过程:模型学习的是实际的问题解决步骤,而非仅仅是输出格式。
  • 🚀 效率提升:8000x数据集提供了密集的信号,使9B模型在推理任务上的收敛速度远快于传统的大规模SFT(监督微调)。

📊 评估结果

[!IMPORTANT] 这是Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash与官方Qwen3.5-9B基础模型之间的早期受控Q5_K_M版本对比。

本次评估由Kyle Hessling完成,他在相同的本地推理条件下对两个模型(DeepSeek-V4蒸馏模型和官方Qwen3.5-9B基础模型)运行了相同的评估套件。

  • ❤️ 特别感谢Kyle进行的细致训练后测试和详细对比报告。你可以在X/Twitter上找到他:@KyleHessling1。
  • 📄 完整评估报告:KyleHessling1/jackrong-deepseek-9b-eval。

Evaluation Report

Comparison Method

Agentic Reasoning Results

Front-end Design Results

Tool Calling Results

Evaluation Setup


🔬 支持证据

近期的研究成果和实证测试均支持这一蒸馏方法:

Ren 等人,2026 年 — 重新思考推理 SFT 中的泛化能力(arXiv:2604.06628)

该论文指出,推理 SFT 中的泛化能力具有条件性。 核心要点:

  • 高质量长链思维(CoT)数据:来自 DeepSeek-V4 的高质量长 CoT 数据可实现跨领域迁移。
  • 优化准则:简短且高度精选的蒸馏过程(8000 个样本)可防止模型过度拟合教师模型的风格特点,同时保留核心推理引擎。

🛠️ 最佳实践

为获得最佳性能,我们建议使用以下生成参数:

  • temperature=0.7 至 1.0(严格的编码任务使用较低温度,创造性推理任务使用较高温度)
  • top_p=0.95

与模型交互时,使用结构化的提示模板或标准 ChatML 格式将获得最佳推理结果。


📚 资源与指南

👉 GitHub 仓库:Jackrong-llm-finetuning-guide 访问该仓库,深入了解代码库,并在本地或 Colab 上复现结果。

📥 核心技术文档

🔗 完整微调指南(PDF)

备注: 我的目标不仅仅是详细介绍一个工作流程,更是要揭开 LLM 训练的神秘面纱。除了社交媒体上的炒作之外,微调并非遥不可及的仪式——通常,你所需要的只是一个 Google 账户、一台普通笔记本电脑,以及永不熄灭的好奇心。 本项目的所有训练和测试均为自筹资金。如果您觉得此模型或指南对您有所帮助,在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢!🙏


⚠️ 局限性

  • 参数限制:尽管通过 DeepSeek-V4 蒸馏得到了增强,但该模型仍受限于 90 亿参数规模,可能难以处理极为晦涩的知识。
  • 过度推理:对于非常简单的查询,由于 SFT 的偏向性,模型仍可能尝试生成冗长的推理链。
  • 安全性权衡:非对称收益意味着在推理能力提升的同时,某些与对齐相关的行为可能会出现退化。

🙏 致谢

特别感谢:

  • DeepSeek 团队在 V4 架构方面的基础性进展。
  • Unsloth 提供的高效微调框架。
  • 开源数据集及社区贡献者。
  • 致力于推理 SFT 和蒸馏研究的科研人员。

📖 引用

@misc{jackrong_qwen35_9b_deepseek_v4_flash,
  title        = {Qwen3.5-9B-DeepSeek-V4-Flash},
  author       = {Jackrong},
  year         = {2026},
  publisher    = {Hugging Face}
}