HuggingFace镜像/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2

🌟 Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2

🔥 更新（4月5日）： 我已发布完整的训练笔记本、代码库以及一份详尽的PDF指南，旨在帮助初学者和爱好者理解并复现该模型的微调过程。

❤️ 特别感谢 Unsloth 开源库和 @KyleHessling1 提供的支持。

📚 资源与指南

👉 GitHub 仓库：Jackrong-llm-finetuning-guide 访问该仓库，深入了解代码库，并在本地或 Colab 上复现结果。

📥 核心技术文档

完整流程： 逐步指南 — 从下载基础模型、统一异构数据，到配置训练器超参数以及发布至 Hugging Face。
新手友好： 包含 Google Colab 和 Unsloth 的入门指南。
欢迎反馈。如果您发现任何需要改进的地方，请告知我，我将及时更新。

说明： 我的目标不仅仅是详述工作流程，更是为了揭开 LLM 训练的神秘面纱。抛开社交媒体上的炒作，微调并非遥不可及的仪式 — 通常，您所需要的只是一个 Google 账户、一台普通笔记本电脑，以及永不熄灭的好奇心。

没有人一开始就是专家，但每个专家都曾勇敢地迈出第一步。

本项目的所有训练和测试均为自费。如果您觉得此模型或指南对您有帮助，在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢！🙏

[!Note] Claude 系列模型优化版本命名为 Qwopus3.5 系列，最新版本为 🌟Qwopus3.5-v3。

📢 声明

注意：由于 SFT 样本量和训练范围的限制，模型的广泛通用能力可能会受到轻微影响。此处讨论的效率和准确性结果基于 HumanEval 和 HumanEval+ 基准测试。感谢您的理解！

HCaJnUQaoAAaMIc

💡 模型介绍

Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 是这款专注于推理能力的 Qwen3.5-9B 微调模型的第二次迭代，旨在显著提升思维链生成的效率，在大幅提高推理速度和降低成本的同时，实际提升了绝对准确率。

与早期版本相比，v2 采用了 14,000 个 Claude 4.6 Opus 风格的通用推理样本进行训练，更加强调传递简洁、可复用的推理模式，而非仅仅追求原始基准分数的最大化。v2 的目标并非简单地让模型“思考更多”，而是帮助它更经济地思考：减少不必要的冗长内部链条，避免在简单问题上进行 verbose 的过度分析，并在超越基线模型基准正确性的同时，大幅提高推理成本与质量的比率。

v2 的一个关键设计选择是，蒸馏数据主要是通用领域的推理数据——特别聚焦于数学、文字题、逻辑推理，以及平衡混合的通用知识和指令——而非专门的代码密集型监督数据。因此，HumanEval 和 HumanEval+ 在此用于评估跨任务泛化能力和能力迁移，而非作为直接的优化目标。尽管缺乏以代码为中心的训练，但模型在这些基准上仍表现出高性能，这证实了模型的推理框架已变得更加稳健和可迁移，证明基础推理逻辑能够有效支持编程等专业任务。

HumanEval | HumanEval+ 基准分析 🪐

Screenshot 2026-03-23 at 5.28.20 PM

Screenshot 2026-03-23 at 5.28.33 PM

Screenshot 2026-03-23 at 5.29.13 PM

Screenshot 2026-03-23 at 5.29.34 PM

Screenshot 2026-03-23 at 5.29.52 PM

Screenshot 2026-03-23 at 5.30.06 PM

对于关心单位推理预算下推理效率的用户而言，v2 异常强大——不仅实现了更高的峰值准确率，而且消耗的字符和 tokens 减少了 20% 以上。

这一点在以下场景中尤为重要：

资源受限的本地部署：在消费级 GPU 或内存较低的本地设备上，更短、更清晰的推理轨迹可以减少延迟、内存压力和生成的实际成本。
智能体工作流：在多步骤智能体中，模型通常需要解决许多简单或中等难度的子任务。在这些场景中，过于复杂的思维链可能会成为吞吐量的负担。用更少的推理 tokens 得出更优答案的模型，能够显著提升端到端智能体速度并降低累积推理成本。
开源工具使用和新兴智能体栈：对于使用轻量级开放式推理系统、浏览器使用智能体、终端智能体或“OpenClaw / 本地自主智能体”风格生态系统项目的用户而言，在大幅提升推理经济性的同时实现更高峰值准确率的模型，在实际循环应用中具有高度实用性。
大规模简单问题处理：经过强推理调优的基础模型存在一个常见问题，即即便是面对简单提示，有时也会产生非常复杂的内部推理轨迹。虽然这看起来令人印象深刻，但在实践中往往效率低下。v2 明确旨在削减这种开销。

总之，v2 不再迫使用户在绝对编码基准分数和推理经济性之间进行权衡。它提供了完全优化的部署就绪配置：更快、更短、更经济的推理，同时具备更强的泛化能力和准确率。对于本地用户、智能体构建者和成本敏感型应用而言，v2 是一次彻底的升级。

🗺️ 训练流程概述

Base Model (Qwen3.5-9B)
 │
 ▼
Qwen3.5-9B fine-tuned with Unsloth
 │
 ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n