HuggingFace镜像/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF

🌟 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

🔥 更新（4月5日）： 我已发布完整的训练笔记本、代码库以及一份全面的PDF指南，旨在帮助初学者和爱好者理解并复现该模型的微调过程。

❤️ 特别感谢 Unsloth 开源库和 @KyleHessling1 提供的支持。

📚 资源与指南

👉 GitHub 仓库：Jackrong-llm-finetuning-guide 访问该仓库，深入了解代码库，并在本地或 Colab 上复现结果。

📥 核心技术文档

完整流程： 从下载基础模型、统一异构数据，到配置训练器超参数并发布至 Hugging Face 的详细步骤说明。
新手友好： 包含 Google Colab 和 Unsloth 的入门指南。
欢迎反馈！如果您发现任何需要改进的地方，请告诉我，我会及时更新。

说明： 我的目标不仅仅是详细介绍工作流程，更是为了揭开 LLM 训练的神秘面纱。除了社交媒体上的炒作，微调并非遥不可及的仪式——通常，您只需要一个 Google 账户、一台普通笔记本电脑，以及永不熄灭的好奇心。

没有人一开始就是专家，但每个专家都曾勇敢地迈出第一步。

本项目的所有训练和测试均为自费。如果您觉得这个模型或指南有帮助，在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢！🙏

[!Note] Claude 系列模型优化版本命名为 Qwopus3.5 系列，最新版本为 🌟Qwopus3.5-v3。

📢 公告

v2 更新：

精度保持： 在 HumanEval 上与基础模型持平（96.91% pass@1）

推理更简洁： 思维链长度减少约 24%

效率更高： 每 token 正确解数量提升 31.6%

⚠️权衡： HumanEval+ 下降 1.24%，MMLU-Pro 下降 7.2%（表明通用知识推理能力有所降低）

⚠️注意：由于 SFT 数据的范围和训练重点，该模型在某些需要长上下文理解或更复杂多步推理的任务上可能表现不及基础模型。此处报告的效率和精度结果仅基于 HumanEval 和 HumanEval+ 基准测试。感谢您的理解。

HCaJnUQaoAAaMIc

💡 模型介绍

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 是这款专注于推理的 Qwen3.5-27B 微调模型的第二次迭代，旨在显著提升思维链生成的效率，在提高绝对准确率的同时，大幅提升推理速度并降低成本。

与早期版本相比，v2 版本使用了 14,000 个 Claude 4.6 Opus 风格的通用推理样本进行训练，更加强调传递简洁、可复用的推理模式，而非仅仅追求原始基准分数的最大化。v2 的目标并非简单地让模型“思考更多”，而是帮助其更经济地思考：减少不必要的冗长内部链条，避免在简单问题上进行 verbose 的过度分析，并在超越基线模型基准正确性的同时，大幅提升推理成本与质量的比率。

v2 的一个关键设计选择是，蒸馏数据主要是通用领域的推理数据——特别聚焦于数学、文字题、逻辑推理，以及平衡的通用知识和指令混合——而非专门的代码密集型监督数据。因此，HumanEval 和 HumanEval+ 在此用于评估跨任务泛化能力和能力迁移，而非作为直接的优化目标。尽管缺乏以代码为中心的训练，但模型在这些基准上仍表现出高性能，这证实了模型的推理框架已变得更加稳健和可迁移，证明基础推理逻辑能够有效支持编程等专业任务。

HumanEval 基准分析 🪐

两个模型的原始评估输出均使用 GPT-5.4-Pro-Thinking 进行了独立清洗、验证和汇总。最终比较结果基于这些标准化和经过筛选的输出。为确保可靠性，所有结果均通过两轮使用 Claude-4.6-Opus-Thinking 的独立验证进行了进一步交叉检查和整合。

-所有评估均在基于 Unsloth + vLLM（BF16）的推理环境中进行，以确保一致且高效的执行条件。

Screenshot 2026-03-20 at 3.54.26 PM

Screenshot 2026-03-20 at 3.54.51 PM

Screenshot 2026-03-20 at 3.58.30 PM

Screenshot 2026-03-20 at 3.55.49 PM

Screenshot 2026-03-20 at 3.56.01 PM

Screenshot 2026-03-20 at 3.56.18 PM

🗺️ 训练流程概述

Base Model (Qwen3.5-27B)
 │
 ▼
Qwen3.5-27B fine-tuned with Unsloth
 │
 ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n