v2 更新说明: 本次迭代基于14,000+条优质 Claude 4.6 Opus 风格通用推理样本训练而成,重点优化了推理经济性与结构效率。
v2 引入了精细化的推理框架,旨在消除冗余的内部循环,显著提升模型从逻辑、数学到编程等专业领域的跨任务泛化能力。与原始模型相比,自主性和稳定性得到显著增强,确保模型在复杂多步骤问题求解过程中保持稳健性和自洽性。v2 的设计理念是**“更智能地思考,而非更长时间地思考”**,以更优的推理成本质量比实现高质量的分析深度。

Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-v2 是基于 Qwen3.5-4B 进行推理专项微调的第二个版本,旨在提升思维链生成的效率,同时保留强大的通用推理能力。
与早期版本相比,v2 采用了 14,000 条 Claude 4.6 Opus 风格的通用推理样本进行训练,更侧重于传递简洁、可复用的推理模式,而非单纯追求基准测试分数的最大化。v2 的目标并非简单地让模型“思考更多”,而是帮助它**“更经济地思考”**:减少不必要的冗长内部推理链,避免对简单问题进行过度 verbose 的分析,产出具有更优推理成本质量比的答案。
v2 的一个关键设计选择是,蒸馏数据主要为通用领域推理数据——特别聚焦于数学、文字题、逻辑推理,以及平衡的通用知识与指令混合——而非专门的代码密集型监督数据。因此,HumanEval 和 HumanEval+ 在此用于评估跨任务泛化能力与能力迁移效果,而非作为直接优化目标。尽管缺乏以代码为中心的训练,模型在这些基准测试上仍表现出色,这证实了其推理框架已变得更加稳健和可迁移,证明基础推理逻辑能够有效支持编程等专业任务。
经过公平重新评分后,与官方 Qwen3.5-4B 基准模型相比,微调后的 v2 模型在 HumanEval 绝对准确率上仍略有差距,但它在推理效率方面展现出显著提升:
| 指标 | 官方 Qwen3.5-4B | v2 微调模型 | 变化 |
|---|---|---|---|
| 平均思考长度 | 2829 字符 | 1874 字符 | 🟢 -33.77% |
| 每 10k 思考字符的 HumanEval 基础通过率 | 3.104 | 4.393 | 🟢 +41.54% |
| 每 10k 思考字符的 HumanEval+ 通过率 | 2.910 | 4.165 | 🟢 +43.15% |
| 每通过一次 HumanEval 基础测试所需思考字符 | 3222 | 2276 | 🟢 -29.35% |
| 每通过一次 HumanEval+ 测试所需思考字符 | 3437 | 2401 | 🟢 -30.14% |
同时,官方模型在绝对基准分数上仍保持优势:
| 公平重新计算的基准 | 官方 Qwen3.5-4B | v2 微调模型 | 差距 |
|---|---|---|---|
| HumanEval(基础测试)pass@1 | 0.7683 | 0.7317 | 🔴 -3.66 分 |
| HumanEval+(基础 + 额外测试)pass@1 | 0.7256 | 0.6951 | 🔴 -3.05 分 |
正确理解这种权衡至关重要。
对于只关心尽可能高的基准准确率的用户,官方模型仍然是更优选择。然而,对于关注单位推理预算下的推理效率的用户,v2 版本有了显著改进。
这一点在以下场景中尤为重要:
简而言之,v2 版本并不声称在绝对编码基准分数上超越官方模型。相反,它展示了一种更面向部署的优化目标:更快、更简短、更经济的推理,同时保持具有竞争力的泛化能力。对于许多本地用户、智能体构建者和成本敏感型应用来说,这种权衡可能是非常有利的。
Base Model (Qwen3.5-4B)
│
▼
Qwen3.5-4B fine-tuned with Unsloth
│
▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n