v2 更新:
精度保持: 在 HumanEval 上与基础模型持平(96.91% pass@1)
推理更简洁: 思维链长度减少约24%
效率更高: 每 token 正确解数量增加31.6%
⚠️权衡: HumanEval+ 下降 1.24%,MMLU-Pro 下降 7.2%(表明一般知识推理能力有所降低)
⚠️注意:由于 SFT 数据的范围和训练重点,该模型在某些需要长上下文理解或更复杂多步骤推理的任务上可能表现不如基础模型。此处报告的效率和准确性结果仅基于 HumanEval 和 HumanEval+ 基准。感谢您的理解。

Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 是这款专注于推理的 Qwen3.5-27B 微调模型的第二个版本,旨在大幅提升思维链生成的效率,在提高绝对准确性的同时,显著加快推理速度并降低成本。
与早期版本相比,v2 训练使用了 14,000 个 Claude 4.6 Opus 风格的通用推理样本,更加强调迁移简洁、可复用的推理模式,而非仅仅追求原始基准分数的最大化。v2 的目标不仅仅是让模型“思考更多”,而是帮助它更经济地思考:减少不必要的冗长内部链条,避免在简单问题上进行 verbose 的过度分析,并在超越基线基准正确性的同时,大幅提高推理成本与质量的比率。
v2 的一个关键设计选择是,蒸馏数据主要是通用领域的推理数据——特别聚焦于数学、文字题、逻辑推理,以及平衡的通用知识和指令混合——而非专门的代码密集型监督。因此,HumanEval 和 HumanEval+ 在此用于评估跨任务泛化能力和能力迁移,而非作为直接的优化目标。尽管缺乏以代码为中心的训练,但在这些基准上的高性能证实了模型的推理框架变得更加稳健和可迁移,证明基础推理逻辑可以有效支持编程等专业任务。
两个模型的原始评估输出均通过 GPT-5.4-Pro-Thinking 进行了独立清洗、验证和聚合。最终对比结果基于这些标准化和精选后的输出。为确保可靠性,所有结果均通过 Claude-4.6-Opus-Thinking 进行了两轮独立验证并整合。






Base Model (Qwen3.5-27B)
│
▼
Qwen3.5-27B fine-tuned with Unsloth
│
▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n