HuggingFace镜像/Qwopus3.5-9B-v3
模型介绍文件和版本分析
下载使用量0

🌟 Qwopus3.5-9B-v3

🔥 更新(4月5日): 我已发布完整的训练笔记本、代码库以及一份详尽的PDF指南,旨在帮助初学者和爱好者理解并复现该模型的微调过程。

❤️ 特别感谢 Unsloth 开源库以及 @KyleHessling1 提供的支持。

📚 资源与指南

👉 GitHub 仓库:Jackrong-llm-finetuning-guide 访问该仓库,深入了解代码库,并在本地或 Colab 上复现结果。

📥 核心技术文档

🔗 Qwopus3.5-27b 完整微调指南(PDF)

  • 完整流程: 逐步指南——从下载基础模型、统一异构数据,到配置训练器超参数以及发布至 Hugging Face。
  • 新手友好: 包含 Google Colab 和 Unsloth 的入门指南。
  • 欢迎反馈!如果您发现任何需要改进的地方,请告知我,我将及时更新。

说明: 我的目标不仅仅是详述工作流程,更是为了揭开 LLM 训练的神秘面纱。除了社交媒体上的炒作,微调并非遥不可及的仪式——通常,您所需要的只是一个 Google 账户、一台普通笔记本电脑,以及永不熄灭的好奇心。

没有人一开始就是专家,但每一位专家都曾勇敢地迈出第一步。

本项目的所有训练和测试均为自筹资金。如果您觉得此模型或指南对您有帮助,在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢!🙏

[!Note] Claude 系列模型优化版本命名为 Qwopus3.5 系列,最新版本为 🌟Qwopus3.5-v3。


🎯 动机

语言智能体的最新进展主要集中在通过思维链(Chain-of-Thought, CoT)和自我反思机制提高推理准确性,鼓励模型在采取行动前迭代优化其推理过程。

然而,新的证据表明,这种**“行动前过度思考”对于序列决策而言并非总是最优的。相反,通过试错范式**可以更有效地提升智能体性能,即尽早执行行动,并基于环境反馈进行改进。

🔬 支持证据

  • Reflexion[^1]表明,智能体可通过利用尝试、错误和自我反思显著提升决策能力——将反思的作用从行动前深思熟虑转变为行动后修正,使智能体能够从具体的执行结果中学习,而非依赖推测性推理。

  • 失败后反思 + 重试[^2]显著提升性能:

    • 📈 数学推理任务提升 34.7%
    • 📈 函数调用任务提升 18.1%

    这为反思在基于执行结果时最为有效(而非纯粹的内部推理)提供了有力的实证依据。

🧭 我的方法

对于多步骤和工具增强型智能体系统,不应仅通过更深入的执行前推理来优化性能。更有效的策略是执行驱动优化循环——智能体进行轻量级初始推理,在环境中行动,并基于反馈信号迭代优化其行为。

范式转变: 从 “先推理后行动” → “先行动后优化”

目标不是通过单次推理实现最优,而是通过迭代交互和修正实现稳健的任务完成。


💡 模型介绍

Qwopus3.5-9B-v3 是基于 Qwen3.5-9B 开发的推理增强模型,旨在同时提升推理稳定性和正确性,优化推理效率——最终实现更强的跨任务泛化能力,尤其在编程领域。

核心亮点:

  • 🧩 结构化推理优化 — 通过高质量推理蒸馏与结构对齐,优化推理过程的基础结构,借助更短、更稳定的推理路径实现更高准确率。
  • 🔧 工具调用强化 — 融入针对工具调用的专项强化学习训练,针对 OpenClaw 等工具增强型智能体框架进行优化,增强持续任务执行的稳定性和工具调用的熟练度。
  • 🔁 行动后优化范式 — 专为复杂、多步骤智能体工作流设计,与用执行驱动优化取代行动前深思熟虑的核心理念保持一致。

🔗 思维链优化

🚧 v2 蒸馏存在的问题

v2 模型主要通过在从 Claude 等强大教师模型蒸馏出的 CoT 数据上进行 SFT 训练。虽然这种方法可以迁移高质量的推理模式,但第三方数据集中的 CoT 轨迹并不总是能真实反映模型真正的内部推理过程——经过分析,我发现部分内容甚至可能是**“编造的”**,即这些轨迹并非由声称的教师模型实际生成。[^3][^4]

先前的研究进一步表明,CoT 解释可能只是事后合理化,而非真正的逐步推理[^3]。因此,学生模型可能会学到:

  • 表面的模式匹配而非底层推理
  • 答案记忆而非可泛化的问题解决能力
  • 在分布外任务上的鲁棒性降低

✅ v3 的改进之处

v2(蒸馏)v3(结构对齐)
CoT 来源第三方蒸馏轨迹精选、可验证的推理链
学习目标模仿教师输出学习过程级推理
推理风格压缩、可能存在编造明确、逐步、忠实
鲁棒性对未见过的任务较低更高的泛化能力

v3 专注于提升推理轨迹的忠实性、完整性和结构清晰度。不再模仿压缩的教师 CoT,而是训练模型生成更明确、可验证的中间步骤——实现从**“答案模仿”到过程级推理学习**的转变。

这提高了推理过程的可解释性和可靠性,为下游多步骤和基于智能体的任务提供了更稳定的基础。

⚠️ 副作用: v3 生成的 CoT 长度将比 v2 略长,这是更明确的中间推理带来的直接结果。


🍎 Qwopus3.5-9B-v3:Humaneval 基准评测

模型推理在 Unsloth 运行环境下进行,采用 bfloat16(BF16) 精度,该精度在数值范围和内存效率之间取得平衡,非常适合 9B 规模模型的推理。答案验证、部分思维链判定以及统计分析均通过 GPT-5.4-Pro(Thinking) 和 Claude Opus 4.6(Thinking) 进行交叉验证,以确保评测结果的准确性和可复现性。

HumanEval
我在包含 164 个任务的完整 HumanEval 基准上对三个 9B 规模的 Qwen 系列模型进行了评测,采用任务级判定协议,该协议可解决代码提取干扰、答案/代码分离问题,并使用原始生成结果对可明确推断的截断输出进行处理。在这种公平且严格的评测设置下,Qwopus3.5-9B-v3 实现了 87.80%(144/164)的最佳基础 pass@1 得分,优于 Qwen3.5-9B(82.93%,136/164)和 Claude-Distilled-v2(82.32%,135/164)。此外,在更严格的 plus pass@1 评测中,Qwopus3.5-9B-v3 也将其领先优势扩大到 82.93%(136/164),相比官方基线的 77.44%(127/164) 和蒸馏变体的 78.66%(129/164) 表现更优。

模型Base pass@1Plus pass@1Rescues (From GPT)相较于 Qwen3.5-9B 的提升
Qwopus3.5-9B-v387.80% (144/164)82.93% (136/164)1📈 基础版:+4.87 个百分点 / Plus 版:+5.49 个百分点
Qwen3.5-9B82.93% (136/164)77.44% (127/164)2基线
Claude-Distilled-v282.32% (135/164)78.66% (129/164)0📉 基础版:-0.61 个百分点 / 📈 Plus 版:相较于 Qwen3.5-9B 提升 +1.22 个百分点

Screenshot 2026-03-31 at 5.44.04 PM

Screenshot 2026-03-31 at 5.44.38 PM

注意: 此处呈现的测试结果与 9B-v2 模型卡片上的分数存在差异,原因是本次评测增加了上下文长度。因此,每个模型受上下文窗口截断影响的任务数量发生了变化,导致最终分数不同。请确保在相同的变量设置下进行比较。

所有评测后的标准结果文件将上传至本仓库,以确保透明度和可复现性。这些文件包括:

  • Jackrong_Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2_humaneval_all_evalonly_eval_results
  • Jackrong_Qwopus3.5-9B-v3-test1_humaneval_all_evalonly_eval_results
  • qwen_Qwen3.5-9B_humaneval_all_evalonly_eval_results

⚠️ 关于评测产物的说明。
发布的结果文件基于 原始模型生成内容,可能包含格式问题(例如 Markdown 包装器、答案/代码混合)、截断或轻微的 token 级损坏。


🏃 Qwopus3.5-9B-v3:MMLU-Pro 基准测试评估

我基于以下领域的280 道 MMLU-Pro 题目进行了评估:生物学、化学、计算机科学、健康科学、数学、物理学及其他科学。

两次模型运行中所有题目的 ID 保持一致。

准确率

模型正确数总数准确率
Qwen3.5-9B22528080.36%
Qwopus3.5-9B-v322928081.79%

结果:
Qwopus3.5-9B-v3 以**+1.43 个百分点**领先


推理效率

指标Qwen3.5-9BQwopus3.5-9B-v3
平均思考长度7116 字符5313 字符
每万字符通过数1.261.66
每正确通过字符数79386032

推理效率提升

  • 缩短 25.3% 的推理长度
  • 提高 31.7% 的效率
  • 降低 24.0% 的每正确答案成本

Screenshot 2026-03-31 at 5.52.15 PM

评估总结

尽管整体准确率优势(+1.43 个百分点)较为适中,但 Qwopus3.5-9B-v3 从根本上改变了准确率-成本范式,在显著减少推理预算的同时实现了领先。凭借 25.3% 的平均思考长度缩短和 24.0% 的每正确答案 token 成本降低,该版本在延迟、token 预算和上下文压力方面均实现了高度优化。

此外,在混合领域测试中,Qwopus3.5-9B-v3 巧妙地弥补了 Qwen3.5-9B 在生物学、计算机科学和数学领域的微弱优势——通过在物理学、化学领域的出色表现,以及显著降低未完成输出率。其最终排名的提升,既得益于原始正确率的提高,也归功于在清晰、可靠地完成分析边界方面能力的增强。

🗺️ 训练流程概述

Base Model (Qwen3.5-9B)
 │
 ▼
Qwen3.5-9B fine-tuned with Unsloth
 │
 ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n