HuggingFace镜像/Qwopus3.5-27B-v3
模型介绍文件和版本分析
下载使用量0

🌟 Qwopus3.5-27B-v3

🔥 更新(4月5日): 我已发布完整的训练笔记本、代码库以及一份详尽的PDF指南,旨在帮助初学者和爱好者理解并复现该模型的微调过程。

❤️ 特别感谢 Unsloth 开源库和 @KyleHessling1 提供的支持。

📚 资源与指南

👉 GitHub 仓库:Jackrong-llm-finetuning-guide 访问此仓库,深入了解代码库并在本地或 Colab 上复现结果。

📥 核心技术文档

🔗 Qwopus3.5-27b 完整微调指南(PDF)

  • 完整流程: 逐步指南——从下载基础模型、统一异构数据,到配置训练器超参数以及发布至 Hugging Face。
  • 新手友好: 包含 Google Colab 和 Unsloth 的入门指南。

说明: 我的目标不仅仅是详述一个工作流程,更是为了揭开 LLM 训练的神秘面纱。抛开社交媒体上的炒作,微调并非遥不可及的仪式——通常,你所需要的只是一个 Google 账户、一台普通的笔记本电脑,以及永不熄灭的好奇心。 本项目的所有训练和测试均为自筹资金。如果您觉得此模型或指南对您有帮助,在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢!🙏

[!IMPORTANT] Claude 系列模型优化版本命名为 Qwopus3.5 系列,最新版本为 🌟Qwopus3.5-v3.5。


🧪 第三方独立评估结果

HFh-sjSWUAABpeF

HFXnLT4W4AA_2Ld

215e1d0d-b67d-49ff-b84f-3e65ad70e024_1210x783

[!Note] Qwopus 3.5-27B-v3 在广泛的基准测试中实现了 准确性与效率之间的良好平衡。

如上图所示,该模型在大多数任务上 达到或超越了 Qwen3.5-27B,同时保持了 显著提升的 token 效率。

值得注意的是,它能以 显著更少的生成 token 数 达到高性能,体现出更 紧凑和结构化的推理过程。

在 MMLU-Pro 上,Qwopus 略微 超越了 Qwen3.5-27B——这是一个有些出乎意料的结果,因为后训练通常会削弱通用知识。在 pass@4 指标下,差距也有所缩小(从约 4 个百分点缩小到约 2 个百分点),表明鲁棒性有所提升。

特别感谢 Benjamin Marie (@bnjmn_marie) 提供的原始分析和可视化。

  • 🔥 详细报告: Qwopus vs Qwen3.5 — Trading Accuracy for Efficiency

🎯 研究动机与核心思想

近年来,语言智能体(language agents)的研究进展主要集中在通过思维链(Chain-of-Thought, CoT)和自我反思机制提升推理准确性,鼓励模型在采取行动前进行迭代式推理优化。

然而,新的证据表明,这种**“行动前过度思考”在序列决策任务中并非总是最优策略。相反,通过试错范式**(trial-and-error paradigm)——即尽早执行行动并基于环境反馈进行优化——能更有效地提升智能体性能。

🔬 支持证据

  • Reflexion1研究表明,智能体可通过试错与自我反思显著改善决策能力——将反思的作用从行动前深思熟虑转变为行动后修正,使智能体能够从具体的执行结果中学习,而非依赖推测性推理。

  • 失败后反思+重试2策略显著提升性能:

    • 📈 数学推理任务正确率提升34.7%
    • 📈 函数调用任务成功率提升18.1%

    这为反思在基于执行结果时最有效(而非纯内部推理)提供了有力的实证支持。

🧭 研究方法

对于多步骤工具增强型智能体系统,性能优化不应仅依赖更深层次的执行前推理。更有效的策略是构建执行驱动的优化循环——智能体先进行轻量化初始推理,在环境中执行行动,再基于反馈信号迭代优化行为。

范式转变: 从 “先推理后行动” → “先行动后优化”

核心目标不是通过单次推理达到最优,而是通过迭代交互与修正实现稳健的任务完成。


💡 模型介绍

Qwopus3.5-27B-v3 是基于 Qwen3.5-27B 开发的推理增强模型,旨在同时提升推理稳定性与正确性,并优化推理效率——最终实现更强的跨任务泛化能力,尤其在编程领域。

核心亮点:

  • 🧩 结构化推理优化 — 通过高质量推理蒸馏与结构对齐,优化推理过程的基础结构,以更短、更稳定的推理路径实现更高准确率。
  • 🔧 工具调用强化 — 集成工具调用专项强化学习(RL)训练,针对 OpenClaw 等工具增强型智能体框架优化,提升连续任务执行稳定性与工具调用熟练度。
  • 🔁 行动后优化范式 — 专为复杂多步骤智能体工作流设计,契合以执行驱动优化替代行动前深思熟虑的核心动机。

🔗 思维链优化

🚧 v2 蒸馏存在的问题

v2 模型主要通过在从 Claude 等强大教师模型蒸馏出的 CoT 数据上进行 SFT 训练。虽然这可以迁移高质量的推理模式,但第三方数据集的 CoT 轨迹并不总是能真实反映模型真正的内部推理过程——经过分析,我发现部分内容甚至可能是**“伪造的”**,即这些轨迹并非由声称的教师模型实际生成。34

先前的研究进一步表明,CoT 解释可能只是事后合理化,而非真正的逐步推理3。因此,学生模型可能会学到:

  • 表面的模式匹配而非底层推理
  • 答案记忆而非可泛化的问题解决能力
  • 在分布外任务上的鲁棒性降低

✅ v3 的改进之处

v2(蒸馏)v3(结构对齐)
CoT 来源第三方蒸馏轨迹精选、可验证的推理链
学习目标模仿教师输出学习过程级推理
推理风格压缩、可能伪造显式、逐步、忠实
鲁棒性对未见任务较低更高的泛化性

v3 专注于提高推理轨迹的忠实性、完整性和结构清晰度。该模型不再模仿压缩的教师 CoT,而是被训练生成更显式、可验证的中间步骤——实现从**“答案模仿”到过程级推理学习**的转变。

这提高了推理过程的可解释性和可靠性,为下游多步骤和基于智能体的任务提供了更稳定的基础。

⚠️ 副作用: v3 生成的 CoT 长度将比 v2 略长,这是更显式中间推理的直接结果。


🍎 Qwopus3.5-27B-v3:Humaneval 基准测试

🔬 推理设置:所有模型均在 Unsloth 运行时下使用 bfloat16 (BF16) 精度进行评估——在 27B 规模下实现了数值范围与内存效率的优化平衡。答案验证、部分 CoT 裁决和统计分析均通过 GPT-4.5-Pro (Thinking) 和 Claude Opus 4.6 (Thinking) 进行交叉验证,以确保可复现性。

📊 HumanEval — 164 任务完整基准测试

三款 27B 规模的 Qwen 系列模型在保守人工裁决协议下接受评估,解决了以下问题:

  • 🧹 代码提取污染
  • ✂️ 答案/代码分离问题
  • 🗂️ 格式干扰(在其他方面正确的输出中)

🏆 结果:在这种公平且严格的评估环境下,Qwopus3.5-27B-v3 取得了 95.73% (157/164) 的最佳严格总分——优于 Qwen3.5-27B(94.51%,155/164)和 Claude-Distilled-v2(92.68%,152/164),同时减少了所需的人工修正次数。

模型基础通过率增强通过率与 Qwen3.5-27B 对比
🥇 Qwopus3.5-27B-v397.56% (160/164)95.73% (157/164)📈 +1.22 百分点
Qwen3.5-27B95.73% (157/164)94.51% (155/164)— 基准线 —
Claude-Distilled-v295.12% (156/164)92.68% (152/164)📉 −1.83 百分点

Screenshot 2026-04-01 at 11.25.34 PM

Screenshot 2026-04-02 at 8.23.13 AM


🍎 社区反馈与测试

❤️ 特别感谢:@KyleHessling1 提供的出色社区支持。在他的 前端设计测试(可在 X 平台观看演示) 中,Qwopus 3.5 27B v3 展现了卓越的创造力和输出多样性。

🗺️ 训练流程概述

Base Model (Qwen3.5-27B)
 │
 ▼
Qwen3.5-27B fine-tuned with Unsloth
 │
 ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n<think>")
 │
 ▼
Qwopus3.5-27B-v3

🧠 学习型推理框架示例

该模型包含针对性优化,旨在解决Qwen3.5在简单查询上出现过度或重复推理的倾向。通过提炼Claude Opus等顶级模型的结构化推理习惯,Qwopus3.5-27B-v3采用了高度有条理的逐步认知布局。

Example:The user is asking about [Topic] and how it differs from [Topic B]. This is a [Task type] question. Let me break this down:

1. What is [Topic A]?
   - [Fact/Mechanism 1]
   - [Fact/Mechanism 2]
2. What is [Topic B]?
   - [Fact/Mechanism 1]
3. Key differences:
   - [Comparison Point 1]
   - [Comparison Point 2]

Let me make sure to be accurate: [...]
Actually, I should double-check: is [Fact] used before [Fact]? Yes, typically...
Let me provide a clear, well-structured answer:

📚 训练数据

该模型在一个高保真推理数据集上进行了微调,该数据集是从 Hugging Face 上的优质开源资源中精心挑选并混合而成的。此数据集经过严格的混合与清洗流程,专门用于过滤低质量响应,确保在各种分析领域都能保持稳定出色的逻辑表现。

(请放心,整个过程完全合规,100% 符合所有条款和开源许可!)

⚠️ 局限性与预期用途

  • 幻觉风险:尽管推理能力较强,但该模型本质上仍是自回归大型语言模型;在思考过程中提供的外部事实若涉及现实世界事件验证,偶尔可能出现幻觉。
  • 预期场景:最适合离线分析任务、编码、数学运算以及对逻辑依赖度高的提示场景,用户可清晰追踪 AI 的内部逻辑过程。
  • 本模型为测试版本,仅用于学习和演示目的,且仅限学术研究与技术探索使用。
  • 开发者声明:这是一个独立的个人项目。由于开发者缺乏大型工业实验室的专业技术资源和基础设施,模型的推理链(CoT)偶尔可能出现不稳定、逻辑循环或推理偏移的情况。建议用户在使用本模型时充分考虑这些实验性局限。

注意:此处展示的测试结果与 27B-v2 模型卡片上的分数存在差异,原因是本次评估增加了上下文长度。因此,每个模型受上下文窗口截断影响的任务数量发生了变化,导致最终分数不同。请确保在相同变量设置下进行比较。

所有评估后的标准结果文件将上传至本仓库,以确保透明度和可复现性。这些文件包括:

  • Jackrong_Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2_humaneval_all_evalonly_eval_results
  • Jackrong_Qwopus3.5-27B-v3-test1_humaneval_all_evalonly_eval_results
  • qwen_Qwen3.5-27B_humaneval_all_evalonly_eval_results

⚠️ 关于评估产物的说明
发布的结果文件基于原始模型生成内容,可能包含格式问题(例如 Markdown 包装器、答案/代码混合)、截断或轻微的 token 级损坏。作为资源有限的独立项目,此处的评估范围特意聚焦而非全面——无法进行与大型机构发布相当的多领域综合评估。超出基准测试的能力尚未经过验证,建议用户在采用前根据自身任务需求评估适用性。

🙏 致谢

特别感谢 Unsloth AI 团队,他们让大型 LLM 模型的快速微调变得触手可及。此外,我们还要感谢内部的 Qwen 团队,以及那些开发出卓越蒸馏数据集的开源社区开发者们。

本 qwen3_5 模型借助 Unsloth 和 Huggingface 的 TRL 库,训练速度提升了 2 倍。

参考文献

📖 引用说明

如果您在研究或项目中使用了本模型,请引用:

@misc{jackrong_qwen35_27b_v3
  title        = {Jackrong/Qwopus3.5-27B-v3},
  author       = {Jackrong},
  year         = {2026},
  publisher    = {Hugging Face},
  howpublished = {\url{https://huggingface.co/Jackrong/Qwopus3.5-27B-v3}}
}

Footnotes

  1. Shinn, N., Cassano, F., Berman, E., Gopinath, A., Narasimhan, K., & Yao, S. (2023).
    Reflexion: Language Agents with Verbal Reinforcement Learning.
    arXiv:2303.11366. ↩

  2. Bensal, S., Jamil, U., Bryant, C., Russak, M., Kamble, K., Mozolevskyi, D., Ali, M., & AlShikh, W. (2025).
    Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning.
    arXiv:2505.24726. https://arxiv.org/abs/2505.24726 ↩

  3. Anthropic (2025). Reasoning Models Don't Always Say What They Think.
    https://www.anthropic.com/research/reasoning-models-dont-say-think ↩ ↩2

  4. Lyu et al. (2023). Faithful Chain-of-Thought Reasoning. ACL.
    https://aclanthology.org/2023.ijcnlp-main.20/ ↩