🌟 Qwopus3.5-9B-v3

🔥 更新（4月5日）： 我已发布完整的训练笔记本、代码库以及一份详尽的PDF指南，旨在帮助初学者和爱好者理解并复现该模型的微调过程。

❤️ 特别感谢 Unsloth 开源库和 @KyleHessling1 提供的支持。

📚 资源与指南

👉 GitHub 仓库：Jackrong-llm-finetuning-guide 访问该仓库，深入了解代码库，并在本地或 Colab 上复现结果。

📥 核心技术文档

完整流程： 逐步指南——从下载基础模型、统一异构数据，到配置训练器超参数以及发布至 Hugging Face。
新手友好： 包含 Google Colab 和 Unsloth 的入门指南。
欢迎反馈！如果您发现任何需要改进的地方，请告知我，我将及时更新。

说明： 我的目标不仅仅是详述一个工作流程，更是要揭开 LLM 训练的神秘面纱。除了社交媒体上的炒作，微调并非遥不可及的仪式——通常，您所需要的只是一个 Google 账户、一台标准笔记本电脑，以及永不熄灭的好奇心。

没有人一开始就是专家，但每一位专家都曾勇敢地迈出第一步。

本项目的所有训练和测试均为自筹资金。如果您觉得此模型或指南对您有帮助，在 GitHub 上点个 Star ⭐️ 将是对我最大的鼓励。谢谢！🙏

[!Note] Claude 系列模型优化版本命名为 Qwopus3.5 系列，最新版本为 🌟Qwopus3.5-v3。

💡 模型介绍

Qwopus3.5-9B-v3 是基于 Qwen3.5-9B 开发的推理增强型模型。其核心目标是在提升推理稳定性和正确性的同时，优化推理效率，最终实现更强的跨任务泛化能力——尤其在编程领域。

通过持续优化其推理过程的基础结构，结合高质量的推理蒸馏与结构对齐，该模型能够通过更短、更稳定的推理路径实现更高的准确率。

🍎 Qwopus3.5-9B-v3：Humaneval基准测试评估

模型推理在Unsloth运行环境下进行，采用bfloat16（BF16） 精度，该精度在数值范围和内存效率之间取得平衡，非常适合9B规模的推理任务。答案验证、部分思维链判定以及统计分析均通过GPT-5.4-Pro（Thinking） 和Claude Opus 4.6（Thinking） 进行交叉验证，以确保评估结果的准确性和可重复性。

HumanEval
我在包含164个任务的完整HumanEval基准上，对三个9B规模的Qwen系列模型进行了评估。评估采用任务级判定协议，该协议能够解决代码提取干扰、答案/代码分离问题，并利用原始生成结果对可明确推断的截断输出进行处理。在这种公平且严格的评估设置下，Qwopus3.5-9B-v3实现了87.80%（144/164）的最佳基础pass@1，优于Qwen3.5-9B（82.93%，136/164）和Claude-Distilled-v2（82.32%，135/164）。此外，在更严格的plus pass@1评估中，Qwopus3.5-9B-v3也将其领先优势扩大至82.93%（136/164），相比官方基准模型的77.44%（127/164） 提升了5.49个百分点，也高于蒸馏变体的78.66%（129/164）。

模型	Base pass@1	Plus pass@1	Rescues (From GPT)	相较于Qwen3.5-9B的提升
Qwopus3.5-9B-v3	87.80% (144/164)	82.93% (136/164)	1	📈 基础版：+4.87个百分点 / Plus版：+5.49个百分点
Qwen3.5-9B	82.93% (136/164)	77.44% (127/164)	2	基准线
Claude-Distilled-v2	82.32% (135/164)	78.66% (129/164)	0	📉 基础版：-0.61个百分点 / 📈 Plus版：+1.22个百分点（相较于Qwen3.5-9B）

Screenshot 2026-03-31 at 5.44.04 PM

Screenshot 2026-03-31 at 5.44.38 PM

注意： 此处呈现的测试结果与9B-v2模型卡片上的分数不同，因为本次评估增加了上下文长度。因此，每个模型受上下文窗口截断影响的任务数量发生了变化，导致最终分数不同。请确保在相同变量设置下进行比较。

所有评估后的标准结果文件将上传至本仓库，以确保透明度和可重复性。这些文件包括：

Jackrong_Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2_humaneval_all_evalonly_eval_results
Jackrong_Qwopus3.5-9B-v3-test1_humaneval_all_evalonly_eval_results
qwen_Qwen3.5-9B_humaneval_all_evalonly_eval_results

⚠️ 关于评估产物的说明。
发布的结果文件基于原始模型生成内容，可能包含格式问题（例如Markdown包装器、答案/代码混合）、截断或轻微的令牌级损坏。

🏃 Qwopus3.5-9B-v3：MMLU-Pro基准测试评估

我基于以下领域的280道MMLU-Pro题目进行了评估：生物学、化学、计算机科学、健康科学、数学、物理学及其他科学。

两次模型运行的所有题目ID完全一致。

准确率

模型	正确数	总数	准确率
Qwen3.5-9B	225	280	80.36%
Qwopus3.5-9B-v3	229	280	81.79%

结果：
Qwopus3.5-9B-v3以**+1.43个百分点**领先

推理效率

指标	Qwen3.5-9B	Qwopus3.5-9B-v3
平均思考长度	7116字符	5313字符
每万字符通过次数	1.26	1.66
每正确通过字符数	7938	6032

推理效率提升

缩短25.3% 的推理长度
提高31.7% 的效率
降低24.0% 的每正确答案成本

Screenshot 2026-03-31 at 5.52.15 PM

评估总结

尽管整体准确率优势（+1.43个百分点）较为温和，但Qwopus3.5-9B-v3从根本上改变了准确率-成本范式，在显著减少推理预算的同时取得了胜利。凭借25.3%的平均思考长度缩短和24.0%的每正确答案令牌成本降低，此版本在延迟、令牌预算和上下文压力方面均实现了高度优化。

此外，在混合领域测试中，Qwopus3.5-9B-v3通过在物理学、化学领域的出色表现，并显著降低未完成输出率，巧妙地抵消了Qwen3.5-9B在生物学、计算机科学和数学领域的微弱优势。其最终排名的提升，既得益于原始正确率的提高，也归功于其在清晰、可靠地完成分析边界方面能力的增强。

🗺️ 训练流程概述

Base Model (Qwen3.5-9B)
 │
 ▼
Qwen3.5-9B fine-tuned with Unsloth
 │
 ▼
Supervised Fine-Tuning (SFT) + LoRA
(Response-Only Training masked on "<|im_start|>assistant\n