[!NOTE] 什么是 MTP(多 token 预测)?
MTP 是近年来大语言模型(LLM)训练与推理领域的一项革命性技术。与传统自回归模型在每一步仅预测单个 token(单 token 预测)不同,MTP 模型在训练时就被设计为在每个位置同时预测多个未来 token。
这种架构带来了两个核心维度的变革:
- 更深层次的表征与规划能力:它迫使模型在表征层面针对更长期的上下文进行全局规划(Long-Horizon Planning)。这增强了在复杂编码、多步骤数学推理等逻辑密集型任务中的认知连贯性,同时有效缓解了传统自回归模型中常见的“推理气泡”和重复循环问题。
- 极致的推理加速(投机解码):在推理阶段,模型配备了额外的轻量级辅助预测头(Draft Heads,本模型中配置为
draft=2)。在主干网络生成当前 token 的同时,Draft Heads 以可忽略的计算开销并行预测后续 2 个候选 token,随后由主模型通过单次前向传播进行验证。一旦验证通过,模型可以在单次推理步骤中输出多个 token,从而显著提升吞吐量。
基于在逻辑 / 编码 / 运维 / 数学 / 边缘计算(5 个核心领域,30 道复杂评估题)的实际测试,Qwopus3.5-9B-Coder-MTP(draft=2) 在速度和正确性两方面均展现出绝对优势:
[!IMPORTANT] 评估配置和基准框架遵循 Unsloth 团队的官方 Qwen 系列测试,其研究表明设置
draft=2可获得最佳性能。完整详情请参见官方 Unsloth MTP 基准测试。
为确保评估的严谨性、客观性和可复现性,本基准测试在统一的硬件平台和采样超参数下进行:
1.0(推荐标准值,平衡逻辑推理与创造力)。0.95(保留高概率候选,过滤尾部噪声,保障推理准确性)。[!TIP] 逻辑:基准版 5/5 = 100% | MTP 5/5 = 100%
[!TIP] 编码:基础版 7/10 = 70% | MTP版 10/10 = 100%
[!TIP] DevOps:基础版 2.5/5 = 50% | MTP版 3.5/5 = 70%
[!TIP] 数学:基准版 4.5/5 = 90% | MTP 5/5 = 100%
[!TIP] 边缘场景:基准版 5/5 = 100% | MTP 3/5 = 60%
本模型以Qwopus3.5-9B-v3.5为基础模型,该基础模型已具备强大的能力。在此之上,Qwopus3.5-9B-coder针对高性能🤖 智能体编码(Agentic Coding)、复杂工具调用(Tool Calling)及逻辑推理进行了专门优化与微调。
💡 为何选择9B密集型模型? 我们认为9B密集型架构是大型语言模型的理想**“平衡点”**。它能在入门级16GB内存设备(如标准笔记本电脑和Mac mini)上以8位精度流畅运行,兼具极致轻量化与高度通用性。无需昂贵硬件,即可实现卓越性能与出色推理速度。简而言之,Qwen3.5-9B是当前同类中最佳的开源模型。

[!TIP] 视觉与工具调用支持:本模型支持视觉功能与工具调用。若要启用视觉功能,请将GGUF仓库中的
mmproj.gguf文件放置到主.gguf文件所在目录。
本模型的微调过程深度融合了轨迹反转(Trace Inversion) 数据增强技术与高质量智能体轨迹(Agent Traces)。这种系统化方法不仅增强了模型解决复杂编程任务的能力,还大幅提升了其在使用各类工具时的逻辑连贯性与准确性。
本模型专为达成以下目标而设计:
[!WARNING]
- 社区版本发布说明:Qwopus3.5-9B-coder纯粹作为实验性社区版本发布,旨在探索智能体(Agent)能力与深度推理的结合,仅用于研究与探索用途。
- 注意事项:由于本模型针对编程智能体与深度推理进行垂直微调,且未经过全面的通用性能评估,其在通用领域或特定非编程任务中的能力可能会出现能力衰减(Capability Decay)。建议用户在探索其核心能力的同时,注意其在其他场景下的局限性。
为验证Qwopus3.5-9B-coder在实际智能体场景中的执行效率与逻辑稳健性,我们采用了开源测试框架benchlocal。
| HermesAgent-20性能指标 | |||
| 模型 | 测试集 | 综合得分 | 核心维度(M/O/S/S/B) |
|---|---|---|---|
| Qwopus3.5-9B-coder | HermesAgent-20 | 85 | 84 / 93 / 88 / 75 / 84 |
| Qwen/Qwen3.5-9B | HermesAgent-20 | 71 | 75 / 58 / 100 / 53 / 69 |
| armand0e/Qwen3.5-9B-Agent | HermesAgent-20 | 68 | 71 / 83 / 43 / 61 / 80 |
| DJLougen/Harmonic-Hermes-9B | HermesAgent-20 | 47 | 60 / 45 / 23 / 69 / 38 |
| ToolCall-15稳定性指标 | |||
| 模型 | 测试集 | 综合得分 | 维度得分(A/B/C/D/E) |
|---|---|---|---|
| Qwopus3.5-9B-coder | ToolCall-15 | 100 | 100 / 100 / 100 / 100 / 100 |
| Qwen/Qwen3.5-9B | ToolCall-15 | 100 | 100 / 100 / 100 / 100 / 100 |
| armand0e/Qwen3.5-9B-Agent | ToolCall-15 | 93 | 100 / 100 / 100 / 67 / 100 |
| BugFind-15性能指标 | |||
| 模型 | 测试集 | 综合得分 | 维度得分(A/B/C/D/E) |
|---|---|---|---|
| Qwopus3.5-9B-coder | BugFind-15 | 79 | 67 / 87 / 100 / 77 / 43 |
| Jackrong/MLX-Qwen3.5-9B-DeepSeek-V4-Flash | BugFind-15 | 75 | 67 / 100 / 67 / 57 / 80 |
| armand0e/Qwen3.5-9B-Agent | BugFind-15 | 58 | 29 / 87 / 73 / 20 / 67 |
以下展示了在 SWE-bench Verified 上的对比性能,该基准评估语言模型在解决真实世界开源仓库中软件工程问题的能力:
| SWE-bench 验证性能指标 | ||
| 模型 | 测试集 | 综合得分 (%) |
|---|---|---|
| Claude 4.5 Opus | SWE-bench Verified | 80.9 |
| Qwen/Qwen3.5-27B | SWE-bench Verified | 75.0 |
| Qwen/Qwen3.6-35B-A3B | SWE-bench Verified | 73.4 |
| Qwopus3.5-9B-coder | SWE-bench Verified | 53.89 |
| google/gemma-4-31B-it | SWE-bench Verified | 52.0 |
| google/gemma-4-26B-A4B | SWE-bench Verified | 45.0 - 48.0 |
[!IMPORTANT]
- ⚙️ 所有测试均按照 qwen3.5 官方推荐的 temperature=1 进行。测试失败后,会尝试重新生成两次以排查错误和模型问题。若两次尝试均失败,则判定为任务失败。
- 🍎 所有测试界面截图已上传至仓库的 image 文件夹。点击下方链接查看验证:
- 🔗 查看测试截图
- ❤️ 特别感谢 Kyle Hessling 提供的硬件设备支持。可在 X / Twitter 关注他获取更多更新:@KyleHessling1。
为突破模型在实际编程与工具使用中的“推理泡沫”局限,赋予其真正的智能体行为能力,本模型在训练过程中引入了核心增强数据集:
当前,基于公开信息,OpenAI 的 GPT 系列、Anthropic 的 Claude 系列等商业模型已非常明确地隐藏了其模型真实的内部推理链。对于这些模型,我们在 API 或前端界面中最终能看到的,往往只能视为高度压缩的“推理泡沫”。
为突破这一局限,我们采用了追踪反演技术。该技术利用外部“代理模型”,基于商业模型公开的“问题 + 最终答案 + 压缩推理摘要”,重建出完整且逻辑连贯的深度推理链。将原本仅由几句话和逻辑跳跃构成的“推理泡沫”,扩展为具备完整推导、计算和逻辑验证的高质量深度学习轨迹,为模型提供了逐步的逻辑学习信号。

为显著增强模型在真实环境下的执行与编码能力,本模型额外引入了**lambda/hermes-agent-reasoning-traces**数据集。

</think> 标签内的逐步推理过程,还包括实际的工具执行结果(而非凭空编造的输出)。通过学习这些包含真实反馈和深思熟虑过程的智能体轨迹,Qwopus3.5-9B-coder 在面对复杂编程和系统操作任务时,能够展现出更接近人类专家的思考与操作模式。
本模型的训练整合了Trace Inversion数据增强技术与高质量Agent Trajectories数据的分阶段学习流程。其核心逻辑在于将商业模型高度压缩的“推理气泡”还原为可供学习的深度路径,并结合真实的智能体操作轨迹,全面提升模型的逻辑推理与代码执行能力。
[ 🗺️ Trace Inversion: Full Process of Data Inversion and "Attack" Distillation ]
A. Surrogate Model Training
Open Source Model (GLM-5.1 / DS-V4) ──► Complete Reasoning Chain ──► [ Qwen3-235B Compression ] ──► Reasoning Bubbles
│ │
└──────────► [ Training ] ◄─────────┘
(Base: Qwen3-4B-Instruct)
(Result: Trace-Inverter-4B)
B. Inversion Phase: "Attacking" Claude-4.7-Max
_______________________________________________________
| |
| Claude-4.7-Max API ──► Compressed Bubbles + Final Answer |
|_______________________________________________________|
│
▼
[ 🧠 Trace-Inverter-4B (Logical Reconstructor) ] ────► Synthetic CoT
│
▼
[ 🧩 Data Splicing ] ◄────────── (Original Prompt + Response)
(Embed the inverted chain of thought into ` 和 `</think>` 标签内。在部署到前端应用时,可能需要解析并隐藏这些标签。
---
## 📚 资源与指南
👉 **[GitHub 仓库:Jackrong-llm-finetuning-guide](https://github.com/R6410418/Jackrong-llm-finetuning-guide.git)**
访问该仓库,深入了解我们的微调代码库和相关指南。
---
## 🙏 致谢
特别感谢:
- Qwen 团队提供强大的 Qwen3.6 MoE 基础模型。
- Unsloth 提供高效的微调框架。
- 开源数据集及社区贡献者。
- **Kyle Hessling** 提供的慷慨硬件和设备支持。您可以在 X / Twitter 上关注他获取更多更新:[@KyleHessling1](https://x.com/KyleHessling1)。
---
## 📖 引用
```bibtex
@misc{jackrong_qwopus35_9b_coder,
title = {Qwopus3.5-9B-coder},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}