本模型以Qwopus3.5-9B-v3.5为基础模型,该基础模型已具备强大能力。在此之上,Qwopus3.5-9B-coder针对高性能🤖 智能体编程(Agentic Coding)、复杂工具调用(Tool Calling)及逻辑推理进行了专项优化与微调。
💡 为何选择9B密集型模型? 我们认为9B密集型架构是大型语言模型的理想**“黄金平衡点”**。它能在入门级16GB内存设备(如标准笔记本电脑和Mac mini)上以8位精度流畅运行,实现了极致轻量化与高度多功能性的统一。无需昂贵硬件,即可获得出色性能与令人印象深刻的推理速度。简而言之,Qwen3.5-9B是当前同类中最佳的开源模型。

[!TIP] 视觉与工具调用支持:本模型支持视觉能力和工具调用。若要启用视觉功能,请将GGUF仓库中的
mmproj.gguf文件放置到主.gguf文件所在的同一目录。
本模型的微调过程深度融合了轨迹反转(Trace Inversion) 数据增强技术与高质量智能体轨迹(Agent Traces)。这种系统化方法不仅强化了模型解决复杂编程任务的能力,还显著提升了其在使用各类工具时的逻辑连贯性与准确性。
本模型专为达成以下目标而设计:
[!WARNING]
- 社区版本发布说明:Qwopus3.5-9B-coder纯粹作为实验性社区版本发布,旨在探索智能体(Agent)能力与深度推理的结合,仅用于研究与探索用途。
- 警告:由于本模型针对编程智能体和深度推理进行了垂直微调,且未经过全面的通用性能评估,其在通用领域或特定非编程任务上的能力可能会出现能力衰减(Capability Decay)。建议用户在探索其核心能力的同时,注意其在其他场景下的局限性。
为验证Qwopus3.5-9B-coder在实际智能体场景中的执行效率与逻辑稳健性,我们采用了开源测试框架benchlocal。
| HermesAgent-20性能指标 | |||
| 模型 | 测试集 | 综合得分 | 核心维度(M/O/S/S/B) |
|---|---|---|---|
| Qwopus3.5-9B-coder | HermesAgent-20 | 85 | 84 / 93 / 88 / 75 / 84 |
| Qwen/Qwen3.5-9B | HermesAgent-20 | 71 | 75 / 58 / 100 / 53 / 69 |
| armand0e/Qwen3.5-9B-Agent | HermesAgent-20 | 68 | 71 / 83 / 43 / 61 / 80 |
| DJLougen/Harmonic-Hermes-9B | HermesAgent-20 | 47 | 60 / 45 / 23 / 69 / 38 |
| ToolCall-15稳定性指标 | |||
| 模型 | 测试集 | 综合得分 | 维度得分(A/B/C/D/E) |
|---|---|---|---|
| Qwopus3.5-9B-coder | ToolCall-15 | 100 | 100 / 100 / 100 / 100 / 100 |
| Qwen/Qwen3.5-9B | ToolCall-15 | 100 | 100 / 100 / 100 / 100 / 100 |
| armand0e/Qwen3.5-9B-Agent | ToolCall-15 | 93 | 100 / 100 / 100 / 67 / 100 |
| BugFind-15性能指标 | |||
| 模型 | 测试集 | 综合得分 | 维度得分(A/B/C/D/E) |
|---|---|---|---|
| Qwopus3.5-9B-coder | BugFind-15 | 79 | 67 / 87 / 100 / 77 / 43 |
| Jackrong/MLX-Qwen3.5-9B-DeepSeek-V4-Flash | BugFind-15 | 75 | 67 / 100 / 67 / 57 / 80 |
| armand0e/Qwen3.5-9B-Agent | BugFind-15 | 58 | 29 / 87 / 73 / 20 / 67 |
以下展示了在 SWE-bench Verified 上的对比性能,该基准评估语言模型在解决现实世界开源仓库中软件工程问题的能力:
| SWE-bench 验证性能指标 | ||
| 模型 | 测试集 | 综合得分(%) |
|---|---|---|
| Claude 4.5 Opus | SWE-bench Verified | 80.9 |
| Qwen/Qwen3.5-27B | SWE-bench Verified | 75.0 |
| Qwen/Qwen3.6-35B-A3B | SWE-bench Verified | 73.4 |
| Qwopus3.5-9B-coder | SWE-bench Verified | 53.89 |
| google/gemma-4-31B-it | SWE-bench Verified | 52.0 |
| google/gemma-4-26B-A4B | SWE-bench Verified | 45.0 - 48.0 |
[!IMPORTANT]
- ⚙️ 所有测试均按照 qwen3.5 官方推荐设置 temperature=1 进行。测试失败后,会尝试重新生成两次以排查错误和模型问题。若两次尝试均失败,则判定为测试失败。
- 🍎 所有测试界面截图已上传至仓库的 image 文件夹。点击下方链接查看并验证:
- 🔗 查看测试截图
- ❤️ 感谢 Kyle Hessling 提供的硬件设备支持。你可以在 X / Twitter 上关注他获取更多更新:@KyleHessling1。
为了突破模型在实际编程和工具使用中的“推理泡沫”局限,并赋予其真正的智能体行为能力,本模型在训练过程中引入了核心增强数据集:
目前,根据公开信息,OpenAI 的 GPT 系列、Anthropic 的 Claude 系列等商业模型均非常明确地隐藏了其模型真实的内部推理链。对于这些模型,我们在 API 或前端界面最终能够看到的,往往只能被视为高度压缩的“推理泡沫”。
为突破这一局限,我们采用了轨迹反演技术。该技术利用外部“代理模型”,基于商业模型公开的“问题 + 最终答案 + 压缩推理摘要”,重构出完整且逻辑连贯的深度推理链。将原本仅有寥寥数句、存在逻辑跳跃的“推理泡沫”,扩展为包含完整推导、计算和逻辑验证的高质量深度学习轨迹,为模型提供了逐步骤的逻辑学习信号。

为显著增强模型在真实环境下的执行与编码能力,本模型额外引入了**lambda/hermes-agent-reasoning-traces**数据集。

</think> 标签内的逐步推理过程,还包括实际的工具执行结果(而非凭空捏造的输出)。通过学习这些包含真实反馈和深思熟虑过程的智能体轨迹,Qwopus3.5-9B-Coder 在面对复杂编程和系统操作任务时,能够展现出更接近人类专家的思维与操作模式。
本模型的训练融合了Trace Inversion数据增强技术与高质量Agent Trajectories数据的分阶段学习流程。其核心逻辑在于将商业模型高度压缩的“推理气泡”还原为可供学习的深度路径,并结合真实的智能体操作轨迹,全面提升模型的逻辑推理与代码执行能力。
[ 🗺️ Trace Inversion: Full Process of Data Inversion and "Attack" Distillation ]
A. Surrogate Model Training
Open Source Model (GLM-5.1 / DS-V4) ──► Complete Reasoning Chain ──► [ Qwen3-235B Compression ] ──► Reasoning Bubbles
│ │
└──────────► [ Training ] ◄─────────┘
(Base: Qwen3-4B-Instruct)
(Result: Trace-Inverter-4B)
B. Inversion Phase: "Attacking" Claude-4.7-Max
_______________________________________________________
| |
| Claude-4.7-Max API ──► Compressed Bubbles + Final Answer |
|_______________________________________________________|
│
▼
[ 🧠 Trace-Inverter-4B (Logical Reconstructor) ] ────► Synthetic CoT
│
▼
[ 🧩 Data Splicing ] ◄────────── (Original Prompt + Response)
(Embed the inverted chain of thought into