Qwopus3.5-9B-Coder-GGUF:用户可利用该项目进行高性能Agentic编码、复杂工具调用及逻辑推理任务。它基于Qwopus3.5-9B-v3.5优化，支持视觉与工具调用，采用Trace Inversion技术增强推理，在16GB设备即可高效运行。【此简介由AI生成】 - AtomGit AI社区

🌟 Qwopus3.5-9B-coder

🚀 模型微调与逻辑对齐（Qwopus3.5-9B-coder）

本模型以Qwopus3.5-9B-v3.5为基础模型，该基础模型已具备强大能力。在此之上，Qwopus3.5-9B-coder针对高性能🤖 智能体编程（Agentic Coding）、复杂工具调用（Tool Calling）及逻辑推理进行了专项优化与微调。

💡 为何选择9B密集型模型？ 我们认为9B密集型架构是大型语言模型的理想**“黄金平衡点”**。它能在入门级16GB内存设备（如标准笔记本电脑和Mac mini）上以8位精度流畅运行，实现了极致轻量化与高度多功能性的统一。无需昂贵硬件，即可获得出色性能与令人印象深刻的推理速度。简而言之，Qwen3.5-9B是当前同类中最佳的开源模型。

[!TIP] 视觉与工具调用支持：本模型支持视觉能力和工具调用。若要启用视觉功能，请将GGUF仓库中的mmproj.gguf文件放置到主.gguf文件所在的同一目录。

🛠 训练策略

本模型的微调过程深度融合了轨迹反转（Trace Inversion） 数据增强技术与高质量智能体轨迹（Agent Traces）。这种系统化方法不仅强化了模型解决复杂编程任务的能力，还显著提升了其在使用各类工具时的逻辑连贯性与准确性。

本模型专为达成以下目标而设计：

🧩 更具结构化、更强的逻辑推理能力，减少重复思考
💻 更强大的代码编写、调试及仓库级任务处理能力
🛠 更稳定、准确的工具调用能力，适用于终端命令、文件操作和浏览器
🔁 更好的跨数据源蒸馏对齐效果

[!WARNING]

社区版本发布说明：Qwopus3.5-9B-coder纯粹作为实验性社区版本发布，旨在探索智能体（Agent）能力与深度推理的结合，仅用于研究与探索用途。

警告：由于本模型针对编程智能体和深度推理进行了垂直微调，且未经过全面的通用性能评估，其在通用领域或特定非编程任务上的能力可能会出现能力衰减（Capability Decay）。建议用户在探索其核心能力的同时，注意其在其他场景下的局限性。

📊 基准性能对比

为验证Qwopus3.5-9B-coder在实际智能体场景中的执行效率与逻辑稳健性，我们采用了开源测试框架benchlocal。

测试配置

硬件环境：Apple Silicon（Mac）
推理后端：LM Studio / MLX / GGUF
测试平台：benchlocal——专注于本地模型智能体能力的评估套件。
🍎 您可以查看不同模型格式在同一设备上的实际推理速度。

🧪 基准测试结果

1. 复杂智能体性能 - HermesAgent-20

以下是在HermesAgent-20任务集下的对比性能：

模型	测试集	综合得分	核心维度（M/O/S/S/B）
HermesAgent-20性能指标
Qwopus3.5-9B-coder	HermesAgent-20	85	84 / 93 / 88 / 75 / 84
Qwen/Qwen3.5-9B	HermesAgent-20	71	75 / 58 / 100 / 53 / 69
armand0e/Qwen3.5-9B-Agent	HermesAgent-20	68	71 / 83 / 43 / 61 / 80
DJLougen/Harmonic-Hermes-9B	HermesAgent-20	47	60 / 45 / 23 / 69 / 38

2. 工具调用稳定性 - ToolCall-15

这是针对工具调用稳定性的ToolCall-15测试集，旨在测试模型在工具调用方面的稳定性：

模型	测试集	综合得分	维度得分（A/B/C/D/E）
ToolCall-15稳定性指标
Qwopus3.5-9B-coder	ToolCall-15	100	100 / 100 / 100 / 100 / 100
Qwen/Qwen3.5-9B	ToolCall-15	100	100 / 100 / 100 / 100 / 100
armand0e/Qwen3.5-9B-Agent	ToolCall-15	93	100 / 100 / 100 / 67 / 100

3. 代码调试与漏洞修复 - BugFind-15

BugFind-15是包含15个由浅入深场景的测试集，旨在通过确定性环境运行时验证，评估模型在多种编程语言中发现并修复语法错误、逻辑错误及“陷阱”代码的真实调试能力。

模型	测试集	综合得分	维度得分（A/B/C/D/E）
BugFind-15性能指标
Qwopus3.5-9B-coder	BugFind-15	79	67 / 87 / 100 / 77 / 43
Jackrong/MLX-Qwen3.5-9B-DeepSeek-V4-Flash	BugFind-15	75	67 / 100 / 67 / 57 / 80
armand0e/Qwen3.5-9B-Agent	BugFind-15	58	29 / 87 / 73 / 20 / 67

🪐 SWE-bench 验证性能（仓库级编码能力）

以下展示了在 SWE-bench Verified 上的对比性能，该基准评估语言模型在解决现实世界开源仓库中软件工程问题的能力：

模型	测试集	综合得分（%）
SWE-bench 验证性能指标
Claude 4.5 Opus	SWE-bench Verified	80.9
Qwen/Qwen3.5-27B	SWE-bench Verified	75.0
Qwen/Qwen3.6-35B-A3B	SWE-bench Verified	73.4
Qwopus3.5-9B-coder	SWE-bench Verified	53.89
google/gemma-4-31B-it	SWE-bench Verified	52.0
google/gemma-4-26B-A4B	SWE-bench Verified	45.0 - 48.0

[!IMPORTANT]

⚙️ 所有测试均按照 qwen3.5 官方推荐设置 temperature=1 进行。测试失败后，会尝试重新生成两次以排查错误和模型问题。若两次尝试均失败，则判定为测试失败。

🍎 所有测试界面截图已上传至仓库的 image 文件夹。点击下方链接查看并验证：

🔗 查看测试截图

❤️ 感谢 Kyle Hessling 提供的硬件设备支持。你可以在 X / Twitter 上关注他获取更多更新：@KyleHessling1。

🧪 核心数据集应用：轨迹反演与高质量智能体轨迹

为了突破模型在实际编程和工具使用中的“推理泡沫”局限，并赋予其真正的智能体行为能力，本模型在训练过程中引入了核心增强数据集：

1. 结合轨迹反演的推理合成数据

目前，根据公开信息，OpenAI 的 GPT 系列、Anthropic 的 Claude 系列等商业模型均非常明确地隐藏了其模型真实的内部推理链。对于这些模型，我们在 API 或前端界面最终能够看到的，往往只能被视为高度压缩的“推理泡沫”。

为突破这一局限，我们采用了轨迹反演技术。该技术利用外部“代理模型”，基于商业模型公开的“问题 + 最终答案 + 压缩推理摘要”，重构出完整且逻辑连贯的深度推理链。将原本仅有寥寥数句、存在逻辑跳跃的“推理泡沫”，扩展为包含完整推导、计算和逻辑验证的高质量深度学习轨迹，为模型提供了逐步骤的逻辑学习信号。

a_high_resolution_infographic_slide_style_figure

2. GLM-5.1 智能体真实轨迹数据：lambda/hermes-agent-reasoning-traces

为显著增强模型在真实环境下的执行与编码能力，本模型额外引入了**lambda/hermes-agent-reasoning-traces**数据集。

Screenshot 2026-05-16 at 5.34.59 PM

数据来源与规模：该数据子集包含基于智谱 AI GLM-5.1 和 kimi-4.6 模型生成的约 10,000 条高质量多轮工具调用轨迹。
真实智能体行为：与传统合成数据不同，这些样本代表了真实的智能体对话。每个样本不仅包含 </think> 标签内的逐步推理过程，还包括实际的工具执行结果（而非凭空捏造的输出）。
广泛领域覆盖：
- 终端与编码：脚本编写、代码调试、环境配置及数据处理。
- 代码库任务：涉及真实代码库工作，如漏洞修复、重构和代码审查。
- 浏览器自动化：网页导航、数据抓取和表单填写。
- 智能体工具：记忆持久化、任务委派、技能管理等。

通过学习这些包含真实反馈和深思熟虑过程的智能体轨迹，Qwopus3.5-9B-Coder 在面对复杂编程和系统操作任务时，能够展现出更接近人类专家的思维与操作模式。

🗺️ 训练流程概述

本模型的训练融合了Trace Inversion数据增强技术与高质量Agent Trajectories数据的分阶段学习流程。其核心逻辑在于将商业模型高度压缩的“推理气泡”还原为可供学习的深度路径，并结合真实的智能体操作轨迹，全面提升模型的逻辑推理与代码执行能力。

       [ 🗺️ Trace Inversion: Full Process of Data Inversion and "Attack" Distillation ]

  A. Surrogate Model Training
     Open Source Model (GLM-5.1 / DS-V4) ──► Complete Reasoning Chain ──► [ Qwen3-235B Compression ] ──► Reasoning Bubbles
                                       │                                   │
                                       └──────────► [ Training ] ◄─────────┘
                                            (Base: Qwen3-4B-Instruct)
                                            (Result: Trace-Inverter-4B)

  B. Inversion Phase: "Attacking" Claude-4.7-Max
     _______________________________________________________
    |                                                       |
    |  Claude-4.7-Max API ──► Compressed Bubbles + Final Answer |
    |_______________________________________________________|
                      │
                      ▼
    [ 🧠 Trace-Inverter-4B (Logical Reconstructor) ] ────► Synthetic CoT
                      │
                      ▼
    [ 🧩 Data Splicing ] ◄────────── (Original Prompt + Response)
    (Embed the inverted chain of thought into