HuggingFace镜像/Qwopus3.5-9B-Coder-MTP-GGUF
模型介绍文件和版本分析
下载使用量0

🌟 Qwopus3.5-9B-Coder-MTP(多 token 预测)

💡 多 token 预测(MTP)架构概述

[!NOTE] 什么是 MTP(多 token 预测)?

MTP 是近年来大语言模型(LLM)训练与推理领域的一项革命性技术。与传统自回归模型在每一步仅预测单个 token(单 token 预测)不同,MTP 模型在训练时就被设计为在每个位置同时预测多个未来 token。

这种架构带来了两个核心维度的变革:

  1. 更深层次的表征与规划能力:它迫使模型在表征层面针对更长期的上下文进行全局规划(Long-Horizon Planning)。这增强了在复杂编码、多步骤数学推理等逻辑密集型任务中的认知连贯性,同时有效缓解了传统自回归模型中常见的“推理气泡”和重复循环问题。
  2. 极致的推理加速(投机解码):在推理阶段,模型配备了额外的轻量级辅助预测头(Draft Heads,本模型中配置为 draft=2)。在主干网络生成当前 token 的同时,Draft Heads 以可忽略的计算开销并行预测后续 2 个候选 token,随后由主模型通过单次前向传播进行验证。一旦验证通过,模型可以在单次推理步骤中输出多个 token,从而显著提升吞吐量。

🚀 性能简报:基础版 vs MTP(draft=2)

基于在逻辑 / 编码 / 运维 / 数学 / 边缘计算(5 个核心领域,30 道复杂评估题)的实际测试,Qwopus3.5-9B-Coder-MTP(draft=2) 在速度和正确性两方面均展现出绝对优势:

  • ⚡ 速度飞跃:总体吞吐率从 4.94 T/s 提升至 6.71 T/s(吞吐量提升 35.8%),总延迟节省 16.4 分钟(总体时间减少 25%)。
  • 🎯 准确性与稳健性:总体准确率从 80.0% 提升至 88.3%(+8.3 个百分点)。该模型在编码(准确率 100%) 和数学(准确率 100%) 这两个高难度任务场景中均获得满分,彻底消除了基础版模型中观察到的代码截断和重复行为(与模型类型无关)。
  • 📊 综合效率指数:在对正确性和推理时间进行加权后,MTP 模型的整体推理效率提升了 38.4%。

[!IMPORTANT] 评估配置和基准框架遵循 Unsloth 团队的官方 Qwen 系列测试,其研究表明设置 draft=2 可获得最佳性能。完整详情请参见官方 Unsloth MTP 基准测试。


⚙️ 测试环境与配置

为确保评估的严谨性、客观性和可复现性,本基准测试在统一的硬件平台和采样超参数下进行:

  • 🖥️ 计算平台:GB10 专用服务器平台(配备高性能 LLM 计算加速芯片,提供充足的并行计算能力)。
  • ⚙️ 并发配置:采用 Concurrency = 5 进行多线程并发压力与稳定性测试,精准模拟真实多用户并发调用场景。
  • 🛠️ 脚本版本:Benchlocal Test Suite v1.3.0 推理评估脚本。
  • 🧪 采样超参数:
    • Temperature:1.0(推荐标准值,平衡逻辑推理与创造力)。
    • Top-p:0.95(保留高概率候选,过滤尾部噪声,保障推理准确性)。

1. Token 量与速度统计

单题 Token 与速度详情
题目类别基础 T/s基础耗时基础 Token 数MTP T/sMTP 耗时MTP Token 数加速比
Q1逻辑4.2086.803656.1086.455271.00x
Q2逻辑4.40178.707865.80130.807591.37x
Q3逻辑4.30172.667436.8090.246141.91x
Q4逻辑4.20153.056437.9067.855362.25x
Q5逻辑4.20172.337246.7040.882744.22x
Q6编程4.40240.9610606.70160.3210741.50x
Q7编程4.30244.0710506.20173.2610741.41x
Q8编程4.30245.0510546.80158.9210811.54x
Q9编程4.30245.4610556.60162.9510751.51x
Q10编程4.40241.5910636.20173.4410751.39x
Q11编程4.20249.5510486.90156.0910771.60x
Q12编程4.20211.458886.50155.9810141.36x
Q13编程4.30248.0910676.50164.9110721.50x
Q14编程4.10156.126406.30119.727541.30x
Q15编程4.30144.476216.40165.9710620.87x
逻辑类(Q1-Q5)答案验证
问题ID问题概要正确答案基准版MTP
Q117只羊,除了9只都死了,还剩多少只9只羊通过通过
Q230美元酒店谜题:那1美元去哪了没有损失,是计算错误通过通过
Q3数列:2,6,12,20,30,?42(n×(n+1))通过通过
Q4球拍+球=1.10美元,球拍比球贵1美元0.05美元通过通过
Q5一个数乘以3,加上6,除以3,再减去原数结果总是2通过通过

[!TIP] 逻辑:基准版 5/5 = 100% | MTP 5/5 = 100%

编码类别(Q6-Q15)答案验证
问题ID问题摘要基础版MTP版说明
Q6Python斐波那契生成器部分正确通过基础版存在重复,代码截断导致逻辑问题
Q7Python线程安全单例模式部分正确通过基础版存在重复,实现不完整
Q8按第二列降序排序CSV部分正确通过基础版代码被截断
Q9Python HTTP服务器通过通过两者均完整实现
Q10Python执行时间装饰器通过通过两者均完整实现
Q11C++二叉搜索树通过通过两者均完整实现
Q12Bash备份脚本(带日期)通过通过两者均完整实现
Q13Python拓扑排序通过通过两者均完整实现
Q14Node.js Dockerfile通过通过两者均完整实现
Q15SQL第二高薪水通过通过两者均实现正确

[!TIP] 编码:基础版 7/10 = 70% | MTP版 10/10 = 100%

DevOps类别(Q16-Q20)答案验证
问题ID问题摘要基础版MTP版说明
Q16Nginx反向代理与负载均衡器部分正确部分正确两者配置框架正确,但响应内容被截断
Q17硬链接与软链接部分正确通过基础版存在重复,有重复行;MTP版完整
Q18crontab每周二凌晨3:15执行通过通过两者均正确:15 3 * * 2 script.sh
Q19SSH服务器安全配置部分正确部分正确两者内容均被截断
Q20systemd服务故障自动重启通过通过两者均解释正确

[!TIP] DevOps:基础版 2.5/5 = 50% | MTP版 3.5/5 = 70%

数学类别(Q21-Q25)答案验证
题目ID题目概要正确答案基准版MTP
Q21求函数f(x) = x³ * ln(x)的导数x² * (3ln(x) + 1)通过通过
Q22方程组:2x+y=5,x-y=1x = 2,y = 1通过通过
Q23掷两个骰子得到和为7的概率1/6 = 16.67%通过通过
Q24e^(2x)的积分(1/2)e^(2x)+C通过通过
Q25证明前n个奇数的和为n²数学归纳法/等差数列部分通过通过

[!TIP] 数学:基准版 4.5/5 = 90% | MTP 5/5 = 100%

边缘场景类别(Q26-Q30)答案验证
题目ID题目概要基准版MTP说明
Q26输出"Apple"5次通过通过两者均正确输出5行
Q27输出一个短语3次通过通过两者均正确
Q28解释"无穷大"(含禁用词约束)通过部分通过MTP存在重复内容,响应被截断
Q29生成5层嵌套JSON通过部分通过MTP最后一项不完整,基准版生成了6层
Q30输入30个'A',回复'B B B'通过通过两者均正确

[!TIP] 边缘场景:基准版 5/5 = 100% | MTP 3/5 = 60%


总体准确率摘要
类别题目数量基准版正确数基准版准确率MTP正确数MTP准确率
逻辑55100%5100%
编码10770%10100%
DevOps52.550%3.570%
数学54.590%5100%
边缘场景55100%360%
总计302480.0%26.588.3%

推理效率对比
效率指标基础模型MTP 模型MTP 优势
整体吞吐量(T/s)4.946.71+35.8%
整体准确率80.0%88.3%+8.3pp
总延迟81.3 分钟64.9 分钟节省 16.4 分钟
推理效率指数(准确率/延迟)1.64e-42.27e-4+38.4%
每千 tokens 正确答案数0.995 Q/kT1.014 Q/kT+1.9%

质量问题统计
质量问题基础模型数量MTP 模型数量
重复(重复输出标记)2 次(Q6、Q17)2 次(Q6、Q28)
超时0 次0 次
响应不完整/截断约 8 次约 4 次
推理链过长较少较多

8. 最终结论

MTP模型的优势领域

  • 速度:整体速度提升35.8%,在数学和边缘任务中表现尤为突出。
  • 编码:代码输出完成率达100%,而Base模型因重复问题出现3次截断。
  • 数学:准确率100%,推理链更具系统性。
  • 效率:整体推理效率指数提高38.4%。

MTP模型的改进方向

  • 边缘任务稳定性:Q28/Q29出现截断,原因是过长的推理链达到了 token 限制。
  • DevOps长文本:对于长篇解释性回复,草稿匹配率较低,导致提速效果有限。
推荐使用场景
场景推荐模型
代码生成MTP
数学推理MTP
逻辑推理两者均可
短文本指令(边缘任务)Base更稳定
DevOps长文档均需更大max_tokens

🌟 Qwopus3.5-9B-coder

🚀 模型微调与逻辑对齐(Qwopus3.5-9B-coder)

本模型以Qwopus3.5-9B-v3.5为基础模型,该基础模型已具备强大的能力。在此之上,Qwopus3.5-9B-coder针对高性能🤖 智能体编码(Agentic Coding)、复杂工具调用(Tool Calling)及逻辑推理进行了专门优化与微调。

💡 为何选择9B密集型模型? 我们认为9B密集型架构是大型语言模型的理想**“平衡点”**。它能在入门级16GB内存设备(如标准笔记本电脑和Mac mini)上以8位精度流畅运行,兼具极致轻量化与高度通用性。无需昂贵硬件,即可实现卓越性能与出色推理速度。简而言之,Qwen3.5-9B是当前同类中最佳的开源模型。

image

[!TIP] 视觉与工具调用支持:本模型支持视觉功能与工具调用。若要启用视觉功能,请将GGUF仓库中的mmproj.gguf文件放置到主.gguf文件所在目录。


🛠 训练策略

本模型的微调过程深度融合了轨迹反转(Trace Inversion) 数据增强技术与高质量智能体轨迹(Agent Traces)。这种系统化方法不仅增强了模型解决复杂编程任务的能力,还大幅提升了其在使用各类工具时的逻辑连贯性与准确性。

本模型专为达成以下目标而设计:

  • 🧩 更具结构化、更强的逻辑推理能力,减少重复思考
  • 💻 更强大的代码编写、调试及仓库级任务处理能力
  • 🛠 更稳定、准确的工具调用能力,适用于终端命令、文件操作与浏览器
  • 🔁 更好的跨数据源蒸馏对齐效果

[!WARNING]

  • 社区版本发布说明:Qwopus3.5-9B-coder纯粹作为实验性社区版本发布,旨在探索智能体(Agent)能力与深度推理的结合,仅用于研究与探索用途。
  • 注意事项:由于本模型针对编程智能体与深度推理进行垂直微调,且未经过全面的通用性能评估,其在通用领域或特定非编程任务中的能力可能会出现能力衰减(Capability Decay)。建议用户在探索其核心能力的同时,注意其在其他场景下的局限性。

📊 基准性能对比

为验证Qwopus3.5-9B-coder在实际智能体场景中的执行效率与逻辑稳健性,我们采用了开源测试框架benchlocal。

测试配置

  • 硬件环境:Apple Silicon(Mac)
  • 推理后端:LM Studio / MLX / GGUF
  • 测试平台:benchlocal——专注于本地模型智能体能力的评估套件。
  • 🍎 您可以查看不同模型格式在同一设备上的实际推理速度。

🧪 基准测试结果

1. 复杂智能体性能 - HermesAgent-20
以下是在HermesAgent-20任务集下的对比性能:
HermesAgent-20性能指标
模型测试集综合得分核心维度(M/O/S/S/B)
Qwopus3.5-9B-coderHermesAgent-208584 / 93 / 88 / 75 / 84
Qwen/Qwen3.5-9BHermesAgent-207175 / 58 / 100 / 53 / 69
armand0e/Qwen3.5-9B-AgentHermesAgent-206871 / 83 / 43 / 61 / 80
DJLougen/Harmonic-Hermes-9BHermesAgent-204760 / 45 / 23 / 69 / 38
2. 工具调用稳定性 - ToolCall-15
这是针对工具调用稳定性的ToolCall-15测试集,旨在测试模型在工具调用方面的稳定性:
ToolCall-15稳定性指标
模型测试集综合得分维度得分(A/B/C/D/E)
Qwopus3.5-9B-coderToolCall-15100100 / 100 / 100 / 100 / 100
Qwen/Qwen3.5-9BToolCall-15100100 / 100 / 100 / 100 / 100
armand0e/Qwen3.5-9B-AgentToolCall-1593100 / 100 / 100 / 67 / 100
3. 代码调试与漏洞修复 - BugFind-15
BugFind-15是一个包含15个由浅入深场景的测试集,旨在通过确定性环境运行时验证,评估模型在多种编程语言中发现并修复语法错误、逻辑错误及“陷阱”代码的实际调试能力。
BugFind-15性能指标
模型测试集综合得分维度得分(A/B/C/D/E)
Qwopus3.5-9B-coderBugFind-157967 / 87 / 100 / 77 / 43
Jackrong/MLX-Qwen3.5-9B-DeepSeek-V4-FlashBugFind-157567 / 100 / 67 / 57 / 80
armand0e/Qwen3.5-9B-AgentBugFind-155829 / 87 / 73 / 20 / 67

🪐 SWE-bench 验证性能(仓库级编码能力)

以下展示了在 SWE-bench Verified 上的对比性能,该基准评估语言模型在解决真实世界开源仓库中软件工程问题的能力:

SWE-bench 验证性能指标
模型测试集综合得分 (%)
Claude 4.5 OpusSWE-bench Verified80.9
Qwen/Qwen3.5-27BSWE-bench Verified75.0
Qwen/Qwen3.6-35B-A3BSWE-bench Verified73.4
Qwopus3.5-9B-coderSWE-bench Verified53.89
google/gemma-4-31B-itSWE-bench Verified52.0
google/gemma-4-26B-A4BSWE-bench Verified45.0 - 48.0

[!IMPORTANT]

  • ⚙️ 所有测试均按照 qwen3.5 官方推荐的 temperature=1 进行。测试失败后,会尝试重新生成两次以排查错误和模型问题。若两次尝试均失败,则判定为任务失败。
  • 🍎 所有测试界面截图已上传至仓库的 image 文件夹。点击下方链接查看验证:
  • 🔗 查看测试截图
  • ❤️ 特别感谢 Kyle Hessling 提供的硬件设备支持。可在 X / Twitter 关注他获取更多更新:@KyleHessling1。

🧪 核心数据集应用:追踪反演与高质量智能体轨迹

为突破模型在实际编程与工具使用中的“推理泡沫”局限,赋予其真正的智能体行为能力,本模型在训练过程中引入了核心增强数据集:

1. 结合追踪反演的推理合成数据

当前,基于公开信息,OpenAI 的 GPT 系列、Anthropic 的 Claude 系列等商业模型已非常明确地隐藏了其模型真实的内部推理链。对于这些模型,我们在 API 或前端界面中最终能看到的,往往只能视为高度压缩的“推理泡沫”。

为突破这一局限,我们采用了追踪反演技术。该技术利用外部“代理模型”,基于商业模型公开的“问题 + 最终答案 + 压缩推理摘要”,重建出完整且逻辑连贯的深度推理链。将原本仅由几句话和逻辑跳跃构成的“推理泡沫”,扩展为具备完整推导、计算和逻辑验证的高质量深度学习轨迹,为模型提供了逐步的逻辑学习信号。

a_high_resolution_infographic_slide_style_figure

2. GLM-5.1 智能体真实轨迹数据:lambda/hermes-agent-reasoning-traces

为显著增强模型在真实环境下的执行与编码能力,本模型额外引入了**lambda/hermes-agent-reasoning-traces**数据集。

Screenshot 2026-05-16 at 5.34.59 PM

  • 数据来源与规模:该数据子集包含约 10,000 条基于智谱 AI GLM-5.1 和 kimi-4.6 模型生成的高质量多轮工具调用轨迹。
  • 真实智能体行为:与传统合成数据不同,这些样本代表真实的智能体对话。每个样本不仅包含 </think> 标签内的逐步推理过程,还包括实际的工具执行结果(而非凭空编造的输出)。
  • 广泛领域覆盖:
    • 终端与编码:脚本编写、代码调试、环境配置及数据处理。
    • 仓库任务:涉及真实代码仓库工作,如漏洞修复、重构和代码审查。
    • 浏览器自动化:网页导航、数据抓取和表单填写。
    • 智能体工具:记忆持久化、任务委派、技能管理等。

通过学习这些包含真实反馈和深思熟虑过程的智能体轨迹,Qwopus3.5-9B-coder 在面对复杂编程和系统操作任务时,能够展现出更接近人类专家的思考与操作模式。


🗺️ 训练流程概述

本模型的训练整合了Trace Inversion数据增强技术与高质量Agent Trajectories数据的分阶段学习流程。其核心逻辑在于将商业模型高度压缩的“推理气泡”还原为可供学习的深度路径,并结合真实的智能体操作轨迹,全面提升模型的逻辑推理与代码执行能力。

       [ 🗺️ Trace Inversion: Full Process of Data Inversion and "Attack" Distillation ]

  A. Surrogate Model Training
     Open Source Model (GLM-5.1 / DS-V4) ──► Complete Reasoning Chain ──► [ Qwen3-235B Compression ] ──► Reasoning Bubbles
                                       │                                   │
                                       └──────────► [ Training ] ◄─────────┘
                                            (Base: Qwen3-4B-Instruct)
                                            (Result: Trace-Inverter-4B)

  B. Inversion Phase: "Attacking" Claude-4.7-Max
     _______________________________________________________
    |                                                       |
    |  Claude-4.7-Max API ──► Compressed Bubbles + Final Answer |
    |_______________________________________________________|
                      │
                      ▼
    [ 🧠 Trace-Inverter-4B (Logical Reconstructor) ] ────► Synthetic CoT
                      │
                      ▼
    [ 🧩 Data Splicing ] ◄────────── (Original Prompt + Response)
    (Embed the inverted chain of thought into ` 和 `</think>` 标签内。在部署到前端应用时,可能需要解析并隐藏这些标签。

---

## 📚 资源与指南
👉 **[GitHub 仓库:Jackrong-llm-finetuning-guide](https://github.com/R6410418/Jackrong-llm-finetuning-guide.git)**
访问该仓库,深入了解我们的微调代码库和相关指南。

---
## 🙏 致谢
特别感谢:

- Qwen 团队提供强大的 Qwen3.6 MoE 基础模型。
- Unsloth 提供高效的微调框架。
- 开源数据集及社区贡献者。
- **Kyle Hessling** 提供的慷慨硬件和设备支持。您可以在 X / Twitter 上关注他获取更多更新:[@KyleHessling1](https://x.com/KyleHessling1)。

---
## 📖 引用

```bibtex
@misc{jackrong_qwopus35_9b_coder,
  title        = {Qwopus3.5-9B-coder},
  author       = {Jackrong},
  year         = {2026},
  publisher    = {Hugging Face}
}