HuggingFace镜像/Qwopus3.5-9B-Coder-MTP-GGUF

🌟 Qwopus3.5-9B-Coder-MTP（多 token 预测）

💡 多 token 预测（MTP）架构概述

[!NOTE] 什么是 MTP（多 token 预测）？

MTP 是近年来大语言模型（LLM）训练与推理领域的一项革命性技术。与传统自回归模型在每一步仅预测单个 token（单 token 预测）不同，MTP 模型在训练时就被设计为在每个位置同时预测多个未来 token。

这种架构带来了两个核心维度的变革：

更深层次的表征与规划能力：它迫使模型在表征层面针对更长期的上下文进行全局规划（Long-Horizon Planning）。这增强了在复杂编码、多步骤数学推理等逻辑密集型任务中的认知连贯性，同时有效缓解了传统自回归模型中常见的“推理气泡”和重复循环问题。

极致的推理加速（投机解码）：在推理阶段，模型配备了额外的轻量级辅助预测头（Draft Heads，本模型中配置为 draft=2）。在主干网络生成当前 token 的同时，Draft Heads 以可忽略的计算开销并行预测后续 2 个候选 token，随后由主模型通过单次前向传播进行验证。一旦验证通过，模型可以在单次推理步骤中输出多个 token，从而显著提升吞吐量。

🚀 性能简报：基础版 vs MTP（draft=2）

基于在逻辑 / 编码 / 运维 / 数学 / 边缘计算（5 个核心领域，30 道复杂评估题）的实际测试，Qwopus3.5-9B-Coder-MTP（draft=2） 在速度和正确性两方面均展现出绝对优势：

⚡ 速度飞跃：总体吞吐率从 4.94 T/s 提升至 6.71 T/s（吞吐量提升 35.8%），总延迟节省 16.4 分钟（总体时间减少 25%）。
🎯 准确性与稳健性：总体准确率从 80.0% 提升至 88.3%（+8.3 个百分点）。该模型在编码（准确率 100%） 和数学（准确率 100%） 这两个高难度任务场景中均获得满分，彻底消除了基础版模型中观察到的代码截断和重复行为（与模型类型无关）。
📊 综合效率指数：在对正确性和推理时间进行加权后，MTP 模型的整体推理效率提升了 38.4%。

[!IMPORTANT] 评估配置和基准框架遵循 Unsloth 团队的官方 Qwen 系列测试，其研究表明设置 draft=2 可获得最佳性能。完整详情请参见官方 Unsloth MTP 基准测试。

⚙️ 测试环境与配置

为确保评估的严谨性、客观性和可复现性，本基准测试在统一的硬件平台和采样超参数下进行：

🖥️ 计算平台：GB10 专用服务器平台（配备高性能 LLM 计算加速芯片，提供充足的并行计算能力）。
⚙️ 并发配置：采用 Concurrency = 5 进行多线程并发压力与稳定性测试，精准模拟真实多用户并发调用场景。
🛠️ 脚本版本：Benchlocal Test Suite v1.3.0 推理评估脚本。
🧪 采样超参数：
- Temperature：1.0（推荐标准值，平衡逻辑推理与创造力）。
- Top-p：0.95（保留高概率候选，过滤尾部噪声，保障推理准确性）。

1. Token 量与速度统计

题目	类别	基础 T/s	基础耗时	基础 Token 数	MTP T/s	MTP 耗时	MTP Token 数	加速比
单题 Token 与速度详情
Q1	逻辑	4.20	86.80	365	6.10	86.45	527	1.00x
Q2	逻辑	4.40	178.70	786	5.80	130.80	759	1.37x
Q3	逻辑	4.30	172.66	743	6.80	90.24	614	1.91x
Q4	逻辑	4.20	153.05	643	7.90	67.85	536	2.25x
Q5	逻辑	4.20	172.33	724	6.70	40.88	274	4.22x
Q6	编程	4.40	240.96	1060	6.70	160.32	1074	1.50x
Q7	编程	4.30	244.07	1050	6.20	173.26	1074	1.41x
Q8	编程	4.30	245.05	1054	6.80	158.92	1081	1.54x
Q9	编程	4.30	245.46	1055	6.60	162.95	1075	1.51x
Q10	编程	4.40	241.59	1063	6.20	173.44	1075	1.39x
Q11	编程	4.20	249.55	1048	6.90	156.09	1077	1.60x
Q12	编程	4.20	211.45	888	6.50	155.98	1014	1.36x
Q13	编程	4.30	248.09	1067	6.50	164.91	1072	1.50x
Q14	编程	4.10	156.12	640	6.30	119.72	754	1.30x
Q15	编程	4.30	144.47	621	6.40	165.97	1062	0.87x

问题ID	问题概要	正确答案	基准版	MTP
逻辑类（Q1-Q5）答案验证
Q1	17只羊，除了9只都死了，还剩多少只	9只羊	通过	通过
Q2	30美元酒店谜题：那1美元去哪了	没有损失，是计算错误	通过	通过
Q3	数列：2，6，12，20，30，？	42（n×(n+1)）	通过	通过
Q4	球拍+球=1.10美元，球拍比球贵1美元	0.05美元	通过	通过
Q5	一个数乘以3，加上6，除以3，再减去原数	结果总是2	通过	通过

[!TIP] 逻辑：基准版 5/5 = 100% | MTP 5/5 = 100%

问题ID	问题摘要	基础版	MTP版	说明
编码类别（Q6-Q15）答案验证
Q6	Python斐波那契生成器	部分正确	通过	基础版存在重复，代码截断导致逻辑问题
Q7	Python线程安全单例模式	部分正确	通过	基础版存在重复，实现不完整
Q8	按第二列降序排序CSV	部分正确	通过	基础版代码被截断
Q9	Python HTTP服务器	通过	通过	两者均完整实现
Q10	Python执行时间装饰器	通过	通过	两者均完整实现
Q11	C++二叉搜索树	通过	通过	两者均完整实现
Q12	Bash备份脚本（带日期）	通过	通过	两者均完整实现
Q13	Python拓扑排序	通过	通过	两者均完整实现
Q14	Node.js Dockerfile	通过	通过	两者均完整实现
Q15	SQL第二高薪水	通过	通过	两者均实现正确

[!TIP] 编码：基础版 7/10 = 70% | MTP版 10/10 = 100%

问题ID	问题摘要	基础版	MTP版	说明
DevOps类别（Q16-Q20）答案验证
Q16	Nginx反向代理与负载均衡器	部分正确	部分正确	两者配置框架正确，但响应内容被截断
Q17	硬链接与软链接	部分正确	通过	基础版存在重复，有重复行；MTP版完整
Q18	crontab每周二凌晨3:15执行	通过	通过	两者均正确：15 3 * * 2 script.sh
Q19	SSH服务器安全配置	部分正确	部分正确	两者内容均被截断
Q20	systemd服务故障自动重启	通过	通过	两者均解释正确

[!TIP] DevOps：基础版 2.5/5 = 50% | MTP版 3.5/5 = 70%

题目ID	题目概要	正确答案	基准版	MTP
数学类别（Q21-Q25）答案验证
Q21	求函数f(x) = x³ * ln(x)的导数	x² * (3ln(x) + 1)	通过	通过
Q22	方程组：2x+y=5，x-y=1	x = 2，y = 1	通过	通过
Q23	掷两个骰子得到和为7的概率	1/6 = 16.67%	通过	通过
Q24	e^(2x)的积分	(1/2)e^(2x)+C	通过	通过
Q25	证明前n个奇数的和为n²	数学归纳法/等差数列	部分通过	通过

[!TIP] 数学：基准版 4.5/5 = 90% | MTP 5/5 = 100%

题目ID	题目概要	基准版	MTP	说明
边缘场景类别（Q26-Q30）答案验证
Q26	输出"Apple"5次	通过	通过	两者均正确输出5行
Q27	输出一个短语3次	通过	通过	两者均正确
Q28	解释"无穷大"（含禁用词约束）	通过	部分通过	MTP存在重复内容，响应被截断
Q29	生成5层嵌套JSON	通过	部分通过	MTP最后一项不完整，基准版生成了6层
Q30	输入30个'A'，回复'B B B'	通过	通过	两者均正确

[!TIP] 边缘场景：基准版 5/5 = 100% | MTP 3/5 = 60%

类别	题目数量	基准版正确数	基准版准确率	MTP正确数	MTP准确率
总体准确率摘要
逻辑	5	5	100%	5	100%
编码	10	7	70%	10	100%
DevOps	5	2.5	50%	3.5	70%
数学	5	4.5	90%	5	100%
边缘场景	5	5	100%	3	60%
总计	30	24	80.0%	26.5	88.3%

效率指标	基础模型	MTP 模型	MTP 优势
推理效率对比
整体吞吐量（T/s）	4.94	6.71	+35.8%
整体准确率	80.0%	88.3%	+8.3pp
总延迟	81.3 分钟	64.9 分钟	节省 16.4 分钟
推理效率指数（准确率/延迟）	1.64e-4	2.27e-4	+38.4%
每千 tokens 正确答案数	0.995 Q/kT	1.014 Q/kT	+1.9%

质量问题	基础模型数量	MTP 模型数量
质量问题统计
重复（重复输出标记）	2 次（Q6、Q17）	2 次（Q6、Q28）
超时	0 次	0 次
响应不完整/截断	约 8 次	约 4 次
推理链过长	较少	较多

8. 最终结论

MTP模型的优势领域

速度：整体速度提升35.8%，在数学和边缘任务中表现尤为突出。
编码：代码输出完成率达100%，而Base模型因重复问题出现3次截断。
数学：准确率100%，推理链更具系统性。
效率：整体推理效率指数提高38.4%。

MTP模型的改进方向

边缘任务稳定性：Q28/Q29出现截断，原因是过长的推理链达到了 token 限制。
DevOps长文本：对于长篇解释性回复，草稿匹配率较低，导致提速效果有限。

场景	推荐模型
推荐使用场景
代码生成	MTP
数学推理	MTP
逻辑推理	两者均可
短文本指令（边缘任务）	Base更稳定
DevOps长文档	均需更大max_tokens

🌟 Qwopus3.5-9B-coder

🚀 模型微调与逻辑对齐（Qwopus3.5-9B-coder）

本模型以Qwopus3.5-9B-v3.5为基础模型，该基础模型已具备强大的能力。在此之上，Qwopus3.5-9B-coder针对高性能🤖 智能体编码（Agentic Coding）、复杂工具调用（Tool Calling）及逻辑推理进行了专门优化与微调。

💡 为何选择9B密集型模型？ 我们认为9B密集型架构是大型语言模型的理想**“平衡点”**。它能在入门级16GB内存设备（如标准笔记本电脑和Mac mini）上以8位精度流畅运行，兼具极致轻量化与高度通用性。无需昂贵硬件，即可实现卓越性能与出色推理速度。简而言之，Qwen3.5-9B是当前同类中最佳的开源模型。

[!TIP] 视觉与工具调用支持：本模型支持视觉功能与工具调用。若要启用视觉功能，请将GGUF仓库中的mmproj.gguf文件放置到主.gguf文件所在目录。

🛠 训练策略

本模型的微调过程深度融合了轨迹反转（Trace Inversion） 数据增强技术与高质量智能体轨迹（Agent Traces）。这种系统化方法不仅增强了模型解决复杂编程任务的能力，还大幅提升了其在使用各类工具时的逻辑连贯性与准确性。

本模型专为达成以下目标而设计：

🧩 更具结构化、更强的逻辑推理能力，减少重复思考
💻 更强大的代码编写、调试及仓库级任务处理能力
🛠 更稳定、准确的工具调用能力，适用于终端命令、文件操作与浏览器
🔁 更好的跨数据源蒸馏对齐效果

[!WARNING]

社区版本发布说明：Qwopus3.5-9B-coder纯粹作为实验性社区版本发布，旨在探索智能体（Agent）能力与深度推理的结合，仅用于研究与探索用途。

注意事项：由于本模型针对编程智能体与深度推理进行垂直微调，且未经过全面的通用性能评估，其在通用领域或特定非编程任务中的能力可能会出现能力衰减（Capability Decay）。建议用户在探索其核心能力的同时，注意其在其他场景下的局限性。

📊 基准性能对比

为验证Qwopus3.5-9B-coder在实际智能体场景中的执行效率与逻辑稳健性，我们采用了开源测试框架benchlocal。

测试配置

硬件环境：Apple Silicon（Mac）
推理后端：LM Studio / MLX / GGUF
测试平台：benchlocal——专注于本地模型智能体能力的评估套件。
🍎 您可以查看不同模型格式在同一设备上的实际推理速度。

🧪 基准测试结果

1. 复杂智能体性能 - HermesAgent-20

以下是在HermesAgent-20任务集下的对比性能：

模型	测试集	综合得分	核心维度（M/O/S/S/B）
HermesAgent-20性能指标
Qwopus3.5-9B-coder	HermesAgent-20	85	84 / 93 / 88 / 75 / 84
Qwen/Qwen3.5-9B	HermesAgent-20	71	75 / 58 / 100 / 53 / 69
armand0e/Qwen3.5-9B-Agent	HermesAgent-20	68	71 / 83 / 43 / 61 / 80
DJLougen/Harmonic-Hermes-9B	HermesAgent-20	47	60 / 45 / 23 / 69 / 38

2. 工具调用稳定性 - ToolCall-15

这是针对工具调用稳定性的ToolCall-15测试集，旨在测试模型在工具调用方面的稳定性：

模型	测试集	综合得分	维度得分（A/B/C/D/E）
ToolCall-15稳定性指标
Qwopus3.5-9B-coder	ToolCall-15	100	100 / 100 / 100 / 100 / 100
Qwen/Qwen3.5-9B	ToolCall-15	100	100 / 100 / 100 / 100 / 100
armand0e/Qwen3.5-9B-Agent	ToolCall-15	93	100 / 100 / 100 / 67 / 100

3. 代码调试与漏洞修复 - BugFind-15

BugFind-15是一个包含15个由浅入深场景的测试集，旨在通过确定性环境运行时验证，评估模型在多种编程语言中发现并修复语法错误、逻辑错误及“陷阱”代码的实际调试能力。

模型	测试集	综合得分	维度得分（A/B/C/D/E）
BugFind-15性能指标
Qwopus3.5-9B-coder	BugFind-15	79	67 / 87 / 100 / 77 / 43
Jackrong/MLX-Qwen3.5-9B-DeepSeek-V4-Flash	BugFind-15	75	67 / 100 / 67 / 57 / 80
armand0e/Qwen3.5-9B-Agent	BugFind-15	58	29 / 87 / 73 / 20 / 67

🪐 SWE-bench 验证性能（仓库级编码能力）

以下展示了在 SWE-bench Verified 上的对比性能，该基准评估语言模型在解决真实世界开源仓库中软件工程问题的能力：

模型	测试集	综合得分 (%)
SWE-bench 验证性能指标
Claude 4.5 Opus	SWE-bench Verified	80.9
Qwen/Qwen3.5-27B	SWE-bench Verified	75.0
Qwen/Qwen3.6-35B-A3B	SWE-bench Verified	73.4
Qwopus3.5-9B-coder	SWE-bench Verified	53.89
google/gemma-4-31B-it	SWE-bench Verified	52.0
google/gemma-4-26B-A4B	SWE-bench Verified	45.0 - 48.0

[!IMPORTANT]

⚙️ 所有测试均按照 qwen3.5 官方推荐的 temperature=1 进行。测试失败后，会尝试重新生成两次以排查错误和模型问题。若两次尝试均失败，则判定为任务失败。

🍎 所有测试界面截图已上传至仓库的 image 文件夹。点击下方链接查看验证：

🔗 查看测试截图

❤️ 特别感谢 Kyle Hessling 提供的硬件设备支持。可在 X / Twitter 关注他获取更多更新：@KyleHessling1。

🧪 核心数据集应用：追踪反演与高质量智能体轨迹

为突破模型在实际编程与工具使用中的“推理泡沫”局限，赋予其真正的智能体行为能力，本模型在训练过程中引入了核心增强数据集：

1. 结合追踪反演的推理合成数据

当前，基于公开信息，OpenAI 的 GPT 系列、Anthropic 的 Claude 系列等商业模型已非常明确地隐藏了其模型真实的内部推理链。对于这些模型，我们在 API 或前端界面中最终能看到的，往往只能视为高度压缩的“推理泡沫”。

为突破这一局限，我们采用了追踪反演技术。该技术利用外部“代理模型”，基于商业模型公开的“问题 + 最终答案 + 压缩推理摘要”，重建出完整且逻辑连贯的深度推理链。将原本仅由几句话和逻辑跳跃构成的“推理泡沫”，扩展为具备完整推导、计算和逻辑验证的高质量深度学习轨迹，为模型提供了逐步的逻辑学习信号。

a_high_resolution_infographic_slide_style_figure

2. GLM-5.1 智能体真实轨迹数据：lambda/hermes-agent-reasoning-traces

为显著增强模型在真实环境下的执行与编码能力，本模型额外引入了**lambda/hermes-agent-reasoning-traces**数据集。

Screenshot 2026-05-16 at 5.34.59 PM

数据来源与规模：该数据子集包含约 10,000 条基于智谱 AI GLM-5.1 和 kimi-4.6 模型生成的高质量多轮工具调用轨迹。
真实智能体行为：与传统合成数据不同，这些样本代表真实的智能体对话。每个样本不仅包含 </think> 标签内的逐步推理过程，还包括实际的工具执行结果（而非凭空编造的输出）。
广泛领域覆盖：
- 终端与编码：脚本编写、代码调试、环境配置及数据处理。
- 仓库任务：涉及真实代码仓库工作，如漏洞修复、重构和代码审查。
- 浏览器自动化：网页导航、数据抓取和表单填写。
- 智能体工具：记忆持久化、任务委派、技能管理等。

通过学习这些包含真实反馈和深思熟虑过程的智能体轨迹，Qwopus3.5-9B-coder 在面对复杂编程和系统操作任务时，能够展现出更接近人类专家的思考与操作模式。

🗺️ 训练流程概述

本模型的训练整合了Trace Inversion数据增强技术与高质量Agent Trajectories数据的分阶段学习流程。其核心逻辑在于将商业模型高度压缩的“推理气泡”还原为可供学习的深度路径，并结合真实的智能体操作轨迹，全面提升模型的逻辑推理与代码执行能力。

       [ 🗺️ Trace Inversion: Full Process of Data Inversion and "Attack" Distillation ]

  A. Surrogate Model Training
     Open Source Model (GLM-5.1 / DS-V4) ──► Complete Reasoning Chain ──► [ Qwen3-235B Compression ] ──► Reasoning Bubbles
                                       │                                   │
                                       └──────────► [ Training ] ◄─────────┘
                                            (Base: Qwen3-4B-Instruct)
                                            (Result: Trace-Inverter-4B)

  B. Inversion Phase: "Attacking" Claude-4.7-Max
     _______________________________________________________
    |                                                       |
    |  Claude-4.7-Max API ──► Compressed Bubbles + Final Answer |
    |_______________________________________________________|
                      │
                      ▼
    [ 🧠 Trace-Inverter-4B (Logical Reconstructor) ] ────► Synthetic CoT
                      │
                      ▼
    [ 🧩 Data Splicing ] ◄────────── (Original Prompt + Response)
    (Embed the inverted chain of thought into ` 和 `</think>` 标签内。在部署到前端应用时，可能需要解析并隐藏这些标签。

---

## 📚 资源与指南
👉 **[GitHub 仓库：Jackrong-llm-finetuning-guide](https://github.com/R6410418/Jackrong-llm-finetuning-guide.git)**
访问该仓库，深入了解我们的微调代码库和相关指南。

---
## 🙏 致谢
特别感谢：

- Qwen 团队提供强大的 Qwen3.6 MoE 基础模型。
- Unsloth 提供高效的微调框架。
- 开源数据集及社区贡献者。
- **Kyle Hessling** 提供的慷慨硬件和设备支持。您可以在 X / Twitter 上关注他获取更多更新：[@KyleHessling1](https://x.com/KyleHessling1)。

---
## 📖 引用

```bibtex
@misc{jackrong_qwopus35_9b_coder,
  title        = {Qwopus3.5-9B-coder},
  author       = {Jackrong},
  year         = {2026},
  publisher    = {Hugging Face}
}