这是一个64层混合合并模型,融合了 Jackrong 的两个出色 Qwen3.5-9B 微调模型,将每个模型的 32 层堆叠起来,创建了一个约 180 亿参数的模型,随后通过1000 步 QLoRA 微调进行修复,以平滑层边界。
这是一次有趣的实验! 很多人一直在寻求介于 Jackrong 的 27B 和 9B 模型之间的方案——一种能在 12–16 GB GPU 上良好运行的模型。这次混合合并就是为了填补这一空白,结果令人惊喜。
原始的混合合并模型存在一个已知问题:代码输出混乱。由于两个独立训练的模型在第 32 层进行堆叠,结构化输出(代码块、HTML、括号匹配)偶尔会出现格式错误或幻觉内容。
我们使用 Jackrong 自己的训练数据进行了1000 步 QLoRA 修复微调,让梯度能够跨层边界流动——结果显著:
</html>。longest_substring 滑动窗口算法测试(8/8 案例通过)本仓库中仅提供修复后的 GGUF 版本(Qwopus-GLM-18B-Healed-Q4_K_M.gguf)。如果您出于研究目的对原始未修复的合并模型感兴趣,请联系我们。
这仍然是一个实验性模型——可能存在一些特性或问题。如果您遇到任何异常情况,或者用它做出了很酷的东西,请在 X 上联系:@KyleHessling1
我们运行了一套包含44项测试的能力套件,涵盖基础生成、推理、工具调用、智能体工作流、结构化输出、上下文处理、多语言、编程和性能等方面。
尽管修复后的合并模型体积明显更小(Q4_K_M,9.2 GB),但其性能优于全新的Qwen 3.6-35B-A3B MoE(Q4_K_M,22 GB):
| 类别 | Qwopus 9B(源模型) | Qwopus-GLM-18B(修复后) | Qwen 3.6-35B MoE |
|---|---|---|---|
| 基础能力 | 6/6 | 6/6 | 5/6 |
| 推理能力 | 4/4 | 4/4 | 4/4 |
| 工具调用 | 6/6 | 6/6 | 6/6 |
| 智能体能力 | 4/4 | 4/4 | 4/4 |
| 结构化输出 | 2/2 | 2/2 | 2/2 |
| 上下文处理 | 2/3 | 2/3 | 2/3 |
| 多语言能力 | 2/2 | 2/2 | 2/2 |
| 编程能力 | 13/15 | 12/15 | 12/15 |
| 性能表现 | 2/2 | 2/2 | 1/2 |
| 总计 | 41/44(93.2%) | 40/44(90.9%) | 38/44(86.4%) |
| 吞吐量 | 126.0 tok/s | 66.0 tok/s | 174.2 tok/s |
| GGUF 大小 | 5.3 GB | 9.2 GB | 22 GB |
原始的“拼接合并模型”存在代码格式问题(代码块混乱、括号缺失)。我们使用 Jackrong 的训练数据进行了 1000 步的 QLoRA 修复微调,以平滑第 32 层的边界:
Jackrong/Qwen3.5-reasoning-700x(70%)、Jackrong/Competitive-Programming-python-blend(15%)、Jackrong/MultiReason-ChatAlpaca(15%)修复后的版本仍有三项编程测试未通过:一是函数命名问题,二是缺少 JS 括号,三是生成 pytest 时未产生代码块。这些都是合并过程中遗留的格式问题。
我们对修复后的模型进行了严格的前端压力测试:6 项复杂度逐渐递增的 HTML/CSS/JS 生成任务,每项任务都需要输出数千 token 的结构有效的代码。结果不言而喻:
| 测试 | 需求内容 | 通过检查项 | 输出大小 |
|---|---|---|---|
| 天气仪表盘 | 响应式仪表盘、CSS 变量、深色模式切换、5 天预报网格 | 9/9 | 14.5K 字符 |
| 电子商务产品页面 | 图片画廊、颜色选择器、数量选择器、选项卡内容、移动端粘性栏 | 12/12 | 16.7K 字符 |
| 动画 SaaS 着陆页 | 动态渐变、打字动画、IntersectionObserver 滚动显示、自动轮播推荐语、3 种定价方案 | 13/13 | 24.1K 字符 |
| 分析仪表盘 | 带工具提示的 SVG 柱状图、SVG 环形图、可排序数据表格、可折叠侧边栏、深色主题 | 13/13 | 22.3K 字符 |
| 多步骤注册 | 3 步表单向导、实时验证、密码强度指示器、州/省下拉菜单、动画过渡、成功模态框 | 12/12 | 23.3K 字符 |
| 贪吃蛇游戏 | Canvas 游戏循环、方向键控制、碰撞检测、localStorage 高分记录、难度递增 | 11/12 | 11.2K 字符 |
总计 63 项检查中通过 62 项(98.4%)
所有输出均具备:
唯一的疏漏:贪吃蛇游戏在结尾处有一个小的闭合标签拼写错误(应为 </html>,却写成了 html>)。
对于两个 9B 模型的简单合并,并仅通过 1000 步 QLoRA 修复就能达到这样的效果,已经非常出色。该模型能够生成生产级别的前端代码——不仅是语法有效的 HTML,还包括具有现代 CSS(Grid、Flexbox、自定义属性、关键帧动画)和复杂 JavaScript(IntersectionObserver、requestAnimationFrame 游戏循环、实时表单验证、SVG 图表生成)的复杂交互式应用。
所有 6 个示例 HTML 文件均包含在本仓库的 samples/ 目录中——下载后在浏览器中打开即可亲自查看。
| 属性 | 值 |
|---|---|
| 总层数 | 64(32 + 32) |
| 总参数数量 | ~180亿 |
| 隐藏层大小 | 4096 |
| 注意力头数 | 16(4个KV头,GQA) |
| 中间层大小 | 12288 |
| 上下文长度 | 262,144个token |
| 注意力类型 | 混合(线性+全量,每4层) |
| GGUF Q4_K_M 大小 | 9.2 GB |
Layers 0–31: Jackrong/Qwopus3.5-9B-v3.5 (Opus reasoning distill)
Layers 32–63: Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1 (GLM-5.1 reasoning distill)
Embeddings, LM head, MTP, vision encoder: from Qwopus3.5-9B-v3.5源模型的所有功劳归于**Jackrong**,他创建了这两个出色的微调模型。我只是堆叠了层——模型质量源于他的工作。
这是 Qwen3.5-9B 的推理增强型微调版本,其训练使用的 SFT 数据量约为 v3 版本的 2 倍,重点关注结构化推理、工具增强型工作流以及多步骤智能体任务。
v3.5 设计的核心见解:“扩大高质量 SFT 数据的规模可能会进一步提升大型语言模型的泛化能力。” 推理 SFT 帮助模型更好地利用现有知识,并通过结构化推理激活潜在知识,而不是简单地记忆冗长的思维链输出。
性能亮点(参考 27B 量级):
资源:
这是 Qwen3.5-9B 的蒸馏变体,使用来自 GLM-5.1 教师模型的高质量推理数据进行训练(规模约为 Qwen3.5-reasoning-700x 的 700 倍)。重点关注结构化推理能力、指令遵循一致性和问题分解能力。
该模型学习了一种结构化推理框架:理解任务、分解问题、逐步推理,然后构建最终答案。
训练数据:
Jackrong/GLM-5.1-Reasoning-1M-Cleaned(从 Kassadin88/GLM-5.1-1000000x 清理而来)Jackrong/Qwen3.5-reasoning-700x资源:
通过堆叠两个不同的蒸馏推理模型,本次合并结合了:
核心假设:具备多样化推理训练的更深层网络能够产生更稳健、更强大的模型——基准测试结果表明,至少在我们测试的能力范围内,该假设成立。
llama-server \
-m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
--chat-template-file your-qwen35-template.jinja \
--ctx-size 65536 \
--flash-attn on \
--n-gpu-layers 99此 GGUF 仓库中未包含完整的 BF16 safetensors 文件。如果您需要这些文件进行进一步的微调或实验,请通过 X 联系。
两个源模型均参考:Ren et al., 2026 — Rethinking Generalization in Reasoning SFT(arXiv:2604.06628)
主要发现:充分训练后,推理 SFT 具有泛化能力;高质量的长 CoT 数据可实现跨域迁移;更强的模型学习的是推理结构,而非仅仅是更长的输出。
这只是出于兴趣的项目——如果您有问题、发现问题或使用它构建了有趣的东西,请通过 X 联系!
@misc{jackrong_qwopus35_9b_v35,
title = {Qwopus3.5-9B-v3.5},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}
@misc{jackrong_qwen35_9b_glm51_distill_v1,
title = {Qwen3.5-9B-GLM5.1-Distill-v1},
author = {Jackrong},
year = {2026},
publisher = {Hugging Face}
}