HuggingFace镜像/Qwopus-GLM-18B-Merged-GGUF
模型介绍文件和版本分析
下载使用量0

Qwopus-GLM-18B-Merged (Healed)

这是一个64层混合合并模型,融合了 Jackrong 的两个出色 Qwen3.5-9B 微调模型,将每个模型的 32 层堆叠起来,创建了一个约 180 亿参数的模型,随后通过1000 步 QLoRA 微调进行修复,以平滑层边界。

这是一次有趣的实验! 很多人一直在寻求介于 Jackrong 的 27B 和 9B 模型之间的方案——一种能在 12–16 GB GPU 上良好运行的模型。这次混合合并就是为了填补这一空白,结果令人惊喜。

修复微调 — 效果显著

原始的混合合并模型存在一个已知问题:代码输出混乱。由于两个独立训练的模型在第 32 层进行堆叠,结构化输出(代码块、HTML、括号匹配)偶尔会出现格式错误或幻觉内容。

我们使用 Jackrong 自己的训练数据进行了1000 步 QLoRA 修复微调,让梯度能够跨层边界流动——结果显著:

  • HTML 生成现在清晰且达到生产质量。 我们测试了一个复杂的单页天气仪表板(导航栏、暗模式切换、5 天预报网格、响应式侧边栏、CSS 变量、JavaScript)——该模型生成了超过 14,500 字符的有效 HTML/CSS/JS,CSS 花括号完美匹配,JS 括号完美平衡,无乱码文本,并完整闭合 </html>。
  • 编程基准测试有所提升: 从 11/15(原始)提升至 12/15(修复后),恢复了 longest_substring 滑动窗口算法测试(8/8 案例通过)
  • 总体得分提升: 从 39/44 提升至40/44(90.9%),在显存占用不到一半的情况下,仍轻松超过 Qwen 3.6 MoE(38/44)
  • 训练期间损失下降 39%(从 1.02 降至 0.62),证实层边界确实是训练可以解决的错误来源

本仓库中仅提供修复后的 GGUF 版本(Qwopus-GLM-18B-Healed-Q4_K_M.gguf)。如果您出于研究目的对原始未修复的合并模型感兴趣,请联系我们。

这仍然是一个实验性模型——可能存在一些特性或问题。如果您遇到任何异常情况,或者用它做出了很酷的东西,请在 X 上联系:@KyleHessling1

基准测试结果

我们运行了一套包含44项测试的能力套件,涵盖基础生成、推理、工具调用、智能体工作流、结构化输出、上下文处理、多语言、编程和性能等方面。

尽管修复后的合并模型体积明显更小(Q4_K_M,9.2 GB),但其性能优于全新的Qwen 3.6-35B-A3B MoE(Q4_K_M,22 GB):

类别Qwopus 9B(源模型)Qwopus-GLM-18B(修复后)Qwen 3.6-35B MoE
基础能力6/66/65/6
推理能力4/44/44/4
工具调用6/66/66/6
智能体能力4/44/44/4
结构化输出2/22/22/2
上下文处理2/32/32/3
多语言能力2/22/22/2
编程能力13/1512/1512/15
性能表现2/22/21/2
总计41/44(93.2%)40/44(90.9%)38/44(86.4%)
吞吐量126.0 tok/s66.0 tok/s174.2 tok/s
GGUF 大小5.3 GB9.2 GB22 GB

核心要点

  • 40/44 项测试通过(修复后达到90.9%)——在显存占用不到一半的情况下,优于 Qwen 3.6 MoE 的 38/44(86.4%)
  • 修复训练恢复了编程能力:原始版本 11/15 -> 修复后 12/15(与 Qwen 3.6 MoE 持平)
  • 完美的工具调用(6/6)——包括单次调用、可选参数、工具选择、复杂参数及响应处理
  • 完美的智能体推理(4/4)——包括计划生成、多步骤工具工作流、错误恢复和自我修正
  • 在所有测试模型中中文输出密度最高:129-138 个 CJK 字符
  • 约 66 tok/s 的吞吐量,且方差低——推理稳定
  • Q4_K_M 量化下仅需 12 GB 显存——可在 RTX 3060/4070 等消费级 GPU 上运行

修复微调详情

原始的“拼接合并模型”存在代码格式问题(代码块混乱、括号缺失)。我们使用 Jackrong 的训练数据进行了 1000 步的 QLoRA 修复微调,以平滑第 32 层的边界:

  • 方法:QLoRA(4-bit NF4),LoRA 秩 64,目标为所有注意力层和 MLP 投影层
  • 数据:混合 Jackrong/Qwen3.5-reasoning-700x(70%)、Jackrong/Competitive-Programming-python-blend(15%)、Jackrong/MultiReason-ChatAlpaca(15%)
  • 训练:1000 步,批大小 8,学习率 2e-5(余弦调度),在 RTX 5090 上耗时约 14 小时
  • 损失:1.02 -> 0.62(降低 39%)
  • 结果:恢复了 1 项编程测试,HTML/CSS 输出现在清晰且达到生产级别质量

不足之处

修复后的版本仍有三项编程测试未通过:一是函数命名问题,二是缺少 JS 括号,三是生成 pytest 时未产生代码块。这些都是合并过程中遗留的格式问题。

前端代码生成——压力测试结果

我们对修复后的模型进行了严格的前端压力测试:6 项复杂度逐渐递增的 HTML/CSS/JS 生成任务,每项任务都需要输出数千 token 的结构有效的代码。结果不言而喻:

测试需求内容通过检查项输出大小
天气仪表盘响应式仪表盘、CSS 变量、深色模式切换、5 天预报网格9/914.5K 字符
电子商务产品页面图片画廊、颜色选择器、数量选择器、选项卡内容、移动端粘性栏12/1216.7K 字符
动画 SaaS 着陆页动态渐变、打字动画、IntersectionObserver 滚动显示、自动轮播推荐语、3 种定价方案13/1324.1K 字符
分析仪表盘带工具提示的 SVG 柱状图、SVG 环形图、可排序数据表格、可折叠侧边栏、深色主题13/1322.3K 字符
多步骤注册3 步表单向导、实时验证、密码强度指示器、州/省下拉菜单、动画过渡、成功模态框12/1223.3K 字符
贪吃蛇游戏Canvas 游戏循环、方向键控制、碰撞检测、localStorage 高分记录、难度递增11/1211.2K 字符

总计 63 项检查中通过 62 项(98.4%)

所有输出均具备:

  • 完美匹配的 CSS 花括号(所有 6 个文件中均无失衡情况)
  • 完美匹配的 JS 括号(所有 6 个文件中均无失衡情况)
  • 无乱码或虚构文本
  • 可正常运行的 JavaScript——深色模式切换、IntersectionObserver 动画、SVG 图表渲染、表单验证、Canvas 游戏循环

唯一的疏漏:贪吃蛇游戏在结尾处有一个小的闭合标签拼写错误(应为 </html>,却写成了 html>)。

对于两个 9B 模型的简单合并,并仅通过 1000 步 QLoRA 修复就能达到这样的效果,已经非常出色。该模型能够生成生产级别的前端代码——不仅是语法有效的 HTML,还包括具有现代 CSS(Grid、Flexbox、自定义属性、关键帧动画)和复杂 JavaScript(IntersectionObserver、requestAnimationFrame 游戏循环、实时表单验证、SVG 图表生成)的复杂交互式应用。

所有 6 个示例 HTML 文件均包含在本仓库的 samples/ 目录中——下载后在浏览器中打开即可亲自查看。

架构

属性值
总层数64(32 + 32)
总参数数量~180亿
隐藏层大小4096
注意力头数16(4个KV头,GQA)
中间层大小12288
上下文长度262,144个token
注意力类型混合(线性+全量,每4层)
GGUF Q4_K_M 大小9.2 GB

层组成

Layers  0–31:  Jackrong/Qwopus3.5-9B-v3.5         (Opus reasoning distill)
Layers 32–63:  Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1 reasoning distill)

Embeddings, LM head, MTP, vision encoder: from Qwopus3.5-9B-v3.5

源模型

源模型的所有功劳归于**Jackrong**,他创建了这两个出色的微调模型。我只是堆叠了层——模型质量源于他的工作。

Jackrong/Qwopus3.5-9B-v3.5

这是 Qwen3.5-9B 的推理增强型微调版本,其训练使用的 SFT 数据量约为 v3 版本的 2 倍,重点关注结构化推理、工具增强型工作流以及多步骤智能体任务。

v3.5 设计的核心见解:“扩大高质量 SFT 数据的规模可能会进一步提升大型语言模型的泛化能力。” 推理 SFT 帮助模型更好地利用现有知识,并通过结构化推理激活潜在知识,而不是简单地记忆冗长的思维链输出。

性能亮点(参考 27B 量级):

  • MMLU-Pro:90.36% 准确率(较 v3 提升 1.07%)
  • 智能体编码测试:43/44 通过(97.7%)

资源:

  • 模型卡片
  • 微调指南(PDF)
  • GitHub

Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

这是 Qwen3.5-9B 的蒸馏变体,使用来自 GLM-5.1 教师模型的高质量推理数据进行训练(规模约为 Qwen3.5-reasoning-700x 的 700 倍)。重点关注结构化推理能力、指令遵循一致性和问题分解能力。

该模型学习了一种结构化推理框架:理解任务、分解问题、逐步推理,然后构建最终答案。

训练数据:

  • 主要:Jackrong/GLM-5.1-Reasoning-1M-Cleaned(从 Kassadin88/GLM-5.1-1000000x 清理而来)
  • 辅助:Jackrong/Qwen3.5-reasoning-700x

资源:

  • 模型卡片
  • 微调指南(PDF)

为何此方法有效

通过堆叠两个不同的蒸馏推理模型,本次合并结合了:

  1. Qwopus v3.5 的优势:智能体工具使用、代码生成以及令牌高效推理(Opus 风格训练)
  2. GLM-5.1 Distill 的优势:结构化问题分解、指令遵循度以及思维链组织(GLM 风格推理框架)

核心假设:具备多样化推理训练的更深层网络能够产生更稳健、更强大的模型——基准测试结果表明,至少在我们测试的能力范围内,该假设成立。

合并详情

  • 方法:直通式拼接合并(层堆叠)
  • 工具:自定义脚本(mergekit 不支持 Qwen3.5 的混合线性/全注意力架构)
  • 嵌入层 / 语言模型头 / 视觉层 / MTP:来自 Qwopus3.5-9B-v3.5
  • 精度:BF16 -> Q4_K_M GGUF
  • 未进行额外训练

使用方法

使用 llama.cpp(推荐)

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

使用 Transformers

此 GGUF 仓库中未包含完整的 BF16 safetensors 文件。如果您需要这些文件进行进一步的微调或实验,请通过 X 联系。

局限性

  • 实验性混合合并——未进行额外训练。两个源模型之间的层边界可能会偶尔导致连贯性或格式问题。
  • 代码格式——模型有时会弄乱带围栏的代码块(返回的代码没有正确的 Markdown 围栏)。即使格式不正确,推理过程通常是正确的。
  • 未经过全面测试——这只是一个周末的趣味项目。可能存在我们尚未发现的边缘情况。
  • 幻觉风险——与所有自回归大型语言模型一样,输出可能包含事实错误。

支持的研究

两个源模型均参考:Ren et al., 2026 — Rethinking Generalization in Reasoning SFT(arXiv:2604.06628)

主要发现:充分训练后,推理 SFT 具有泛化能力;高质量的长 CoT 数据可实现跨域迁移;更强的模型学习的是推理结构,而非仅仅是更长的输出。

致谢

  • Jackrong — 真正的 MVP。两个源模型、训练管道、数据集和文档均为他的成果。之所以能进行此次合并,是因为他的微调模型质量极高,即使是简单堆叠也能产生出乎意料的强大效果。
  • Qwen 提供了出色的 Qwen3.5-9B 基础模型
  • Unsloth AI 提供了高效的微调基础设施
  • GLM-5.1 团队 提供了蒸馏中使用的教师模型
  • Kassadin88 提供了原始的 GLM-5.1-1000000x 数据集
  • 更广泛的开源社区

有问题?

这只是出于兴趣的项目——如果您有问题、发现问题或使用它构建了有趣的东西,请通过 X 联系!

@KyleHessling1

引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}