HuggingFace镜像/Qwopus-GLM-18B-Merged-GGUF
模型介绍文件和版本分析
下载使用量0

Qwopus-GLM-18B-Merged 🧪

这是一个64层的混合合并模型,融合了Jackrong的两个出色Qwen3.5-9B微调模型。通过堆叠每个模型的全部32层,构建出一个约180亿参数的模型,随后通过1000步LoRA微调进行修复,以平滑层间边界。

这是一次有趣的实验! 很多人一直在寻求介于Jackrong的27B和9B模型之间的方案——一种能在12–16 GB GPU上流畅运行的模型。这次混合合并正是为填补这一空白而尝试,结果令人惊喜。

[!NOTE] 感谢本模型的创建者@KyleHessling1 🙌 这仍是一个实验性模型,因此可能存在一些特性或问题。如果您遇到任何异常情况,或者用它做出了有趣的成果,请通过X联系。

修复微调——行之有效 🛠️

原始的混合合并模型存在一个已知问题:代码输出混乱。由于两个独立训练的模型在第32层处堆叠,结构化输出(代码块、HTML、括号匹配)偶尔会出现格式错误或幻觉内容。

我们使用Jackrong自己的训练数据进行了1000步QLoRA修复微调,让梯度能够跨层边界流动——结果显著:

  • HTML生成现在清晰且达到生产质量。 我们测试了一个复杂的单页天气仪表板(导航栏、深色模式切换、5天预报网格、响应式侧边栏、CSS变量、JavaScript)——模型生成了超过14,500字符的有效HTML/CSS/JS,CSS花括号完美匹配,JS括号完美平衡,无混乱文本,并且完整闭合了</html>标签。
  • 编程基准测试有所提升: 从11/15(原始模型)提升至12/15(修复后),成功恢复了longest_substring滑动窗口算法测试(8/8案例通过)
  • 总体得分提升: 从39/44提升至40/44(90.9%),在显存占用不到一半的情况下,仍轻松超过Qwen 3.6 MoE(38/44)
  • 训练期间损失下降39%(从1.02降至0.62),证实层边界确实是训练可以解决的错误来源

本仓库中仅提供修复后的GGUF版本(Qwopus-GLM-18B-Healed-Q4_K_M.gguf)。如果您出于研究目的对原始未修复的合并模型感兴趣,请联系我们。

基准测试结果 📊

我们运行了一套包含44项测试的能力套件,涵盖基础生成、推理、工具调用、智能体工作流、结构化输出、上下文处理、多语言、编程和性能等方面。

尽管修复后的模型规模明显更小(Q4_K_M,9.2 GB),但其性能优于全新的Qwen 3.6-35B-A3B MoE(Q4_K_M,22 GB):

类别Qwopus 9B(源模型)Qwopus-GLM-18B(修复后)Qwen 3.6-35B MoE
基础能力6/66/65/6
推理能力4/44/44/4
工具调用6/66/66/6
智能体能力4/44/44/4
结构化输出2/22/22/2
上下文处理2/32/32/3
多语言能力2/22/22/2
编程能力13/1512/1512/15
性能表现2/22/21/2
总计41/44(93.2%)40/44(90.9%)38/44(86.4%)
吞吐量126.0 令牌/秒66.0 令牌/秒174.2 令牌/秒
GGUF 大小5.3 GB9.2 GB22 GB

核心要点

  • 40/44 项测试通过(修复后达90.9%)——以不到一半的显存占用击败了Qwen 3.6 MoE的38/44(86.4%)
  • 修复训练恢复了编程能力:原始11/15提升至修复后12/15(与Qwen 3.6 MoE持平)
  • 完美的工具调用(6/6)——包括单一调用、可选参数、工具选择、复杂参数及响应处理
  • 完美的智能体推理(4/4)——涵盖计划生成、多步骤工具工作流、错误恢复和自我修正
  • 测试模型中最高的中文输出密度:129-138个CJK字符
  • 约66 令牌/秒,吞吐量方差低——推理稳定
  • Q4_K_M 量化下仅需12 GB显存——可在RTX 3060/4070等消费级GPU上运行

[!WARNING] 本模型尚未经过完整或全面的评估。这些基准测试结果仅供参考。

修复微调详情

原始的“缝合”模型存在代码格式问题(代码块混乱、括号缺失)。我们使用Jackrong的训练数据进行了1000步QLoRA修复微调,以平滑第32层的边界:

  • 方法:QLoRA(4位NF4),LoRA秩64,目标为所有注意力层和MLP投影层
  • 数据:混合 Jackrong/Qwen3.5-reasoning-700x(70%)、Jackrong/Competitive-Programming-python-blend(15%)、Jackrong/MultiReason-ChatAlpaca(15%)
  • 训练:1000步,批次大小8,学习率2e-5(余弦调度),在RTX 5090上耗时约14小时
  • 损失:1.02 降至 0.62(降低39%)
  • 结果:恢复了1项编程测试,HTML/CSS输出现在清晰且达到生产质量

不足之处

修复后的版本仍有三项编程测试未通过:一是函数命名问题,二是缺少 JS 括号,三是在生成 pytest 时未生成代码块。这些都是合并过程中残留的格式问题。

前端代码生成 — 压力测试结果 🎨

我们对修复后的模型进行了严格的前端压力测试:6 项复杂度逐渐增加的 HTML/CSS/JS 生成任务,每项任务都需要生成数千 token 的结构有效的代码。测试结果不言而喻:

测试需求内容通过检查项输出大小
天气仪表盘响应式仪表盘、CSS 变量、深色模式切换、5 天预报网格9/914.5K 字符
电子商务产品页面图片画廊、颜色选择器、数量选择器、选项卡内容、移动端粘性栏12/1216.7K 字符
动画 SaaS 着陆页动态渐变、打字动画、IntersectionObserver 滚动显示、自动轮播推荐语、3 种定价方案13/1324.1K 字符
分析仪表盘带工具提示的 SVG 柱状图、SVG 环形图、可排序数据表格、可折叠侧边栏、深色主题13/1322.3K 字符
多步骤注册3 步表单向导、实时验证、密码强度指示器、州/省下拉菜单、动画过渡、成功模态框12/1223.3K 字符
贪吃蛇游戏Canvas 游戏循环、方向键控制、碰撞检测、localStorage 最高分、难度递增11/1211.2K 字符

共 63 项检查,通过 62 项(98.4%)

所有输出均具备:

  • 完美匹配的 CSS 花括号(所有 6 个文件均无失衡)
  • 完美匹配的 JS 括号(所有 6 个文件均无失衡)
  • 无乱码或虚构文本
  • 可运行的 JavaScript — 深色模式切换、IntersectionObserver 动画、SVG 图表渲染、表单验证、Canvas 游戏循环

唯一的失误:贪吃蛇游戏在末尾有一个小的闭合标签拼写错误(应为 </html>,实为 html>)。

对于两个 9B 模型的“拼接合并”,仅通过 1000 步 QLoRA 修复就能达到这样的效果,实属难得。该模型能够生成生产级别的前端代码 — 不仅是语法有效的 HTML,还包括具有现代 CSS(Grid、Flexbox、自定义属性、关键帧动画)和复杂 JavaScript(IntersectionObserver、requestAnimationFrame 游戏循环、实时表单验证、SVG 图表生成)的高级交互式应用。

所有 6 个示例 HTML 文件均包含在本仓库的 samples/ 目录中 — 下载后在浏览器中打开即可亲自查看。

架构 🧱

属性值
总层数64(32 + 32)
总参数数量~180亿
隐藏层大小4096
注意力头数16(4个KV头,GQA)
中间层大小12288
上下文长度262,144 tokens
注意力类型混合(线性+全量,每4层)
GGUF Q4_K_M 大小9.2 GB

层组成

Layers  0–31:  Jackrong/Qwopus3.5-9B-v3.5         (Opus reasoning distill)
Layers 32–63:  Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1 reasoning distill)

Embeddings, LM head, MTP, vision encoder: from Qwopus3.5-9B-v3.5

源模型 🧬

源模型的所有功劳归于 Jackrong,是他创建了这两个出色的微调模型。我所做的仅仅是进行了层堆叠——模型的质量源于他的工作。

Jackrong/Qwopus3.5-9B-v3.5

这是 Qwen3.5-9B 的推理增强型微调版本,其训练使用的 SFT 数据量约为 v3 版本的 2 倍,重点关注结构化推理、工具增强型工作流以及多步骤智能体任务。

v3.5 版本设计的核心见解:“扩展高质量 SFT 数据可能进一步增强大型语言模型的泛化能力。” 推理 SFT 帮助模型更好地利用现有知识,并通过结构化推理激活潜在知识,而不是简单地记忆冗长的思维链输出。

性能亮点(参考 270 亿参数模型水平):

  • MMLU-Pro:90.36% 准确率(较 v3 版本提升 1.07%)
  • 智能体编码测试:44 项中通过 43 项(97.7%)

相关资源:

  • 模型卡片
  • 微调指南(PDF)
  • GitHub 仓库

Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

这是 Qwen3.5-9B 的蒸馏变体,使用来自 GLM-5.1 教师模型的高质量推理数据进行训练(规模约为 Qwen3.5-reasoning-700x 的 700 倍)。该模型专注于结构化推理能力、指令遵循一致性和问题分解能力。

该模型学习了一种结构化的推理框架:理解任务、分解问题、逐步推理,然后构建最终答案。

训练数据:

  • 主要数据:Jackrong/GLM-5.1-Reasoning-1M-Cleaned(基于 Kassadin88/GLM-5.1-1000000x 清理得到)
  • 辅助数据:Jackrong/Qwen3.5-reasoning-700x

相关资源:

  • 模型卡片
  • 微调指南(PDF)

为何有效 🤔

通过堆叠两个不同蒸馏方式的推理模型,此次合并结合了:

  1. Qwopus v3.5 的优势:智能体工具使用、代码生成以及高效 token 推理(Opus 风格训练)
  2. GLM-5.1 Distill 的优势:结构化问题分解、指令遵循度以及思维链组织(GLM 风格推理框架)

核心假设:具备多样化推理训练的更深层网络能够生成更稳健、更强大的模型——而基准测试结果表明,至少在我们测试的能力范围内,这一假设是成立的。

合并详情

  • 方法:直通式拼接合并(层堆叠)
  • 工具:自定义脚本(mergekit 不支持 Qwen3.5 的混合线性/全注意力架构)
  • 嵌入层 / 语言模型头 / 视觉模块 / MTP:来自 Qwopus3.5-9B-v3.5
  • 精度:BF16 -> Q4_K_M GGUF
  • 未进行额外训练

使用方法 🚀

通过 llama.cpp(推荐)

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

使用 Transformers

此 GGUF 仓库中未包含完整的 BF16 safetensors 文件。如果您需要这些文件进行进一步的微调或实验,请通过 X 联系。

局限性 ⚠️

  • 实验性混合合并——未进行额外训练。两个源模型之间的层边界可能会偶尔导致连贯性或格式问题。
  • 代码格式——模型有时会弄乱带分隔符的代码块(返回的代码没有正确的 Markdown 分隔符)。即使格式不正确,推理过程通常是正确的。
  • 未经过全面测试——这只是一个周末的趣味项目。可能存在我们尚未发现的边缘情况。
  • 幻觉风险——与所有自回归大型语言模型一样,输出可能包含事实错误。

支持的研究

两个源模型均参考:Ren et al., 2026 — Rethinking Generalization in Reasoning SFT(arXiv:2604.06628)

主要发现:充分训练后,推理 SFT 具有泛化能力;高质量的长 CoT 数据可实现跨域迁移;更强的模型学习的是推理结构,而非仅仅是更长的输出。

致谢 🙏

  • Jackrong——真正的关键贡献者。两个源模型、训练管道、数据集和文档均为他的成果。之所以能进行此次合并,是因为他的微调模型质量极高,即使是简单地堆叠它们也能产生出乎意料的强大效果。
  • Qwen 提供了出色的 Qwen3.5-9B 基础模型
  • Unsloth AI 提供了高效的微调基础设施
  • GLM-5.1 团队 提供了蒸馏中使用的教师模型
  • Kassadin88 提供了原始的 GLM-5.1-1000000x 数据集
  • 更广泛的开源社区

有问题?💬

这只是出于兴趣——如果您有问题、发现问题或使用它构建了有趣的东西,请通过 X 联系!

@KyleHessling1

[!WARNING] ⚠️ 这是一个实验性测试模型,作为有趣的社区探索项目的一部分创建。它是一个未经额外训练后处理或全面安全评估的混合合并模型。因此,该模型可能表现出不稳定的行为、格式错误、推理不一致或其他意外现象。它仅用于研究和实验目的。

引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}