HuggingFace镜像/Qwopus-GLM-18B-Merged-GGUF

Qwopus-GLM-18B-Merged (Healed)

这是一个64层混合合并模型，融合了 Jackrong 的两个出色 Qwen3.5-9B 微调模型，将每个模型的 32 层堆叠起来，创建了一个约 180 亿参数的模型，随后通过1000 步 QLoRA 微调进行修复，以平滑层边界。

这是一次有趣的实验！ 很多人一直在寻求介于 Jackrong 的 27B 和 9B 模型之间的方案——一种能在 12–16 GB GPU 上良好运行的模型。这次混合合并就是为了填补这一空白，结果令人惊喜。

修复微调 — 效果显著

原始的混合合并模型存在一个已知问题：代码输出混乱。由于两个独立训练的模型在第 32 层进行堆叠，结构化输出（代码块、HTML、括号匹配）偶尔会出现格式错误或幻觉内容。

我们使用 Jackrong 自己的训练数据进行了1000 步 QLoRA 修复微调，让梯度能够跨层边界流动——结果显著：

HTML 生成现在清晰且达到生产质量。 我们测试了一个复杂的单页天气仪表板（导航栏、暗模式切换、5 天预报网格、响应式侧边栏、CSS 变量、JavaScript）——该模型生成了超过 14,500 字符的有效 HTML/CSS/JS，CSS 花括号完美匹配，JS 括号完美平衡，无乱码文本，并完整闭合 </html>。
编程基准测试有所提升： 从 11/15（原始）提升至 12/15（修复后），恢复了 longest_substring 滑动窗口算法测试（8/8 案例通过）
总体得分提升： 从 39/44 提升至40/44（90.9%），在显存占用不到一半的情况下，仍轻松超过 Qwen 3.6 MoE（38/44）
训练期间损失下降 39%（从 1.02 降至 0.62），证实层边界确实是训练可以解决的错误来源

本仓库中仅提供修复后的 GGUF 版本（Qwopus-GLM-18B-Healed-Q4_K_M.gguf）。如果您出于研究目的对原始未修复的合并模型感兴趣，请联系我们。

这仍然是一个实验性模型——可能存在一些特性或问题。如果您遇到任何异常情况，或者用它做出了很酷的东西，请在 X 上联系：@KyleHessling1

基准测试结果

我们运行了一套包含44项测试的能力套件，涵盖基础生成、推理、工具调用、智能体工作流、结构化输出、上下文处理、多语言、编程和性能等方面。

尽管修复后的合并模型体积明显更小（Q4_K_M，9.2 GB），但其性能优于全新的Qwen 3.6-35B-A3B MoE（Q4_K_M，22 GB）：

类别	Qwopus 9B（源模型）	Qwopus-GLM-18B（修复后）	Qwen 3.6-35B MoE
基础能力	6/6	6/6	5/6
推理能力	4/4	4/4	4/4
工具调用	6/6	6/6	6/6
智能体能力	4/4	4/4	4/4
结构化输出	2/2	2/2	2/2
上下文处理	2/3	2/3	2/3
多语言能力	2/2	2/2	2/2
编程能力	13/15	12/15	12/15
性能表现	2/2	2/2	1/2
总计	41/44（93.2%）	40/44（90.9%）	38/44（86.4%）
吞吐量	126.0 tok/s	66.0 tok/s	174.2 tok/s
GGUF 大小	5.3 GB	9.2 GB	22 GB

核心要点

40/44 项测试通过（修复后达到90.9%）——在显存占用不到一半的情况下，优于 Qwen 3.6 MoE 的 38/44（86.4%）
修复训练恢复了编程能力：原始版本 11/15 -> 修复后 12/15（与 Qwen 3.6 MoE 持平）
完美的工具调用（6/6）——包括单次调用、可选参数、工具选择、复杂参数及响应处理
完美的智能体推理（4/4）——包括计划生成、多步骤工具工作流、错误恢复和自我修正
在所有测试模型中中文输出密度最高：129-138 个 CJK 字符
约 66 tok/s 的吞吐量，且方差低——推理稳定
Q4_K_M 量化下仅需 12 GB 显存——可在 RTX 3060/4070 等消费级 GPU 上运行

修复微调详情

原始的“拼接合并模型”存在代码格式问题（代码块混乱、括号缺失）。我们使用 Jackrong 的训练数据进行了 1000 步的 QLoRA 修复微调，以平滑第 32 层的边界：

方法：QLoRA（4-bit NF4），LoRA 秩 64，目标为所有注意力层和 MLP 投影层
数据：混合 Jackrong/Qwen3.5-reasoning-700x（70%）、Jackrong/Competitive-Programming-python-blend（15%）、Jackrong/MultiReason-ChatAlpaca（15%）
训练：1000 步，批大小 8，学习率 2e-5（余弦调度），在 RTX 5090 上耗时约 14 小时
损失：1.02 -> 0.62（降低 39%）
结果：恢复了 1 项编程测试，HTML/CSS 输出现在清晰且达到生产级别质量

不足之处

修复后的版本仍有三项编程测试未通过：一是函数命名问题，二是缺少 JS 括号，三是生成 pytest 时未产生代码块。这些都是合并过程中遗留的格式问题。

前端代码生成——压力测试结果

我们对修复后的模型进行了严格的前端压力测试：6 项复杂度逐渐递增的 HTML/CSS/JS 生成任务，每项任务都需要输出数千 token 的结构有效的代码。结果不言而喻：

测试	需求内容	通过检查项	输出大小
天气仪表盘	响应式仪表盘、CSS 变量、深色模式切换、5 天预报网格	9/9	14.5K 字符
电子商务产品页面	图片画廊、颜色选择器、数量选择器、选项卡内容、移动端粘性栏	12/12	16.7K 字符
动画 SaaS 着陆页	动态渐变、打字动画、IntersectionObserver 滚动显示、自动轮播推荐语、3 种定价方案	13/13	24.1K 字符
分析仪表盘	带工具提示的 SVG 柱状图、SVG 环形图、可排序数据表格、可折叠侧边栏、深色主题	13/13	22.3K 字符
多步骤注册	3 步表单向导、实时验证、密码强度指示器、州/省下拉菜单、动画过渡、成功模态框	12/12	23.3K 字符
贪吃蛇游戏	Canvas 游戏循环、方向键控制、碰撞检测、localStorage 高分记录、难度递增	11/12	11.2K 字符

总计 63 项检查中通过 62 项（98.4%）

所有输出均具备：

完美匹配的 CSS 花括号（所有 6 个文件中均无失衡情况）
完美匹配的 JS 括号（所有 6 个文件中均无失衡情况）
无乱码或虚构文本
可正常运行的 JavaScript——深色模式切换、IntersectionObserver 动画、SVG 图表渲染、表单验证、Canvas 游戏循环

唯一的疏漏：贪吃蛇游戏在结尾处有一个小的闭合标签拼写错误（应为 </html>，却写成了 html>）。

对于两个 9B 模型的简单合并，并仅通过 1000 步 QLoRA 修复就能达到这样的效果，已经非常出色。该模型能够生成生产级别的前端代码——不仅是语法有效的 HTML，还包括具有现代 CSS（Grid、Flexbox、自定义属性、关键帧动画）和复杂 JavaScript（IntersectionObserver、requestAnimationFrame 游戏循环、实时表单验证、SVG 图表生成）的复杂交互式应用。

所有 6 个示例 HTML 文件均包含在本仓库的 samples/ 目录中——下载后在浏览器中打开即可亲自查看。

架构

属性	值
总层数	64（32 + 32）
总参数数量	~180亿
隐藏层大小	4096
注意力头数	16（4个KV头，GQA）
中间层大小	12288
上下文长度	262,144个token
注意力类型	混合（线性+全量，每4层）
GGUF Q4_K_M 大小	9.2 GB

层组成

Layers  0–31:  Jackrong/Qwopus3.5-9B-v3.5         (Opus reasoning distill)
Layers 32–63:  Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1 reasoning distill)

Embeddings, LM head, MTP, vision encoder: from Qwopus3.5-9B-v3.5

源模型

源模型的所有功劳归于**Jackrong**，他创建了这两个出色的微调模型。我只是堆叠了层——模型质量源于他的工作。

Jackrong/Qwopus3.5-9B-v3.5

这是 Qwen3.5-9B 的推理增强型微调版本，其训练使用的 SFT 数据量约为 v3 版本的 2 倍，重点关注结构化推理、工具增强型工作流以及多步骤智能体任务。

v3.5 设计的核心见解：“扩大高质量 SFT 数据的规模可能会进一步提升大型语言模型的泛化能力。” 推理 SFT 帮助模型更好地利用现有知识，并通过结构化推理激活潜在知识，而不是简单地记忆冗长的思维链输出。

性能亮点（参考 27B 量级）：

MMLU-Pro：90.36% 准确率（较 v3 提升 1.07%）
智能体编码测试：43/44 通过（97.7%）

资源：

Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

这是 Qwen3.5-9B 的蒸馏变体，使用来自 GLM-5.1 教师模型的高质量推理数据进行训练（规模约为 Qwen3.5-reasoning-700x 的 700 倍）。重点关注结构化推理能力、指令遵循一致性和问题分解能力。

该模型学习了一种结构化推理框架：理解任务、分解问题、逐步推理，然后构建最终答案。

训练数据：

主要：Jackrong/GLM-5.1-Reasoning-1M-Cleaned（从 Kassadin88/GLM-5.1-1000000x 清理而来）
辅助：Jackrong/Qwen3.5-reasoning-700x

资源：

为何此方法有效

通过堆叠两个不同的蒸馏推理模型，本次合并结合了：

Qwopus v3.5 的优势：智能体工具使用、代码生成以及令牌高效推理（Opus 风格训练）
GLM-5.1 Distill 的优势：结构化问题分解、指令遵循度以及思维链组织（GLM 风格推理框架）

核心假设：具备多样化推理训练的更深层网络能够产生更稳健、更强大的模型——基准测试结果表明，至少在我们测试的能力范围内，该假设成立。

合并详情

方法：直通式拼接合并（层堆叠）
工具：自定义脚本（mergekit 不支持 Qwen3.5 的混合线性/全注意力架构）
嵌入层 / 语言模型头 / 视觉层 / MTP：来自 Qwopus3.5-9B-v3.5
精度：BF16 -> Q4_K_M GGUF
未进行额外训练

使用方法

使用 llama.cpp（推荐）

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

使用 Transformers

此 GGUF 仓库中未包含完整的 BF16 safetensors 文件。如果您需要这些文件进行进一步的微调或实验，请通过 X 联系。

局限性

实验性混合合并——未进行额外训练。两个源模型之间的层边界可能会偶尔导致连贯性或格式问题。
代码格式——模型有时会弄乱带围栏的代码块（返回的代码没有正确的 Markdown 围栏）。即使格式不正确，推理过程通常是正确的。
未经过全面测试——这只是一个周末的趣味项目。可能存在我们尚未发现的边缘情况。
幻觉风险——与所有自回归大型语言模型一样，输出可能包含事实错误。

支持的研究

两个源模型均参考：Ren et al., 2026 — Rethinking Generalization in Reasoning SFT（arXiv:2604.06628）

主要发现：充分训练后，推理 SFT 具有泛化能力；高质量的长 CoT 数据可实现跨域迁移；更强的模型学习的是推理结构，而非仅仅是更长的输出。

致谢

Jackrong — 真正的 MVP。两个源模型、训练管道、数据集和文档均为他的成果。之所以能进行此次合并，是因为他的微调模型质量极高，即使是简单堆叠也能产生出乎意料的强大效果。
Qwen 提供了出色的 Qwen3.5-9B 基础模型
Unsloth AI 提供了高效的微调基础设施
GLM-5.1 团队 提供了蒸馏中使用的教师模型
Kassadin88 提供了原始的 GLM-5.1-1000000x 数据集
更广泛的开源社区

有问题？

这只是出于兴趣的项目——如果您有问题、发现问题或使用它构建了有趣的东西，请通过 X 联系！

@KyleHessling1

引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

Qwopus-GLM-18B-Merged (Healed)

修复微调 — 效果显著

我们使用 Jackrong 自己的训练数据进行了1000 步 QLoRA 修复微调，让梯度能够跨层边界流动——结果显著：

HTML 生成现在清晰且达到生产质量。 我们测试了一个复杂的单页天气仪表板（导航栏、暗模式切换、5 天预报网格、响应式侧边栏、CSS 变量、JavaScript）——该模型生成了超过 14,500 字符的有效 HTML/CSS/JS，CSS 花括号完美匹配，JS 括号完美平衡，无乱码文本，并完整闭合 </html>。
编程基准测试有所提升： 从 11/15（原始）提升至 12/15（修复后），恢复了 longest_substring 滑动窗口算法测试（8/8 案例通过）
总体得分提升： 从 39/44 提升至40/44（90.9%），在显存占用不到一半的情况下，仍轻松超过 Qwen 3.6 MoE（38/44）
训练期间损失下降 39%（从 1.02 降至 0.62），证实层边界确实是训练可以解决的错误来源

本仓库中仅提供修复后的 GGUF 版本（Qwopus-GLM-18B-Healed-Q4_K_M.gguf）。如果您出于研究目的对原始未修复的合并模型感兴趣，请联系我们。

这仍然是一个实验性模型——可能存在一些特性或问题。如果您遇到任何异常情况，或者用它做出了很酷的东西，请在 X 上联系：@KyleHessling1

基准测试结果

我们运行了一套包含44项测试的能力套件，涵盖基础生成、推理、工具调用、智能体工作流、结构化输出、上下文处理、多语言、编程和性能等方面。

尽管修复后的合并模型体积明显更小（Q4_K_M，9.2 GB），但其性能优于全新的Qwen 3.6-35B-A3B MoE（Q4_K_M，22 GB）：

类别	Qwopus 9B（源模型）	Qwopus-GLM-18B（修复后）	Qwen 3.6-35B MoE
基础能力	6/6	6/6	5/6
推理能力	4/4	4/4	4/4
工具调用	6/6	6/6	6/6
智能体能力	4/4	4/4	4/4
结构化输出	2/2	2/2	2/2
上下文处理	2/3	2/3	2/3
多语言能力	2/2	2/2	2/2
编程能力	13/15	12/15	12/15
性能表现	2/2	2/2	1/2
总计	41/44（93.2%）	40/44（90.9%）	38/44（86.4%）
吞吐量	126.0 tok/s	66.0 tok/s	174.2 tok/s
GGUF 大小	5.3 GB	9.2 GB	22 GB

核心要点

40/44 项测试通过（修复后达到90.9%）——在显存占用不到一半的情况下，优于 Qwen 3.6 MoE 的 38/44（86.4%）
修复训练恢复了编程能力：原始版本 11/15 -> 修复后 12/15（与 Qwen 3.6 MoE 持平）
完美的工具调用（6/6）——包括单次调用、可选参数、工具选择、复杂参数及响应处理
完美的智能体推理（4/4）——包括计划生成、多步骤工具工作流、错误恢复和自我修正
在所有测试模型中中文输出密度最高：129-138 个 CJK 字符
约 66 tok/s 的吞吐量，且方差低——推理稳定
Q4_K_M 量化下仅需 12 GB 显存——可在 RTX 3060/4070 等消费级 GPU 上运行

修复微调详情

方法：QLoRA（4-bit NF4），LoRA 秩 64，目标为所有注意力层和 MLP 投影层
数据：混合 Jackrong/Qwen3.5-reasoning-700x（70%）、Jackrong/Competitive-Programming-python-blend（15%）、Jackrong/MultiReason-ChatAlpaca（15%）
训练：1000 步，批大小 8，学习率 2e-5（余弦调度），在 RTX 5090 上耗时约 14 小时
损失：1.02 -> 0.62（降低 39%）
结果：恢复了 1 项编程测试，HTML/CSS 输出现在清晰且达到生产级别质量

不足之处

前端代码生成——压力测试结果

测试	需求内容	通过检查项	输出大小
天气仪表盘	响应式仪表盘、CSS 变量、深色模式切换、5 天预报网格	9/9	14.5K 字符
电子商务产品页面	图片画廊、颜色选择器、数量选择器、选项卡内容、移动端粘性栏	12/12	16.7K 字符
动画 SaaS 着陆页	动态渐变、打字动画、IntersectionObserver 滚动显示、自动轮播推荐语、3 种定价方案	13/13	24.1K 字符
分析仪表盘	带工具提示的 SVG 柱状图、SVG 环形图、可排序数据表格、可折叠侧边栏、深色主题	13/13	22.3K 字符
多步骤注册	3 步表单向导、实时验证、密码强度指示器、州/省下拉菜单、动画过渡、成功模态框	12/12	23.3K 字符
贪吃蛇游戏	Canvas 游戏循环、方向键控制、碰撞检测、localStorage 高分记录、难度递增	11/12	11.2K 字符

总计 63 项检查中通过 62 项（98.4%）

所有输出均具备：

完美匹配的 CSS 花括号（所有 6 个文件中均无失衡情况）
完美匹配的 JS 括号（所有 6 个文件中均无失衡情况）
无乱码或虚构文本
可正常运行的 JavaScript——深色模式切换、IntersectionObserver 动画、SVG 图表渲染、表单验证、Canvas 游戏循环

唯一的疏漏：贪吃蛇游戏在结尾处有一个小的闭合标签拼写错误（应为 </html>，却写成了 html>）。

所有 6 个示例 HTML 文件均包含在本仓库的 samples/ 目录中——下载后在浏览器中打开即可亲自查看。

架构

属性	值
总层数	64（32 + 32）
总参数数量	~180亿
隐藏层大小	4096
注意力头数	16（4个KV头，GQA）
中间层大小	12288
上下文长度	262,144个token
注意力类型	混合（线性+全量，每4层）
GGUF Q4_K_M 大小	9.2 GB

层组成

Layers  0–31:  Jackrong/Qwopus3.5-9B-v3.5         (Opus reasoning distill)
Layers 32–63:  Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1 reasoning distill)

Embeddings, LM head, MTP, vision encoder: from Qwopus3.5-9B-v3.5

源模型

源模型的所有功劳归于**Jackrong**，他创建了这两个出色的微调模型。我只是堆叠了层——模型质量源于他的工作。

Jackrong/Qwopus3.5-9B-v3.5

这是 Qwen3.5-9B 的推理增强型微调版本，其训练使用的 SFT 数据量约为 v3 版本的 2 倍，重点关注结构化推理、工具增强型工作流以及多步骤智能体任务。

性能亮点（参考 27B 量级）：

MMLU-Pro：90.36% 准确率（较 v3 提升 1.07%）
智能体编码测试：43/44 通过（97.7%）

资源：

Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

该模型学习了一种结构化推理框架：理解任务、分解问题、逐步推理，然后构建最终答案。

训练数据：

主要：Jackrong/GLM-5.1-Reasoning-1M-Cleaned（从 Kassadin88/GLM-5.1-1000000x 清理而来）
辅助：Jackrong/Qwen3.5-reasoning-700x

资源：

为何此方法有效

通过堆叠两个不同的蒸馏推理模型，本次合并结合了：

Qwopus v3.5 的优势：智能体工具使用、代码生成以及令牌高效推理（Opus 风格训练）
GLM-5.1 Distill 的优势：结构化问题分解、指令遵循度以及思维链组织（GLM 风格推理框架）

核心假设：具备多样化推理训练的更深层网络能够产生更稳健、更强大的模型——基准测试结果表明，至少在我们测试的能力范围内，该假设成立。

合并详情

方法：直通式拼接合并（层堆叠）
工具：自定义脚本（mergekit 不支持 Qwen3.5 的混合线性/全注意力架构）
嵌入层 / 语言模型头 / 视觉层 / MTP：来自 Qwopus3.5-9B-v3.5
精度：BF16 -> Q4_K_M GGUF
未进行额外训练

使用方法

使用 llama.cpp（推荐）

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

使用 Transformers

此 GGUF 仓库中未包含完整的 BF16 safetensors 文件。如果您需要这些文件进行进一步的微调或实验，请通过 X 联系。

局限性

实验性混合合并——未进行额外训练。两个源模型之间的层边界可能会偶尔导致连贯性或格式问题。
代码格式——模型有时会弄乱带围栏的代码块（返回的代码没有正确的 Markdown 围栏）。即使格式不正确，推理过程通常是正确的。
未经过全面测试——这只是一个周末的趣味项目。可能存在我们尚未发现的边缘情况。
幻觉风险——与所有自回归大型语言模型一样，输出可能包含事实错误。

支持的研究

两个源模型均参考：Ren et al., 2026 — Rethinking Generalization in Reasoning SFT（arXiv:2604.06628）

主要发现：充分训练后，推理 SFT 具有泛化能力；高质量的长 CoT 数据可实现跨域迁移；更强的模型学习的是推理结构，而非仅仅是更长的输出。

致谢

Jackrong — 真正的 MVP。两个源模型、训练管道、数据集和文档均为他的成果。之所以能进行此次合并，是因为他的微调模型质量极高，即使是简单堆叠也能产生出乎意料的强大效果。
Qwen 提供了出色的 Qwen3.5-9B 基础模型
Unsloth AI 提供了高效的微调基础设施
GLM-5.1 团队 提供了蒸馏中使用的教师模型
Kassadin88 提供了原始的 GLM-5.1-1000000x 数据集
更广泛的开源社区

有问题？

这只是出于兴趣的项目——如果您有问题、发现问题或使用它构建了有趣的东西，请通过 X 联系！

@KyleHessling1

引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}