HuggingFace镜像/Qwopus-GLM-18B-Merged-GGUF

Qwopus-GLM-18B-Merged 🧪

这是一个64层的混合合并模型，融合了Jackrong的两个出色Qwen3.5-9B微调模型。通过堆叠每个模型的全部32层，构建出一个约180亿参数的模型，随后通过1000步LoRA微调进行修复，以平滑层间边界。

这是一次有趣的实验！ 很多人一直在寻求介于Jackrong的27B和9B模型之间的方案——一种能在12–16 GB GPU上流畅运行的模型。这次混合合并正是为填补这一空白而尝试，结果令人惊喜。

[!NOTE] 感谢本模型的创建者@KyleHessling1 🙌 这仍是一个实验性模型，因此可能存在一些特性或问题。如果您遇到任何异常情况，或者用它做出了有趣的成果，请通过X联系。

修复微调——行之有效 🛠️

原始的混合合并模型存在一个已知问题：代码输出混乱。由于两个独立训练的模型在第32层处堆叠，结构化输出（代码块、HTML、括号匹配）偶尔会出现格式错误或幻觉内容。

我们使用Jackrong自己的训练数据进行了1000步QLoRA修复微调，让梯度能够跨层边界流动——结果显著：

HTML生成现在清晰且达到生产质量。 我们测试了一个复杂的单页天气仪表板（导航栏、深色模式切换、5天预报网格、响应式侧边栏、CSS变量、JavaScript）——模型生成了超过14,500字符的有效HTML/CSS/JS，CSS花括号完美匹配，JS括号完美平衡，无混乱文本，并且完整闭合了</html>标签。
编程基准测试有所提升： 从11/15（原始模型）提升至12/15（修复后），成功恢复了longest_substring滑动窗口算法测试（8/8案例通过）
总体得分提升： 从39/44提升至40/44（90.9%），在显存占用不到一半的情况下，仍轻松超过Qwen 3.6 MoE（38/44）
训练期间损失下降39%（从1.02降至0.62），证实层边界确实是训练可以解决的错误来源

本仓库中仅提供修复后的GGUF版本（Qwopus-GLM-18B-Healed-Q4_K_M.gguf）。如果您出于研究目的对原始未修复的合并模型感兴趣，请联系我们。

基准测试结果 📊

我们运行了一套包含44项测试的能力套件，涵盖基础生成、推理、工具调用、智能体工作流、结构化输出、上下文处理、多语言、编程和性能等方面。

尽管修复后的模型规模明显更小（Q4_K_M，9.2 GB），但其性能优于全新的Qwen 3.6-35B-A3B MoE（Q4_K_M，22 GB）：

类别	Qwopus 9B（源模型）	Qwopus-GLM-18B（修复后）	Qwen 3.6-35B MoE
基础能力	6/6	6/6	5/6
推理能力	4/4	4/4	4/4
工具调用	6/6	6/6	6/6
智能体能力	4/4	4/4	4/4
结构化输出	2/2	2/2	2/2
上下文处理	2/3	2/3	2/3
多语言能力	2/2	2/2	2/2
编程能力	13/15	12/15	12/15
性能表现	2/2	2/2	1/2
总计	41/44（93.2%）	40/44（90.9%）	38/44（86.4%）
吞吐量	126.0 令牌/秒	66.0 令牌/秒	174.2 令牌/秒
GGUF 大小	5.3 GB	9.2 GB	22 GB

核心要点

40/44 项测试通过（修复后达90.9%）——以不到一半的显存占用击败了Qwen 3.6 MoE的38/44（86.4%）
修复训练恢复了编程能力：原始11/15提升至修复后12/15（与Qwen 3.6 MoE持平）
完美的工具调用（6/6）——包括单一调用、可选参数、工具选择、复杂参数及响应处理
完美的智能体推理（4/4）——涵盖计划生成、多步骤工具工作流、错误恢复和自我修正
测试模型中最高的中文输出密度：129-138个CJK字符
约66 令牌/秒，吞吐量方差低——推理稳定
Q4_K_M 量化下仅需12 GB显存——可在RTX 3060/4070等消费级GPU上运行

[!WARNING] 本模型尚未经过完整或全面的评估。这些基准测试结果仅供参考。

修复微调详情

原始的“缝合”模型存在代码格式问题（代码块混乱、括号缺失）。我们使用Jackrong的训练数据进行了1000步QLoRA修复微调，以平滑第32层的边界：

方法：QLoRA（4位NF4），LoRA秩64，目标为所有注意力层和MLP投影层
数据：混合 Jackrong/Qwen3.5-reasoning-700x（70%）、Jackrong/Competitive-Programming-python-blend（15%）、Jackrong/MultiReason-ChatAlpaca（15%）
训练：1000步，批次大小8，学习率2e-5（余弦调度），在RTX 5090上耗时约14小时
损失：1.02 降至 0.62（降低39%）
结果：恢复了1项编程测试，HTML/CSS输出现在清晰且达到生产质量

不足之处

修复后的版本仍有三项编程测试未通过：一是函数命名问题，二是缺少 JS 括号，三是在生成 pytest 时未生成代码块。这些都是合并过程中残留的格式问题。

前端代码生成 — 压力测试结果 🎨

我们对修复后的模型进行了严格的前端压力测试：6 项复杂度逐渐增加的 HTML/CSS/JS 生成任务，每项任务都需要生成数千 token 的结构有效的代码。测试结果不言而喻：

测试	需求内容	通过检查项	输出大小
天气仪表盘	响应式仪表盘、CSS 变量、深色模式切换、5 天预报网格	9/9	14.5K 字符
电子商务产品页面	图片画廊、颜色选择器、数量选择器、选项卡内容、移动端粘性栏	12/12	16.7K 字符
动画 SaaS 着陆页	动态渐变、打字动画、IntersectionObserver 滚动显示、自动轮播推荐语、3 种定价方案	13/13	24.1K 字符
分析仪表盘	带工具提示的 SVG 柱状图、SVG 环形图、可排序数据表格、可折叠侧边栏、深色主题	13/13	22.3K 字符
多步骤注册	3 步表单向导、实时验证、密码强度指示器、州/省下拉菜单、动画过渡、成功模态框	12/12	23.3K 字符
贪吃蛇游戏	Canvas 游戏循环、方向键控制、碰撞检测、localStorage 最高分、难度递增	11/12	11.2K 字符

共 63 项检查，通过 62 项（98.4%）

所有输出均具备：

完美匹配的 CSS 花括号（所有 6 个文件均无失衡）
完美匹配的 JS 括号（所有 6 个文件均无失衡）
无乱码或虚构文本
可运行的 JavaScript — 深色模式切换、IntersectionObserver 动画、SVG 图表渲染、表单验证、Canvas 游戏循环

唯一的失误：贪吃蛇游戏在末尾有一个小的闭合标签拼写错误（应为 </html>，实为 html>）。

对于两个 9B 模型的“拼接合并”，仅通过 1000 步 QLoRA 修复就能达到这样的效果，实属难得。该模型能够生成生产级别的前端代码 — 不仅是语法有效的 HTML，还包括具有现代 CSS（Grid、Flexbox、自定义属性、关键帧动画）和复杂 JavaScript（IntersectionObserver、requestAnimationFrame 游戏循环、实时表单验证、SVG 图表生成）的高级交互式应用。

所有 6 个示例 HTML 文件均包含在本仓库的 samples/ 目录中 — 下载后在浏览器中打开即可亲自查看。

架构 🧱

属性	值
总层数	64（32 + 32）
总参数数量	~180亿
隐藏层大小	4096
注意力头数	16（4个KV头，GQA）
中间层大小	12288
上下文长度	262,144 tokens
注意力类型	混合（线性+全量，每4层）
GGUF Q4_K_M 大小	9.2 GB

层组成

Layers  0–31:  Jackrong/Qwopus3.5-9B-v3.5         (Opus reasoning distill)
Layers 32–63:  Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1 reasoning distill)

Embeddings, LM head, MTP, vision encoder: from Qwopus3.5-9B-v3.5

源模型 🧬

源模型的所有功劳归于 Jackrong，是他创建了这两个出色的微调模型。我所做的仅仅是进行了层堆叠——模型的质量源于他的工作。

Jackrong/Qwopus3.5-9B-v3.5

这是 Qwen3.5-9B 的推理增强型微调版本，其训练使用的 SFT 数据量约为 v3 版本的 2 倍，重点关注结构化推理、工具增强型工作流以及多步骤智能体任务。

v3.5 版本设计的核心见解：“扩展高质量 SFT 数据可能进一步增强大型语言模型的泛化能力。” 推理 SFT 帮助模型更好地利用现有知识，并通过结构化推理激活潜在知识，而不是简单地记忆冗长的思维链输出。

性能亮点（参考 270 亿参数模型水平）：

MMLU-Pro：90.36% 准确率（较 v3 版本提升 1.07%）
智能体编码测试：44 项中通过 43 项（97.7%）

相关资源：

Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

这是 Qwen3.5-9B 的蒸馏变体，使用来自 GLM-5.1 教师模型的高质量推理数据进行训练（规模约为 Qwen3.5-reasoning-700x 的 700 倍）。该模型专注于结构化推理能力、指令遵循一致性和问题分解能力。

该模型学习了一种结构化的推理框架：理解任务、分解问题、逐步推理，然后构建最终答案。

训练数据：

主要数据：Jackrong/GLM-5.1-Reasoning-1M-Cleaned（基于 Kassadin88/GLM-5.1-1000000x 清理得到）
辅助数据：Jackrong/Qwen3.5-reasoning-700x

相关资源：

为何有效 🤔

通过堆叠两个不同蒸馏方式的推理模型，此次合并结合了：

Qwopus v3.5 的优势：智能体工具使用、代码生成以及高效 token 推理（Opus 风格训练）
GLM-5.1 Distill 的优势：结构化问题分解、指令遵循度以及思维链组织（GLM 风格推理框架）

核心假设：具备多样化推理训练的更深层网络能够生成更稳健、更强大的模型——而基准测试结果表明，至少在我们测试的能力范围内，这一假设是成立的。

合并详情

方法：直通式拼接合并（层堆叠）
工具：自定义脚本（mergekit 不支持 Qwen3.5 的混合线性/全注意力架构）
嵌入层 / 语言模型头 / 视觉模块 / MTP：来自 Qwopus3.5-9B-v3.5
精度：BF16 -> Q4_K_M GGUF
未进行额外训练

使用方法 🚀

通过 llama.cpp（推荐）

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

使用 Transformers

此 GGUF 仓库中未包含完整的 BF16 safetensors 文件。如果您需要这些文件进行进一步的微调或实验，请通过 X 联系。

局限性 ⚠️

实验性混合合并——未进行额外训练。两个源模型之间的层边界可能会偶尔导致连贯性或格式问题。
代码格式——模型有时会弄乱带分隔符的代码块（返回的代码没有正确的 Markdown 分隔符）。即使格式不正确，推理过程通常是正确的。
未经过全面测试——这只是一个周末的趣味项目。可能存在我们尚未发现的边缘情况。
幻觉风险——与所有自回归大型语言模型一样，输出可能包含事实错误。

支持的研究

两个源模型均参考：Ren et al., 2026 — Rethinking Generalization in Reasoning SFT（arXiv:2604.06628）

主要发现：充分训练后，推理 SFT 具有泛化能力；高质量的长 CoT 数据可实现跨域迁移；更强的模型学习的是推理结构，而非仅仅是更长的输出。

致谢 🙏

Jackrong——真正的关键贡献者。两个源模型、训练管道、数据集和文档均为他的成果。之所以能进行此次合并，是因为他的微调模型质量极高，即使是简单地堆叠它们也能产生出乎意料的强大效果。
Qwen 提供了出色的 Qwen3.5-9B 基础模型
Unsloth AI 提供了高效的微调基础设施
GLM-5.1 团队 提供了蒸馏中使用的教师模型
Kassadin88 提供了原始的 GLM-5.1-1000000x 数据集
更广泛的开源社区

有问题？💬

这只是出于兴趣——如果您有问题、发现问题或使用它构建了有趣的东西，请通过 X 联系！

@KyleHessling1

[!WARNING] ⚠️ 这是一个实验性测试模型，作为有趣的社区探索项目的一部分创建。它是一个未经额外训练后处理或全面安全评估的混合合并模型。因此，该模型可能表现出不稳定的行为、格式错误、推理不一致或其他意外现象。它仅用于研究和实验目的。

引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

Qwopus-GLM-18B-Merged 🧪

[!NOTE] 感谢本模型的创建者@KyleHessling1 🙌 这仍是一个实验性模型，因此可能存在一些特性或问题。如果您遇到任何异常情况，或者用它做出了有趣的成果，请通过X联系。

修复微调——行之有效 🛠️

我们使用Jackrong自己的训练数据进行了1000步QLoRA修复微调，让梯度能够跨层边界流动——结果显著：

HTML生成现在清晰且达到生产质量。 我们测试了一个复杂的单页天气仪表板（导航栏、深色模式切换、5天预报网格、响应式侧边栏、CSS变量、JavaScript）——模型生成了超过14,500字符的有效HTML/CSS/JS，CSS花括号完美匹配，JS括号完美平衡，无混乱文本，并且完整闭合了</html>标签。
编程基准测试有所提升： 从11/15（原始模型）提升至12/15（修复后），成功恢复了longest_substring滑动窗口算法测试（8/8案例通过）
总体得分提升： 从39/44提升至40/44（90.9%），在显存占用不到一半的情况下，仍轻松超过Qwen 3.6 MoE（38/44）
训练期间损失下降39%（从1.02降至0.62），证实层边界确实是训练可以解决的错误来源

本仓库中仅提供修复后的GGUF版本（Qwopus-GLM-18B-Healed-Q4_K_M.gguf）。如果您出于研究目的对原始未修复的合并模型感兴趣，请联系我们。

基准测试结果 📊

我们运行了一套包含44项测试的能力套件，涵盖基础生成、推理、工具调用、智能体工作流、结构化输出、上下文处理、多语言、编程和性能等方面。

尽管修复后的模型规模明显更小（Q4_K_M，9.2 GB），但其性能优于全新的Qwen 3.6-35B-A3B MoE（Q4_K_M，22 GB）：

类别	Qwopus 9B（源模型）	Qwopus-GLM-18B（修复后）	Qwen 3.6-35B MoE
基础能力	6/6	6/6	5/6
推理能力	4/4	4/4	4/4
工具调用	6/6	6/6	6/6
智能体能力	4/4	4/4	4/4
结构化输出	2/2	2/2	2/2
上下文处理	2/3	2/3	2/3
多语言能力	2/2	2/2	2/2
编程能力	13/15	12/15	12/15
性能表现	2/2	2/2	1/2
总计	41/44（93.2%）	40/44（90.9%）	38/44（86.4%）
吞吐量	126.0 令牌/秒	66.0 令牌/秒	174.2 令牌/秒
GGUF 大小	5.3 GB	9.2 GB	22 GB

核心要点

40/44 项测试通过（修复后达90.9%）——以不到一半的显存占用击败了Qwen 3.6 MoE的38/44（86.4%）
修复训练恢复了编程能力：原始11/15提升至修复后12/15（与Qwen 3.6 MoE持平）
完美的工具调用（6/6）——包括单一调用、可选参数、工具选择、复杂参数及响应处理
完美的智能体推理（4/4）——涵盖计划生成、多步骤工具工作流、错误恢复和自我修正
测试模型中最高的中文输出密度：129-138个CJK字符
约66 令牌/秒，吞吐量方差低——推理稳定
Q4_K_M 量化下仅需12 GB显存——可在RTX 3060/4070等消费级GPU上运行

[!WARNING] 本模型尚未经过完整或全面的评估。这些基准测试结果仅供参考。

修复微调详情

原始的“缝合”模型存在代码格式问题（代码块混乱、括号缺失）。我们使用Jackrong的训练数据进行了1000步QLoRA修复微调，以平滑第32层的边界：

方法：QLoRA（4位NF4），LoRA秩64，目标为所有注意力层和MLP投影层
数据：混合 Jackrong/Qwen3.5-reasoning-700x（70%）、Jackrong/Competitive-Programming-python-blend（15%）、Jackrong/MultiReason-ChatAlpaca（15%）
训练：1000步，批次大小8，学习率2e-5（余弦调度），在RTX 5090上耗时约14小时
损失：1.02 降至 0.62（降低39%）
结果：恢复了1项编程测试，HTML/CSS输出现在清晰且达到生产质量

不足之处

前端代码生成 — 压力测试结果 🎨

测试	需求内容	通过检查项	输出大小
天气仪表盘	响应式仪表盘、CSS 变量、深色模式切换、5 天预报网格	9/9	14.5K 字符
电子商务产品页面	图片画廊、颜色选择器、数量选择器、选项卡内容、移动端粘性栏	12/12	16.7K 字符
动画 SaaS 着陆页	动态渐变、打字动画、IntersectionObserver 滚动显示、自动轮播推荐语、3 种定价方案	13/13	24.1K 字符
分析仪表盘	带工具提示的 SVG 柱状图、SVG 环形图、可排序数据表格、可折叠侧边栏、深色主题	13/13	22.3K 字符
多步骤注册	3 步表单向导、实时验证、密码强度指示器、州/省下拉菜单、动画过渡、成功模态框	12/12	23.3K 字符
贪吃蛇游戏	Canvas 游戏循环、方向键控制、碰撞检测、localStorage 最高分、难度递增	11/12	11.2K 字符

共 63 项检查，通过 62 项（98.4%）

所有输出均具备：

完美匹配的 CSS 花括号（所有 6 个文件均无失衡）
完美匹配的 JS 括号（所有 6 个文件均无失衡）
无乱码或虚构文本
可运行的 JavaScript — 深色模式切换、IntersectionObserver 动画、SVG 图表渲染、表单验证、Canvas 游戏循环

唯一的失误：贪吃蛇游戏在末尾有一个小的闭合标签拼写错误（应为 </html>，实为 html>）。

所有 6 个示例 HTML 文件均包含在本仓库的 samples/ 目录中 — 下载后在浏览器中打开即可亲自查看。

架构 🧱

属性	值
总层数	64（32 + 32）
总参数数量	~180亿
隐藏层大小	4096
注意力头数	16（4个KV头，GQA）
中间层大小	12288
上下文长度	262,144 tokens
注意力类型	混合（线性+全量，每4层）
GGUF Q4_K_M 大小	9.2 GB

层组成

Layers  0–31:  Jackrong/Qwopus3.5-9B-v3.5         (Opus reasoning distill)
Layers 32–63:  Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1  (GLM-5.1 reasoning distill)

Embeddings, LM head, MTP, vision encoder: from Qwopus3.5-9B-v3.5

源模型 🧬

源模型的所有功劳归于 Jackrong，是他创建了这两个出色的微调模型。我所做的仅仅是进行了层堆叠——模型的质量源于他的工作。

Jackrong/Qwopus3.5-9B-v3.5

这是 Qwen3.5-9B 的推理增强型微调版本，其训练使用的 SFT 数据量约为 v3 版本的 2 倍，重点关注结构化推理、工具增强型工作流以及多步骤智能体任务。

性能亮点（参考 270 亿参数模型水平）：

MMLU-Pro：90.36% 准确率（较 v3 版本提升 1.07%）
智能体编码测试：44 项中通过 43 项（97.7%）

相关资源：

Jackrong/Qwen3.5-9B-GLM5.1-Distill-v1

该模型学习了一种结构化的推理框架：理解任务、分解问题、逐步推理，然后构建最终答案。

训练数据：

主要数据：Jackrong/GLM-5.1-Reasoning-1M-Cleaned（基于 Kassadin88/GLM-5.1-1000000x 清理得到）
辅助数据：Jackrong/Qwen3.5-reasoning-700x

相关资源：

为何有效 🤔

通过堆叠两个不同蒸馏方式的推理模型，此次合并结合了：

Qwopus v3.5 的优势：智能体工具使用、代码生成以及高效 token 推理（Opus 风格训练）
GLM-5.1 Distill 的优势：结构化问题分解、指令遵循度以及思维链组织（GLM 风格推理框架）

合并详情

方法：直通式拼接合并（层堆叠）
工具：自定义脚本（mergekit 不支持 Qwen3.5 的混合线性/全注意力架构）
嵌入层 / 语言模型头 / 视觉模块 / MTP：来自 Qwopus3.5-9B-v3.5
精度：BF16 -> Q4_K_M GGUF
未进行额外训练

使用方法 🚀

通过 llama.cpp（推荐）

llama-server \
    -m Qwopus-GLM-18B-Merged-Q4_K_M.gguf \
    --chat-template-file your-qwen35-template.jinja \
    --ctx-size 65536 \
    --flash-attn on \
    --n-gpu-layers 99

使用 Transformers

此 GGUF 仓库中未包含完整的 BF16 safetensors 文件。如果您需要这些文件进行进一步的微调或实验，请通过 X 联系。

局限性 ⚠️

实验性混合合并——未进行额外训练。两个源模型之间的层边界可能会偶尔导致连贯性或格式问题。
代码格式——模型有时会弄乱带分隔符的代码块（返回的代码没有正确的 Markdown 分隔符）。即使格式不正确，推理过程通常是正确的。
未经过全面测试——这只是一个周末的趣味项目。可能存在我们尚未发现的边缘情况。
幻觉风险——与所有自回归大型语言模型一样，输出可能包含事实错误。

支持的研究

两个源模型均参考：Ren et al., 2026 — Rethinking Generalization in Reasoning SFT（arXiv:2604.06628）

主要发现：充分训练后，推理 SFT 具有泛化能力；高质量的长 CoT 数据可实现跨域迁移；更强的模型学习的是推理结构，而非仅仅是更长的输出。

致谢 🙏

Jackrong——真正的关键贡献者。两个源模型、训练管道、数据集和文档均为他的成果。之所以能进行此次合并，是因为他的微调模型质量极高，即使是简单地堆叠它们也能产生出乎意料的强大效果。
Qwen 提供了出色的 Qwen3.5-9B 基础模型
Unsloth AI 提供了高效的微调基础设施
GLM-5.1 团队 提供了蒸馏中使用的教师模型
Kassadin88 提供了原始的 GLM-5.1-1000000x 数据集
更广泛的开源社区

有问题？💬

这只是出于兴趣——如果您有问题、发现问题或使用它构建了有趣的东西，请通过 X 联系！

@KyleHessling1

[!WARNING] ⚠️ 这是一个实验性测试模型，作为有趣的社区探索项目的一部分创建。它是一个未经额外训练后处理或全面安全评估的混合合并模型。因此，该模型可能表现出不稳定的行为、格式错误、推理不一致或其他意外现象。它仅用于研究和实验目的。

引用

@misc{jackrong_qwopus35_9b_v35,
  title  = {Qwopus3.5-9B-v3.5},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}

@misc{jackrong_qwen35_9b_glm51_distill_v1,
  title  = {Qwen3.5-9B-GLM5.1-Distill-v1},
  author = {Jackrong},
  year   = {2026},
  publisher = {Hugging Face}
}