⚡ 每一笔捐赠 = 又一个大型 MoE 模型的量化

我独立研究并托管了 25+ 个免费的 APEX MoE 量化版本。我本地唯一的硬件是 NVIDIA DGX Spark（122 GB 统一内存）—— 足够处理 ~30-50B 级别的 MoE 模型，但 更大的模型（200B+）需要租用 H100/H200/Blackwell 等算力，通常每个量化版本的成本在 20-100 美元。
如果 APEX 量化版本对您有用，您的支持将直接资助这些更大规模模型的量化工作。

🎉 Patreon（月付） | ☕ 请我喝杯咖啡 | ⭐ GitHub 赞助

💚 特别感谢 Hugging Face 慷慨捐赠额外的存储空间 —— 非常感激。

Qwen 3.6 35B-A3B APEX GGUF

Qwen/Qwen3.6-35B-A3B 的 APEX（专家模型自适应精度） 量化版本。

由 LocalAI 团队呈现 | APEX 项目 | 技术报告

基准测试结果

所有基准测试均在 NVIDIA GB10（122 GB VRAM）上使用 llama.cpp b8797 版本运行。困惑度（Perplexity）和 KL 散度基于 wikitext-2 数据集测量。HellaSwag 零样本（400 个任务）。KL 散度计算基于 BF16 参考 logits。

APEX 与基线对比（unsloth UD 量化版本）

模型	大小	困惑度 ↓	KL 均值 ↓	KL 中位数 ↓	KL 最大值 ↓	HellaSwag ↑
BF16（参考）	65 GB	6.722	—	—	—	—
Q8_0	35 GB	6.720	0.0059	0.0022	9.72	82.5%
UD-Q5_K_XL	25 GB	6.725	0.0083	0.0030	9.06	82.8%
UD-Q5_K_S	24 GB	6.728	0.0095	0.0035	8.72	82.8%
APEX I-Balanced	24 GB	6.727	0.0103	0.0041	4.53	83.0%
APEX Balanced	24 GB	6.726	0.0117	0.0047	14.14	83.0%
APEX I-Quality	22 GB	6.735	0.0141	0.0054	5.69	82.5%
APEX Quality	22 GB	6.753	0.0155	0.0060	13.01	82.8%
UD-Q4_K_XL	21 GB	6.735	0.0134	0.0050	5.14	82.3%
UD-Q4_K_M	21 GB	6.736	0.0138	0.0054	7.86	83.3%
APEX I-Compact	17 GB	6.857	0.0451	0.0182	8.76	83.5%
APEX Compact	17 GB	6.862	0.0614	0.0261	17.58	83.3%
UD-Q3_K_M	16 GB	6.883	0.0435	0.0163	9.37	82.8%
APEX I-Mini	14 GB	7.238	0.0999	0.0414	9.21	82.8%

完整基准测试摘要

KL 最大值对比

APEX 与基线对比

亮点

APEX I-Balanced（24 GB）实现了所有测试量化方案中最低的 KL max（4.53）——甚至低于 Q8_0（9.72）。imatrix 大幅降低了最坏情况下的偏离度，同时在困惑度上与 UD-Q5_K_S 相当。
在 17 GB 时，APEX I-Compact 在 PPL（6.857 vs 6.883）和 HellaSwag（83.5% vs 82.8%）上优于 UD-Q3_K_M（16 GB）。
imatrix 持续将 KL max 减半：I-Balanced 4.53 vs Balanced 14.14，I-Quality 5.69 vs Quality 13.01。
APEX I-Mini（14 GB） 以最小的体积提供了可用的质量（PPL 7.24，HellaSwag 82.8%）。

可用文件

文件	配置文件	大小	最适合场景
Qwen3.6-35B-A3B-APEX-I-Balanced.gguf	I-Balanced	24 GB	整体最佳——所有量化方案中最低的 KL max
Qwen3.6-35B-A3B-APEX-I-Quality.gguf	I-Quality	22 GB	最高质量（带 imatrix），小 2 GB
Qwen3.6-35B-A3B-APEX-Quality.gguf	Quality	22 GB	最高质量标准
Qwen3.6-35B-A3B-APEX-Balanced.gguf	Balanced	24 GB	通用目的
Qwen3.6-35B-A3B-APEX-I-Compact.gguf	I-Compact	17 GB	消费级 GPU，质量优于 UD-Q3_K_M
Qwen3.6-35B-A3B-APEX-Compact.gguf	Compact	17 GB	消费级 GPU
Qwen3.6-35B-A3B-APEX-I-Mini.gguf	I-Mini	14 GB	最小可行体积，最快推理速度
mmproj.gguf	视觉投影器	~1 GB	图像理解必需

什么是 APEX？

APEX 是一种适用于混合专家（MoE）模型的量化策略。它按角色（路由专家、共享专家、注意力）对张量进行分类，并应用逐层精度梯度——边缘层获得更高精度，中间层进行更激进的压缩。I 变体使用多样化的 imatrix 校准（聊天、代码、推理、工具调用、智能体轨迹、维基百科）。

核心见解：在 MoE 模型中，专家 FFN 张量构成了模型权重的大部分，但每个 token 仅激活约 8/256 个专家。APEX 对中间层专家进行更激进的压缩，同时保留边缘层（前 5 层/后 5 层），并将注意力、SSM/Mamba 和共享专家张量保持在更高精度。

有关完整详情、技术报告和脚本，请参见 APEX 项目。

架构

模型：Qwen 3.6 35B-A3B（Qwen/Qwen3.6-35B-A3B）
层数：40
专家：256个路由专家+共享专家（每token激活8个）
总参数：约350亿
激活参数：每token约30亿
注意力机制：混合式（每4层使用全注意力，其他层使用线性/Mamba注意力）
视觉能力：内置视觉编码器（包含mmproj）
APEX配置：40层上采用5+5对称边缘梯度
校准：v1.3多样化数据集（对话、代码、推理、多语言、工具调用、维基百科）
llama.cpp：基于b8797版本构建

使用LocalAI运行

local-ai run mudler/Qwen3.6-35B-A3B-APEX-GGUF@Qwen3.6-35B-A3B-APEX-I-Balanced.gguf

致谢

APEX 由 LocalAI 团队开发。该项目通过人工驱动、AI 辅助的研究方式完成，并基于 llama.cpp 构建。