我独立研究并托管了 25+ 个免费的 APEX MoE 量化版本。我本地唯一的硬件是 NVIDIA DGX Spark(122 GB 统一内存)—— 足够处理 ~30-50B 级别的 MoE 模型,但 更大的模型(200B+)需要租用 H100/H200/Blackwell 等算力,通常每个量化版本的成本在 20-100 美元。
如果 APEX 量化版本对您有用,您的支持将直接资助这些更大规模模型的量化工作。
🎉 Patreon(月付) | ☕ 请我喝杯咖啡 | ⭐ GitHub 赞助
💚 特别感谢 Hugging Face 慷慨捐赠额外的存储空间 —— 非常感激。
Qwen/Qwen3.6-35B-A3B 的 APEX(专家模型自适应精度) 量化版本。
由 LocalAI 团队呈现 | APEX 项目 | 技术报告
所有基准测试均在 NVIDIA GB10(122 GB VRAM)上使用 llama.cpp b8797 版本运行。困惑度(Perplexity)和 KL 散度基于 wikitext-2 数据集测量。HellaSwag 零样本(400 个任务)。KL 散度计算基于 BF16 参考 logits。
| 模型 | 大小 | 困惑度 ↓ | KL 均值 ↓ | KL 中位数 ↓ | KL 最大值 ↓ | HellaSwag ↑ |
|---|---|---|---|---|---|---|
| BF16(参考) | 65 GB | 6.722 | — | — | — | — |
| Q8_0 | 35 GB | 6.720 | 0.0059 | 0.0022 | 9.72 | 82.5% |
| UD-Q5_K_XL | 25 GB | 6.725 | 0.0083 | 0.0030 | 9.06 | 82.8% |
| UD-Q5_K_S | 24 GB | 6.728 | 0.0095 | 0.0035 | 8.72 | 82.8% |
| APEX I-Balanced | 24 GB | 6.727 | 0.0103 | 0.0041 | 4.53 | 83.0% |
| APEX Balanced | 24 GB | 6.726 | 0.0117 | 0.0047 | 14.14 | 83.0% |
| APEX I-Quality | 22 GB | 6.735 | 0.0141 | 0.0054 | 5.69 | 82.5% |
| APEX Quality | 22 GB | 6.753 | 0.0155 | 0.0060 | 13.01 | 82.8% |
| UD-Q4_K_XL | 21 GB | 6.735 | 0.0134 | 0.0050 | 5.14 | 82.3% |
| UD-Q4_K_M | 21 GB | 6.736 | 0.0138 | 0.0054 | 7.86 | 83.3% |
| APEX I-Compact | 17 GB | 6.857 | 0.0451 | 0.0182 | 8.76 | 83.5% |
| APEX Compact | 17 GB | 6.862 | 0.0614 | 0.0261 | 17.58 | 83.3% |
| UD-Q3_K_M | 16 GB | 6.883 | 0.0435 | 0.0163 | 9.37 | 82.8% |
| APEX I-Mini | 14 GB | 7.238 | 0.0999 | 0.0414 | 9.21 | 82.8% |



| 文件 | 配置文件 | 大小 | 最适合场景 |
|---|---|---|---|
| Qwen3.6-35B-A3B-APEX-I-Balanced.gguf | I-Balanced | 24 GB | 整体最佳——所有量化方案中最低的 KL max |
| Qwen3.6-35B-A3B-APEX-I-Quality.gguf | I-Quality | 22 GB | 最高质量(带 imatrix),小 2 GB |
| Qwen3.6-35B-A3B-APEX-Quality.gguf | Quality | 22 GB | 最高质量标准 |
| Qwen3.6-35B-A3B-APEX-Balanced.gguf | Balanced | 24 GB | 通用目的 |
| Qwen3.6-35B-A3B-APEX-I-Compact.gguf | I-Compact | 17 GB | 消费级 GPU,质量优于 UD-Q3_K_M |
| Qwen3.6-35B-A3B-APEX-Compact.gguf | Compact | 17 GB | 消费级 GPU |
| Qwen3.6-35B-A3B-APEX-I-Mini.gguf | I-Mini | 14 GB | 最小可行体积,最快推理速度 |
| mmproj.gguf | 视觉投影器 | ~1 GB | 图像理解必需 |
APEX 是一种适用于混合专家(MoE)模型的量化策略。它按角色(路由专家、共享专家、注意力)对张量进行分类,并应用逐层精度梯度——边缘层获得更高精度,中间层进行更激进的压缩。I 变体使用多样化的 imatrix 校准(聊天、代码、推理、工具调用、智能体轨迹、维基百科)。
核心见解:在 MoE 模型中,专家 FFN 张量构成了模型权重的大部分,但每个 token 仅激活约 8/256 个专家。APEX 对中间层专家进行更激进的压缩,同时保留边缘层(前 5 层/后 5 层),并将注意力、SSM/Mamba 和共享专家张量保持在更高精度。
有关完整详情、技术报告和脚本,请参见 APEX 项目。
local-ai run mudler/Qwen3.6-35B-A3B-APEX-GGUF@Qwen3.6-35B-A3B-APEX-I-Balanced.ggufAPEX 由 LocalAI 团队开发。该项目通过人工驱动、AI 辅助的研究方式完成,并基于 llama.cpp 构建。