HuggingFace镜像/Qwen3.6-35B-A3B-APEX-GGUF
模型介绍文件和版本分析
下载使用量0

⚡ 每一笔捐赠 = 又一个大型 MoE 模型的量化

我独立研究并托管了 25+ 个免费的 APEX MoE 量化版本。我本地唯一的硬件是 NVIDIA DGX Spark(122 GB 统一内存)—— 足够处理 ~30-50B 级别的 MoE 模型,但 更大的模型(200B+)需要租用 H100/H200/Blackwell 等算力,通常每个量化版本的成本在 20-100 美元。
如果 APEX 量化版本对您有用,您的支持将直接资助这些更大规模模型的量化工作。

🎉 Patreon(月付)  |  ☕ 请我喝杯咖啡  |  ⭐ GitHub 赞助

💚 特别感谢 Hugging Face 慷慨捐赠额外的存储空间 —— 非常感激。

Qwen 3.6 35B-A3B APEX GGUF

Qwen/Qwen3.6-35B-A3B 的 APEX(专家模型自适应精度) 量化版本。

由 LocalAI 团队呈现 | APEX 项目 | 技术报告

基准测试结果

所有基准测试均在 NVIDIA GB10(122 GB VRAM)上使用 llama.cpp b8797 版本运行。困惑度(Perplexity)和 KL 散度基于 wikitext-2 数据集测量。HellaSwag 零样本(400 个任务)。KL 散度计算基于 BF16 参考 logits。

APEX 与基线对比(unsloth UD 量化版本)

模型大小困惑度 ↓KL 均值 ↓KL 中位数 ↓KL 最大值 ↓HellaSwag ↑
BF16(参考)65 GB6.722————
Q8_035 GB6.7200.00590.00229.7282.5%
UD-Q5_K_XL25 GB6.7250.00830.00309.0682.8%
UD-Q5_K_S24 GB6.7280.00950.00358.7282.8%
APEX I-Balanced24 GB6.7270.01030.00414.5383.0%
APEX Balanced24 GB6.7260.01170.004714.1483.0%
APEX I-Quality22 GB6.7350.01410.00545.6982.5%
APEX Quality22 GB6.7530.01550.006013.0182.8%
UD-Q4_K_XL21 GB6.7350.01340.00505.1482.3%
UD-Q4_K_M21 GB6.7360.01380.00547.8683.3%
APEX I-Compact17 GB6.8570.04510.01828.7683.5%
APEX Compact17 GB6.8620.06140.026117.5883.3%
UD-Q3_K_M16 GB6.8830.04350.01639.3782.8%
APEX I-Mini14 GB7.2380.09990.04149.2182.8%

完整基准测试摘要

KL 最大值对比

APEX 与基线对比

亮点

  • APEX I-Balanced(24 GB)实现了所有测试量化方案中最低的 KL max(4.53)——甚至低于 Q8_0(9.72)。imatrix 大幅降低了最坏情况下的偏离度,同时在困惑度上与 UD-Q5_K_S 相当。
  • 在 17 GB 时,APEX I-Compact 在 PPL(6.857 vs 6.883)和 HellaSwag(83.5% vs 82.8%)上优于 UD-Q3_K_M(16 GB)。
  • imatrix 持续将 KL max 减半:I-Balanced 4.53 vs Balanced 14.14,I-Quality 5.69 vs Quality 13.01。
  • APEX I-Mini(14 GB) 以最小的体积提供了可用的质量(PPL 7.24,HellaSwag 82.8%)。

可用文件

文件配置文件大小最适合场景
Qwen3.6-35B-A3B-APEX-I-Balanced.ggufI-Balanced24 GB整体最佳——所有量化方案中最低的 KL max
Qwen3.6-35B-A3B-APEX-I-Quality.ggufI-Quality22 GB最高质量(带 imatrix),小 2 GB
Qwen3.6-35B-A3B-APEX-Quality.ggufQuality22 GB最高质量标准
Qwen3.6-35B-A3B-APEX-Balanced.ggufBalanced24 GB通用目的
Qwen3.6-35B-A3B-APEX-I-Compact.ggufI-Compact17 GB消费级 GPU,质量优于 UD-Q3_K_M
Qwen3.6-35B-A3B-APEX-Compact.ggufCompact17 GB消费级 GPU
Qwen3.6-35B-A3B-APEX-I-Mini.ggufI-Mini14 GB最小可行体积,最快推理速度
mmproj.gguf视觉投影器~1 GB图像理解必需

什么是 APEX?

APEX 是一种适用于混合专家(MoE)模型的量化策略。它按角色(路由专家、共享专家、注意力)对张量进行分类,并应用逐层精度梯度——边缘层获得更高精度,中间层进行更激进的压缩。I 变体使用多样化的 imatrix 校准(聊天、代码、推理、工具调用、智能体轨迹、维基百科)。

核心见解:在 MoE 模型中,专家 FFN 张量构成了模型权重的大部分,但每个 token 仅激活约 8/256 个专家。APEX 对中间层专家进行更激进的压缩,同时保留边缘层(前 5 层/后 5 层),并将注意力、SSM/Mamba 和共享专家张量保持在更高精度。

有关完整详情、技术报告和脚本,请参见 APEX 项目。

架构

  • 模型:Qwen 3.6 35B-A3B(Qwen/Qwen3.6-35B-A3B)
  • 层数:40
  • 专家:256个路由专家+共享专家(每token激活8个)
  • 总参数:约350亿
  • 激活参数:每token约30亿
  • 注意力机制:混合式(每4层使用全注意力,其他层使用线性/Mamba注意力)
  • 视觉能力:内置视觉编码器(包含mmproj)
  • APEX配置:40层上采用5+5对称边缘梯度
  • 校准:v1.3多样化数据集(对话、代码、推理、多语言、工具调用、维基百科)
  • llama.cpp:基于b8797版本构建

使用LocalAI运行

local-ai run mudler/Qwen3.6-35B-A3B-APEX-GGUF@Qwen3.6-35B-A3B-APEX-I-Balanced.gguf

致谢

APEX 由 LocalAI 团队开发。该项目通过人工驱动、AI 辅助的研究方式完成,并基于 llama.cpp 构建。