由 LocalAI 团队呈现——LocalAI 的创造者,这是一款开源 AI 引擎,可在任何硬件上运行任何模型(LLM、视觉、语音、图像、视频),无需 GPU。
APEX 技术报告 | GitHub 仓库 | LocalAI
APEX(Adaptive Precision for EXpert Models,专家模型自适应精度)是一种新颖的量化技术,专为混合专家(Mixture-of-Experts)语言模型设计。与对每个张量应用相同精度的均匀量化方法不同,APEX 引入了逐层精度梯度,并结合MoE 感知张量分类和多样化 imatrix 校准,以较小的模型体积实现 Q8_0 级别的质量。该方法是通过对 25 多种量化策略进行系统性的人工驱动、AI 辅助研究后发现的。APEX 在准确性基准测试中优于 Unsloth Dynamic 2.0(UD)量化,同时体积小 2 倍。
本仓库包含七个 APEX GGUF 文件以及一个视觉投影器(mmproj),涵盖了从最高精度到消费级 GPU 推理的各种部署场景。最佳配置(APEX Quality)在困惑度上超过 Q8_0 和 F16,同时比 Q8_0 小 38%。I 变体使用多样化的 imatrix(对话、代码、推理、工具调用——不含维基百科内容),以微小的困惑度增加换取显著的精度提升和更低的 KL 散度。
有关完整的技术细节、方法描述和复现脚本,请参见 APEX GitHub 仓库。
| 文件 | 配置 | 大小 | 困惑度(PPL) | 速度(tg128) | 最适用场景 |
|---|---|---|---|---|---|
Qwen3.5-35B-A3B-APEX-Quality.gguf | APEX Quality | 21.3 GB | 6.527 | 62.3 t/s | 所有量化中最低的困惑度 |
Qwen3.5-35B-A3B-APEX-I-Quality.gguf | APEX I-Quality | 21.3 GB | 6.552 | 63.1 t/s | 基准测试中最佳准确性 |
Qwen3.5-35B-A3B-APEX-Balanced.gguf | APEX Balanced | 23.6 GB | 6.533 | 60.8 t/s | 交互式使用、服务部署、通用目的 |
Qwen3.5-35B-A3B-APEX-I-Balanced.gguf | APEX I-Balanced | 23.6 GB | 6.548 | 61.4 t/s | 全面性能,更低的 KL 散度 |
Qwen3.5-35B-A3B-APEX-Compact.gguf | APEX Compact | 16.1 GB | 6.783 | 69.8 t/s | 消费级 24 GB GPU |
Qwen3.5-35B-A3B-APEX-I-Compact.gguf | APEX I-Compact | 16.1 GB | 6.669 | 69.8 t/s | 16 GB GPU,该尺寸下最佳准确性 |
Qwen3.5-35B-A3B-APEX-Mini.gguf | APEX Mini | 12.2 GB | 7.088 | 74.4 t/s | 消费级 16 GB VRAM,最小可行模型 |
mmproj-F16.gguf | Vision Projector | 899 MB | -- | -- | 视觉/多模态任务必需 |
APEX Quality 采用三层逐层精度梯度(Q6_K/Q5_K/IQ4_XS),并使用 Q8_0 共享专家。它实现了所有测试量化中最低的困惑度——甚至超过 F16(6.527 vs 6.537)。
APEX I-Quality 采用与 Quality 相同的架构,但使用多样化的 imatrix(对话、代码、推理、工具调用——不含维基百科内容)。它实现了最高的 HellaSwag(83.5%),在 ARC 上与 Q8_0 持平(57.9%),并在所有测试模型中取得最佳的 TruthfulQA(38.4%)。
APEX Balanced 采用两层梯度(边缘层 Q6_K,中间层 Q5_K),并使用 Q8_0 共享专家。它的困惑度与 Q8_0 完全一致(6.533),同时体积小 31%,速度快 16%。推荐用于通用目的。
APEX I-Balanced 采用与 Balanced 相同的架构,并使用多样化的 imatrix。KL 散度下降 11%(平均值 0.0078 vs 0.0088),KL 最大值从 6.03 降至 5.77。
APEX Compact 使用 Q4_K 边缘层、Q3_K 中间层和 Q6_K 共享专家。16.1 GB 的体积可在消费级 24 GB GPU 上运行,并留有 KV 缓存空间。
APEX I-Compact 是 imatrix 带来最大收益的版本:PPL 从 6.783 降至 6.669(-0.114),KL 最大值从 7.56 降至 5.50,MMLU 从 40.9% 提升至 41.7%。多样化 imatrix 对激进量化的层级影响最大。
APEX Mini 将逐层精度梯度与 IQ2_S 中间层专家以及多样化 imatrix 相结合,模型体积压缩至 12.2 GB。它在所有指标上均优于 bartowski IQ2_M(11.3 GB):PPL 7.088 vs 7.303,HellaSwag 81.0% vs 80.3%,MMLU 41.3% vs 39.6%。可在消费级 16 GB VRAM GPU 上运行,并留有上下文空间。
所有测量均在 Qwen3.5-35B-A3B、NVIDIA DGX Spark(GB10,122 GB 显存)上进行。困惑度(Perplexity)基于 wikitext-2-raw 数据集测量,上下文长度为 2048。准确度基准测试(HellaSwag、Winogrande、MMLU、ARC-Challenge、TruthfulQA)通过 llama.cpp 进行评估,适用时使用 400 个任务。
| 量化方式 | 大小(GB) | PPL | KL 均值 | KL 最大值 | HS | WG | MMLU | ARC | TQA | tg128(tokens/秒) |
|---|---|---|---|---|---|---|---|---|---|---|
| F16 | 64.6 | 6.537 | -- | -- | 82.5% | 74.5% | 41.5% | 56.9% | 37.2% | 30.4 |
| Q8_0 | 34.4 | 6.533 | 0.0046 | 14.71 | 83.0% | 75.3% | 41.2% | 57.9% | 37.7% | 52.5 |
| APEX Quality | 21.3 | 6.527 | 0.0114 | 5.85 | 83.0% | 74.5% | 41.2% | 56.2% | 37.7% | 62.3 |
| APEX I-Quality | 21.3 | 6.552 | 0.0102 | 5.59 | 83.5% | 74.5% | 41.4% | 57.9% | 38.4% | 63.1 |
| APEX Balanced | 23.6 | 6.533 | 0.0088 | 6.03 | 83.0% | 74.5% | 41.3% | 56.9% | 36.8% | 60.8 |
| APEX I-Balanced | 23.6 | 6.548 | 0.0078 | 5.77 | 83.0% | 73.3% | 41.0% | 57.5% | 37.5% | 61.4 |
| APEX Compact | 16.1 | 6.783 | 0.0469 | 7.56 | 82.5% | 73.3% | 40.9% | 55.2% | 36.5% | 69.8 |
| APEX I-Compact | 16.1 | 6.669 | 0.0332 | 5.50 | 81.8% | 75.0% | 41.7% | 55.5% | 37.9% | 69.8 |
| APEX Mini | 12.2 | 7.088 | 0.0870 | 5.57 | 81.0% | 75.5% | 41.3% | 57.2% | 36.7% | 74.4 |
| Unsloth UD-Q8_K_XL | 45.3 | 6.536 | 0.0025 | 4.36 | 82.5% | 74.8% | 41.3% | 57.9% | 38.1% | 36.4 |
| Unsloth UD-Q4_K_L | 18.8 | 6.586 | 0.0151 | 5.98 | 82.3% | 75.8% | 41.1% | 59.2% | 37.3% | 65.5 |
| bartowski IQ2_M | 11.3 | 7.303 | 0.1113 | 6.07 | 80.3% | 74.0% | 39.6% | 56.2% | 35.0% | 76.2 |
| bartowski Q3_K_M | 15.1 | 6.730 | 0.0420 | 5.56 | 82.0% | 75.0% | 41.5% | 57.5% | 38.8% | 60.6 |
| 基准测试 | F16 | Q8_0 | Quality | I-Quality | Balanced | I-Balanced | Compact | I-Compact | Mini | Q8_K_XL | Q4_K_L | IQ2_M | Q3_K_M |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| HellaSwag | 82.5% | 83.0% | 83.0% | 83.5% | 83.0% | 83.0% | 82.5% | 81.8% | 81.0% | 82.5% | 82.3% | 80.3% | 82.0% |
| Winogrande | 74.5% | 75.3% | 74.5% | 74.5% | 74.5% | 73.3% | 73.3% | 75.0% | 75.5% | 74.8% | 75.8% | 74.0% | 75.0% |
| MMLU | 41.5% | 41.2% | 41.2% | 41.4% | 41.3% | 41.0% | 40.9% | 41.7% | 41.3% | 41.3% | 41.1% | 39.6% | 41.5% |
| ARC | 56.9% | 57.9% | 56.2% | 57.9% | 56.9% | 57.5% | 55.2% | 55.5% | 57.2% | 57.9% | 59.2% | 56.2% | 57.5% |
| TruthfulQA | 37.2% | 37.7% | 37.7% | 38.4% | 36.8% | 37.5% | 36.5% | 37.9% | 36.7% | 38.1% | 37.3% | 35.0% | 38.8% |






# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
Qwen3.5-35B-A3B-APEX-I-Quality.gguf --local-dir ./model
# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-I-Quality.gguf \
--conversation -ngl 99
# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-I-Quality.gguf \
--host 0.0.0.0 --port 8080 -ngl 99完全GPU卸载需要约22 GB显存。采用多样化的矩阵校准,以在各基准测试中实现最佳精度。当下游任务性能比原始困惑度更重要时,推荐使用此版本。
# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
Qwen3.5-35B-A3B-APEX-Quality.gguf --local-dir ./model
# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Quality.gguf \
--conversation -ngl 99
# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Quality.gguf \
--host 0.0.0.0 --port 8080 -ngl 99完全GPU卸载需要约22 GB显存。中间层专家采用IQ4_XS,因此建议使用llama.cpp b5460或更高版本。
# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
Qwen3.5-35B-A3B-APEX-I-Balanced.gguf --local-dir ./model
# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-I-Balanced.gguf \
--conversation -ngl 99
# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-I-Balanced.gguf \
--host 0.0.0.0 --port 8080 -ngl 99完全GPU卸载需要约24 GB显存。采用多样化的imatrix校准和标准K-quant格式,以降低KL散度。
# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
Qwen3.5-35B-A3B-APEX-Balanced.gguf --local-dir ./model
# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Balanced.gguf \
--conversation -ngl 99
# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Balanced.gguf \
--host 0.0.0.0 --port 8080 -ngl 99完全GPU卸载需要约24 GB显存。仅使用标准K量化格式(Q6_K/Q5_K),并配备优化的反量化内核。
# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
Qwen3.5-35B-A3B-APEX-I-Compact.gguf --local-dir ./model
# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-I-Compact.gguf \
--conversation -ngl 99
# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-I-Compact.gguf \
--host 0.0.0.0 --port 8080 -ngl 99完全GPU卸载需要约17 GB显存。最大的imatrix赢家——与标准Compact相比,PPL降低0.114,MMLU从40.9%提升至41.7%。
# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
Qwen3.5-35B-A3B-APEX-Compact.gguf --local-dir ./model
# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Compact.gguf \
--conversation -ngl 99
# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Compact.gguf \
--host 0.0.0.0 --port 8080 -ngl 99完全GPU卸载需要约17 GB显存。适用于消费级24 GB显存显卡(RTX 4090、RTX 5090),并有足够空间容纳KV缓存和上下文。
# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
Qwen3.5-35B-A3B-APEX-Mini.gguf --local-dir ./model
# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Mini.gguf \
--conversation -ngl 99
# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Mini.gguf \
--host 0.0.0.0 --port 8080 -ngl 99完全GPU卸载需要约13 GB显存。可适配消费级16 GB显存的GPU(RTX 4060 Ti 16GB、RTX 5060 Ti),并有足够空间容纳上下文。尽管仅比bartowski IQ2_M大0.9 GB,但在所有指标上均胜过它。
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF --local-dir ./modelQwen3.5-35B-A3B 是一个混合专家(Mixture-of-Experts)语言模型,总参数量为350亿,但每个token仅激活30亿参数。它在每个MoE层中使用256个专家,在40个Transformer层中,每个token路由8个专家加上1个共享专家。这种稀疏激活模式意味着对于任何给定token,97%的专家权重处于闲置状态,这为差异化量化创造了机会。
APEX 利用MoE模型的三个特性实现无损压缩:
MoE模型中的并非所有张量都是同等重要的。APEX将它们分为三类,每类具有不同的精度要求:
边缘Transformer层(前5层和后5层)处理输入嵌入对齐和输出logit生成。它们对量化的敏感度明显高于中间层,中间层执行更多冗余的中间处理。APEX为边缘层分配更高的精度,为中间层分配更低的精度。
| 配置 | 大小 | 专家策略 | 共享专家 | 注意力 | 最适合场景 |
|---|---|---|---|---|---|
| APEX I-Quality | 21.3 GB | Q6_K边缘层,Q5_K近边缘层,IQ4_XS中间层,多样化imatrix | Q8_0 | Q6_K | 最佳准确性 |
| APEX Quality | 21.3 GB | Q6_K边缘层,Q5_K近边缘层,IQ4_XS中间层 | Q8_0 | Q6_K | 最低困惑度 |
| APEX I-Balanced | 23.6 GB | Q6_K边缘层,Q5_K中间层,多样化imatrix | Q8_0 | Q6_K | 全面型,更低KL散度 |
| APEX Balanced | 23.6 GB | Q6_K边缘层,Q5_K中间层 | Q8_0 | Q6_K | 通用目的 |
| APEX I-Compact | 16.1 GB | Q4_K边缘层,Q3_K中间层,多样化imatrix | Q6_K | Q4_K | 16 GB下的最佳准确性 |
| APEX Compact | 16.1 GB | Q4_K边缘层,Q3_K中间层 | Q6_K | Q4_K | 消费级24 GB GPU |
| APEX Mini | 12.2 GB | 带IQ2_S中间层的层级梯度,多样化imatrix | Q6_K | Q4_K | 消费级16 GB显存 |
标准的矩阵校准使用维基百科文本,这会使量化偏向百科全书式的散文风格。APEX I-variants采用多样化的校准数据集,涵盖聊天、代码、推理和工具调用——不包含维基百科内容。这产生了一种不同的优化权衡:I-variants以维基文本(维基百科文本基准)上微小的困惑度增加为代价,换取了在实际准确性基准上的显著提升和始终较低的KL散度。
这种效果在激进量化中最为显著。I-Compact将困惑度从6.783降至6.669(降低0.114),将KL最大值从7.56降至5.50,并将MMLU从40.9%提升至41.7%。在Quality层级,I-Quality取得了所有测试模型中最高的HellaSwag分数(83.5%),在ARC上与Q8_0持平(57.9%),并在TruthfulQA上表现最佳(38.4%)。
APEX Mini结合了逐层精度梯度、IQ2_S中间层专家以及多样化矩阵,将MoE量化压缩至12.2 GB。在这个大小下,它可以适配消费级16 GB显存的GPU(RTX 4060 Ti 16GB、RTX 5060 Ti),并有足够空间容纳上下文。它在所有指标上均优于bartowski IQ2_M(11.3 GB):困惑度7.088对比7.303,HellaSwag 81.0%对比80.3%,MMLU 41.3%对比39.6%,ARC 57.2%对比56.2%。即使在极高的压缩比下,逐层梯度与多样化矩阵的组合仍然优于均匀量化。
APEX方法和代码即将发布。
信息论指标:困惑度在 wikitext-2-raw 数据集上进行测量(上下文长度 2048,完整数据集)。KL 散度用于衡量量化模型与全精度模型 logit 分布之间的差异,报告均值、最大值、99.9 百分位数和中位数。数值越低,表示量化模型的预测与原始模型越接近。
下游精度基准测试:通过 llama.cpp 对 HellaSwag(常识推理)、Winogrande(指代消解)、MMLU(多任务语言理解)、ARC-Challenge(科学问答)和 TruthfulQA(真实性生成)进行评估,适当时包含 400 个任务。
注:混合 MoE 模型的评估通过我们对 llama.cpp 循环架构混合内存路径的上游修复实现(已准备好 PR)。
所有基准测试均在 NVIDIA DGX Spark 上进行:
llama-quantize,使用 --tensor-type-file 进行每一层的精度分配这些 APEX 量化模型可与 LocalAI 开箱即用——LocalAI 是一个免费、开源的 OpenAI 兼容 API,可在本地运行。加载任何 APEX GGUF 模型,即可立即获得具备聊天补全、嵌入等功能的 API 服务器:
# Run APEX Balanced with LocalAI
local-ai run mudler/Qwen3.5-35B-A3B-APEX-GGUF@Qwen3.5-35B-A3B-APEX-Balanced.ggufLocalAI 支持 GPU 加速、多模型加载以及函数调用。更多信息请参阅 LocalAI 文档。
为进一步节省内存并加快提示词处理速度,APEX 模型可通过 TurboQuant+ 与 KV 缓存压缩相结合。TurboQuant+ 是 llama.cpp 的一个分支,为 KV 缓存添加了 turbo 量化类型。这与权重量化是分开的——TurboQuant 可将 KV 缓存压缩 4.6 倍,从而在更少的 VRAM 中支持更长的上下文。
这需要使用 TurboQuant+ 分支的 feature/turboquant-kv-cache 分支:
# Build (same as llama.cpp, but clone the fork)
git clone https://github.com/TheTom/llama-cpp-turboquant.git
cd llama-cpp-turboquant
git checkout feature/turboquant-kv-cache
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j推荐配置:-ctk q8_0 -ctv turbo3 -fa on
# Example: APEX Mini with TurboQuant KV cache compression
./build/bin/llama-server -m Qwen3.5-35B-A3B-APEX-Mini.gguf \
-ctk q8_0 -ctv turbo3 -fa on \
--host 0.0.0.0 --port 8080 -ngl 99| 模型 | pp8192基准 | pp8192 turbo3 | 速度提升 | tg128差异 |
|---|---|---|---|---|
| APEX I-Quality | 1,752 t/s | 2,003 t/s | +14.3% | <1% |
| APEX I-Balanced | 1,695 t/s | 1,927 t/s | +13.7% | <1% |
| APEX I-Compact | 1,714 t/s | 1,959 t/s | +14.3% | <1% |
| APEX Mini | 1,696 t/s | 1,938 t/s | +14.3% | <1% |
TurboQuant在8K上下文下实现了13-14%的提示词处理速度提升,同时对令牌生成速度的影响可忽略不计(tg128差异<1%)。KV缓存压缩与权重量化相互独立,因此所有质量指标(困惑度、准确率、KL散度)保持不变。
APEX Mini + TurboQuant支持在16 GB显存的GPU上以12 GB内存运行35B MoE模型,并支持8K+上下文。
APEX由LocalAI团队开发——他们是免费开源的OpenAI兼容API的创建者,可用于在本地运行AI。
该项目通过人工驱动、AI辅助的研究开发,系统地探索了MoE量化策略,进行了25+次实验。基于Georgi Gerganov及其贡献者开发的llama.cpp构建。灵感来源于karpathy/autoresearch。
如果您在研究中使用APEX量化模型,请引用:
@misc{apex-quant-2026,
title = {APEX: Adaptive Precision for Expert Models -- MoE-Aware Mixed-Precision Quantization},
author = {Di Giacinto, Ettore and {LocalAI Team}},
year = {2026},
url = {https://github.com/mudler/apex-quant},
note = {Layer-wise precision gradient quantization for Mixture-of-Experts models using llama.cpp}
}@misc{localai,
title = {LocalAI: the free, Open Source OpenAI alternative},
author = {Di Giacinto, Ettore and {LocalAI Contributors}},
year = {2023},
url = {https://github.com/mudler/LocalAI}
}