Qwen3.5-35B-A3B APEX GGUF——一种新颖的MoE感知混合精度量化技术

由 LocalAI 团队呈现——LocalAI 的创造者，这是一款开源 AI 引擎，可在任何硬件上运行任何模型（LLM、视觉、语音、图像、视频），无需 GPU。

APEX 技术报告 | GitHub 仓库 | LocalAI

APEX（Adaptive Precision for EXpert Models，专家模型自适应精度）是一种新颖的量化技术，专为混合专家（Mixture-of-Experts）语言模型设计。与对每个张量应用相同精度的均匀量化方法不同，APEX 引入了逐层精度梯度，并结合MoE 感知张量分类和多样化 imatrix 校准，以较小的模型体积实现 Q8_0 级别的质量。该方法是通过对 25 多种量化策略进行系统性的人工驱动、AI 辅助研究后发现的。APEX 在准确性基准测试中优于 Unsloth Dynamic 2.0（UD）量化，同时体积小 2 倍。

本仓库包含七个 APEX GGUF 文件以及一个视觉投影器（mmproj），涵盖了从最高精度到消费级 GPU 推理的各种部署场景。最佳配置（APEX Quality）在困惑度上超过 Q8_0 和 F16，同时比 Q8_0 小 38%。I 变体使用多样化的 imatrix（对话、代码、推理、工具调用——不含维基百科内容），以微小的困惑度增加换取显著的精度提升和更低的 KL 散度。

有关完整的技术细节、方法描述和复现脚本，请参见 APEX GitHub 仓库。

可用文件

文件	配置	大小	困惑度（PPL）	速度（tg128）	最适用场景
`Qwen3.5-35B-A3B-APEX-Quality.gguf`	APEX Quality	21.3 GB	6.527	62.3 t/s	所有量化中最低的困惑度
`Qwen3.5-35B-A3B-APEX-I-Quality.gguf`	APEX I-Quality	21.3 GB	6.552	63.1 t/s	基准测试中最佳准确性
`Qwen3.5-35B-A3B-APEX-Balanced.gguf`	APEX Balanced	23.6 GB	6.533	60.8 t/s	交互式使用、服务部署、通用目的
`Qwen3.5-35B-A3B-APEX-I-Balanced.gguf`	APEX I-Balanced	23.6 GB	6.548	61.4 t/s	全面性能，更低的 KL 散度
`Qwen3.5-35B-A3B-APEX-Compact.gguf`	APEX Compact	16.1 GB	6.783	69.8 t/s	消费级 24 GB GPU
`Qwen3.5-35B-A3B-APEX-I-Compact.gguf`	APEX I-Compact	16.1 GB	6.669	69.8 t/s	16 GB GPU，该尺寸下最佳准确性
`Qwen3.5-35B-A3B-APEX-Mini.gguf`	APEX Mini	12.2 GB	7.088	74.4 t/s	消费级 16 GB VRAM，最小可行模型
`mmproj-F16.gguf`	Vision Projector	899 MB	--	--	视觉/多模态任务必需

APEX Quality 采用三层逐层精度梯度（Q6_K/Q5_K/IQ4_XS），并使用 Q8_0 共享专家。它实现了所有测试量化中最低的困惑度——甚至超过 F16（6.527 vs 6.537）。

APEX I-Quality 采用与 Quality 相同的架构，但使用多样化的 imatrix（对话、代码、推理、工具调用——不含维基百科内容）。它实现了最高的 HellaSwag（83.5%），在 ARC 上与 Q8_0 持平（57.9%），并在所有测试模型中取得最佳的 TruthfulQA（38.4%）。

APEX Balanced 采用两层梯度（边缘层 Q6_K，中间层 Q5_K），并使用 Q8_0 共享专家。它的困惑度与 Q8_0 完全一致（6.533），同时体积小 31%，速度快 16%。推荐用于通用目的。

APEX I-Balanced 采用与 Balanced 相同的架构，并使用多样化的 imatrix。KL 散度下降 11%（平均值 0.0078 vs 0.0088），KL 最大值从 6.03 降至 5.77。

APEX Compact 使用 Q4_K 边缘层、Q3_K 中间层和 Q6_K 共享专家。16.1 GB 的体积可在消费级 24 GB GPU 上运行，并留有 KV 缓存空间。

APEX I-Compact 是 imatrix 带来最大收益的版本：PPL 从 6.783 降至 6.669（-0.114），KL 最大值从 7.56 降至 5.50，MMLU 从 40.9% 提升至 41.7%。多样化 imatrix 对激进量化的层级影响最大。

APEX Mini 将逐层精度梯度与 IQ2_S 中间层专家以及多样化 imatrix 相结合，模型体积压缩至 12.2 GB。它在所有指标上均优于 bartowski IQ2_M（11.3 GB）：PPL 7.088 vs 7.303，HellaSwag 81.0% vs 80.3%，MMLU 41.3% vs 39.6%。可在消费级 16 GB VRAM GPU 上运行，并留有上下文空间。

基准测试结果

所有测量均在 Qwen3.5-35B-A3B、NVIDIA DGX Spark（GB10，122 GB 显存）上进行。困惑度（Perplexity）基于 wikitext-2-raw 数据集测量，上下文长度为 2048。准确度基准测试（HellaSwag、Winogrande、MMLU、ARC-Challenge、TruthfulQA）通过 llama.cpp 进行评估，适用时使用 400 个任务。

核心指标

量化方式	大小（GB）	PPL	KL 均值	KL 最大值	HS	WG	MMLU	ARC	TQA	tg128（tokens/秒）
F16	64.6	6.537	--	--	82.5%	74.5%	41.5%	56.9%	37.2%	30.4
Q8_0	34.4	6.533	0.0046	14.71	83.0%	75.3%	41.2%	57.9%	37.7%	52.5
APEX Quality	21.3	6.527	0.0114	5.85	83.0%	74.5%	41.2%	56.2%	37.7%	62.3
APEX I-Quality	21.3	6.552	0.0102	5.59	83.5%	74.5%	41.4%	57.9%	38.4%	63.1
APEX Balanced	23.6	6.533	0.0088	6.03	83.0%	74.5%	41.3%	56.9%	36.8%	60.8
APEX I-Balanced	23.6	6.548	0.0078	5.77	83.0%	73.3%	41.0%	57.5%	37.5%	61.4
APEX Compact	16.1	6.783	0.0469	7.56	82.5%	73.3%	40.9%	55.2%	36.5%	69.8
APEX I-Compact	16.1	6.669	0.0332	5.50	81.8%	75.0%	41.7%	55.5%	37.9%	69.8
APEX Mini	12.2	7.088	0.0870	5.57	81.0%	75.5%	41.3%	57.2%	36.7%	74.4
Unsloth UD-Q8_K_XL	45.3	6.536	0.0025	4.36	82.5%	74.8%	41.3%	57.9%	38.1%	36.4
Unsloth UD-Q4_K_L	18.8	6.586	0.0151	5.98	82.3%	75.8%	41.1%	59.2%	37.3%	65.5
bartowski IQ2_M	11.3	7.303	0.1113	6.07	80.3%	74.0%	39.6%	56.2%	35.0%	76.2
bartowski Q3_K_M	15.1	6.730	0.0420	5.56	82.0%	75.0%	41.5%	57.5%	38.8%	60.6

准确性基准测试

基准测试	F16	Q8_0	Quality	I-Quality	Balanced	I-Balanced	Compact	I-Compact	Mini	Q8_K_XL	Q4_K_L	IQ2_M	Q3_K_M
HellaSwag	82.5%	83.0%	83.0%	83.5%	83.0%	83.0%	82.5%	81.8%	81.0%	82.5%	82.3%	80.3%	82.0%
Winogrande	74.5%	75.3%	74.5%	74.5%	74.5%	73.3%	73.3%	75.0%	75.5%	74.8%	75.8%	74.0%	75.0%
MMLU	41.5%	41.2%	41.2%	41.4%	41.3%	41.0%	40.9%	41.7%	41.3%	41.3%	41.1%	39.6%	41.5%
ARC	56.9%	57.9%	56.2%	57.9%	56.9%	57.5%	55.2%	55.5%	57.2%	57.9%	59.2%	56.2%	57.5%
TruthfulQA	37.2%	37.7%	37.7%	38.4%	36.8%	37.5%	36.5%	37.9%	36.7%	38.1%	37.3%	35.0%	38.8%

核心要点

APEX Quality 量化版本的困惑度（perplexity）表现最佳（6.527，甚至优于 F16 的 6.537），而大小仅为 21.3 GB。
I 变体以微小的困惑度提升换取了显著的准确性增益。 I-Quality 实现了 83.5% 的 HellaSwag 得分（所有模型中最佳）、57.9% 的 ARC 得分以及 38.4% 的 TruthfulQA 得分。所有 I 变体的 KL 散度均一致降低了 10-30%。
I-Compact 是 imatrix 优化的最大受益者：困惑度从 6.783 降至 6.669（降低 0.114），KL 最大值从 7.56 降至 5.50，MMLU 得分从 40.9% 提升至 41.7%。
APEX Mini（12.2 GB）在所有指标上均优于 bartowski IQ2_M（11.3 GB）：困惑度 7.088 vs 7.303，HellaSwag 81.0% vs 80.3%，MMLU 41.3% vs 39.6%。采用多样化 imatrix 的层梯度 + IQ2_S 优于统一的 IQ2_M。
在相近大小下（18.8 GB vs 21.3 GB），APEX Quality 在困惑度（6.527 vs 6.586）、KL 均值（0.011 vs 0.015）和 HellaSwag（83.0% vs 82.3%）方面均优于 Unsloth UD-Q4_K_L。
APEX Compact（16.1 GB）比 Unsloth UD-Q4_K_L（18.8 GB）小 14%，且速度快 7%（69.8 t/s vs 65.5 t/s）。
Unsloth UD-Q8_K_XL 在 KL 散度方面表现最佳（最佳均值 0.0025，最佳最大值 4.36），但其大小是 APEX 各层级的 2-3 倍。
Q8_0 在所有测试模型中具有最差的离群值散度（KL 最大值 14.71），尽管其 KL 均值较低。
在误差范围内，所有 APEX 层级的准确性基准测试结果均达到或优于 Unsloth，而大小仅为其一小部分。

基准测试图表

困惑度与模型大小对比

困惑度与推理速度对比

准确度基准测试对比

KL散度对比

效率：大小与速度对比

多指标雷达图

如何下载与使用

APEX I-Quality（21.3 GB）—— 最佳准确度

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-I-Quality.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-I-Quality.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-I-Quality.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约22 GB显存。采用多样化的矩阵校准，以在各基准测试中实现最佳精度。当下游任务性能比原始困惑度更重要时，推荐使用此版本。

APEX Quality（21.3 GB）——最佳困惑度

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-Quality.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Quality.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Quality.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约22 GB显存。中间层专家采用IQ4_XS，因此建议使用llama.cpp b5460或更高版本。

APEX I-Balanced（23.6 GB）—— 全面兼顾且KL更低

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-I-Balanced.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-I-Balanced.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-I-Balanced.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约24 GB显存。采用多样化的imatrix校准和标准K-quant格式，以降低KL散度。

APEX Balanced（23.6 GB）——最佳全能之选

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-Balanced.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Balanced.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Balanced.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约24 GB显存。仅使用标准K量化格式（Q6_K/Q5_K），并配备优化的反量化内核。

APEX I-Compact（16.1 GB）——16 GB显存下的最佳精度

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-I-Compact.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-I-Compact.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-I-Compact.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约17 GB显存。最大的imatrix赢家——与标准Compact相比，PPL降低0.114，MMLU从40.9%提升至41.7%。

APEX Compact（16.1 GB）——消费级GPU

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-Compact.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Compact.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Compact.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约17 GB显存。适用于消费级24 GB显存显卡（RTX 4090、RTX 5090），并有足够空间容纳KV缓存和上下文。

APEX Mini（12.2 GB）——消费级16 GB显存

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-Mini.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Mini.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Mini.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约13 GB显存。可适配消费级16 GB显存的GPU（RTX 4060 Ti 16GB、RTX 5060 Ti），并有足够空间容纳上下文。尽管仅比bartowski IQ2_M大0.9 GB，但在所有指标上均胜过它。

下载所有文件

huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF --local-dir ./model

关于基础模型

Qwen3.5-35B-A3B 是一个混合专家（Mixture-of-Experts）语言模型，总参数量为350亿，但每个token仅激活30亿参数。它在每个MoE层中使用256个专家，在40个Transformer层中，每个token路由8个专家加上1个共享专家。这种稀疏激活模式意味着对于任何给定token，97%的专家权重处于闲置状态，这为差异化量化创造了机会。

量化方法

APEX 利用MoE模型的三个特性实现无损压缩：

1. MoE感知张量分类

MoE模型中的并非所有张量都是同等重要的。APEX将它们分为三类，每类具有不同的精度要求：

路由专家权重（gate/up/down投影）：这些构成了模型参数的主体，但每个token仅激活256个专家中的8个。97%的稀疏性意味着这些权重可以承受激进的量化——路由决策使用全精度的门控权重，因此非激活专家中的量化噪声永远不会影响输出。
共享专家权重：对每个token始终激活，并表现出重尾权重分布（峰度为13.10，而路由专家为3.41）。这些需要高精度（Q8_0）以保留异常值。
注意力和SSM权重：密集层，参数数量较少，但对生成质量至关重要。在Quality和Balanced层级中统一保持为Q6_K。

2. 逐层精度梯度

边缘Transformer层（前5层和后5层）处理输入嵌入对齐和输出logit生成。它们对量化的敏感度明显高于中间层，中间层执行更多冗余的中间处理。APEX为边缘层分配更高的精度，为中间层分配更低的精度。

3. 五个层级（七种配置）

配置	大小	专家策略	共享专家	注意力	最适合场景
APEX I-Quality	21.3 GB	Q6_K边缘层，Q5_K近边缘层，IQ4_XS中间层，多样化imatrix	Q8_0	Q6_K	最佳准确性
APEX Quality	21.3 GB	Q6_K边缘层，Q5_K近边缘层，IQ4_XS中间层	Q8_0	Q6_K	最低困惑度
APEX I-Balanced	23.6 GB	Q6_K边缘层，Q5_K中间层，多样化imatrix	Q8_0	Q6_K	全面型，更低KL散度
APEX Balanced	23.6 GB	Q6_K边缘层，Q5_K中间层	Q8_0	Q6_K	通用目的
APEX I-Compact	16.1 GB	Q4_K边缘层，Q3_K中间层，多样化imatrix	Q6_K	Q4_K	16 GB下的最佳准确性
APEX Compact	16.1 GB	Q4_K边缘层，Q3_K中间层	Q6_K	Q4_K	消费级24 GB GPU
APEX Mini	12.2 GB	带IQ2_S中间层的层级梯度，多样化imatrix	Q6_K	Q4_K	消费级16 GB显存

I-variants：多样化矩阵校准

标准的矩阵校准使用维基百科文本，这会使量化偏向百科全书式的散文风格。APEX I-variants采用多样化的校准数据集，涵盖聊天、代码、推理和工具调用——不包含维基百科内容。这产生了一种不同的优化权衡：I-variants以维基文本（维基百科文本基准）上微小的困惑度增加为代价，换取了在实际准确性基准上的显著提升和始终较低的KL散度。

这种效果在激进量化中最为显著。I-Compact将困惑度从6.783降至6.669（降低0.114），将KL最大值从7.56降至5.50，并将MMLU从40.9%提升至41.7%。在Quality层级，I-Quality取得了所有测试模型中最高的HellaSwag分数（83.5%），在ARC上与Q8_0持平（57.9%），并在TruthfulQA上表现最佳（38.4%）。

APEX Mini：12 GB层级

APEX Mini结合了逐层精度梯度、IQ2_S中间层专家以及多样化矩阵，将MoE量化压缩至12.2 GB。在这个大小下，它可以适配消费级16 GB显存的GPU（RTX 4060 Ti 16GB、RTX 5060 Ti），并有足够空间容纳上下文。它在所有指标上均优于bartowski IQ2_M（11.3 GB）：困惑度7.088对比7.303，HellaSwag 81.0%对比80.3%，MMLU 41.3%对比39.6%，ARC 57.2%对比56.2%。即使在极高的压缩比下，逐层梯度与多样化矩阵的组合仍然优于均匀量化。

25+项实验的关键发现

Q6_K是路由专家的最佳选择。 将专家权重从Q6_K提升至Q8_0会浪费7.5 GB显存，且困惑度没有任何改善。低于Q5_K则会导致可测量的性能下降。
层位置比统一位宽更重要。 两层梯度（边缘层Q6_K，中间层Q5_K）可达到Q8_0的质量。而统一的Q5_K分配则无法实现。
共享专家精度至关重要。 共享专家的重尾权重分布（峰度13.10）使其成为最敏感的组件。
IQ格式在MoE专家上的表现不如K-quants。 尽管比特率相似，IQ3_S在路由专家张量上的困惑度比Q3_K更差。
多样化矩阵校准提高实际准确性。 涵盖聊天、代码、推理和工具调用（无维基百科）的校准数据集，以维基文本困惑度的微小增加为代价，换取了下游基准测试的显著提升和始终较低的KL散度。这种效果在激进量化中最为明显。
llama.cpp的原生量化算法已臻最优。 五项新颖的C级修改均未显示任何改进。性能提升来自更好的精度分配，而非算法变更。

APEX方法和代码即将发布。

评估方法

信息论指标：困惑度在 wikitext-2-raw 数据集上进行测量（上下文长度 2048，完整数据集）。KL 散度用于衡量量化模型与全精度模型 logit 分布之间的差异，报告均值、最大值、99.9 百分位数和中位数。数值越低，表示量化模型的预测与原始模型越接近。

下游精度基准测试：通过 llama.cpp 对 HellaSwag（常识推理）、Winogrande（指代消解）、MMLU（多任务语言理解）、ARC-Challenge（科学问答）和 TruthfulQA（真实性生成）进行评估，适当时包含 400 个任务。

注：混合 MoE 模型的评估通过我们对 llama.cpp 循环架构混合内存路径的上游修复实现（已准备好 PR）。

硬件

所有基准测试均在 NVIDIA DGX Spark 上进行：

GPU：NVIDIA GB10，122 GB 统一显存
CUDA：13.0，计算能力 12.1
基准测试：wikitext-2-raw 测试集，上下文长度 2048，完整数据集评估
推理速度：使用 llama-perplexity 测量（提示处理吞吐量）

技术细节

量化工具：llama.cpp 的 llama-quantize，使用 --tensor-type-file 进行每一层的精度分配
层数：40 个 transformer 层
专家数量：每个 MoE 层 256 个专家（每个 token 路由 8 个 + 1 个共享激活专家）
权重分布：路由专家接近高斯分布（峰度 3.41）；共享专家为厚尾分布（峰度 13.10）
兼容性：原生 llama.cpp，无需补丁或自定义构建

使用 LocalAI 在本地运行

这些 APEX 量化模型可与 LocalAI 开箱即用——LocalAI 是一个免费、开源的 OpenAI 兼容 API，可在本地运行。加载任何 APEX GGUF 模型，即可立即获得具备聊天补全、嵌入等功能的 API 服务器：

# Run APEX Balanced with LocalAI
local-ai run mudler/Qwen3.5-35B-A3B-APEX-GGUF@Qwen3.5-35B-A3B-APEX-Balanced.gguf

LocalAI 支持 GPU 加速、多模型加载以及函数调用。更多信息请参阅 LocalAI 文档。

TurboQuant KV 缓存压缩（可选）

为进一步节省内存并加快提示词处理速度，APEX 模型可通过 TurboQuant+ 与 KV 缓存压缩相结合。TurboQuant+ 是 llama.cpp 的一个分支，为 KV 缓存添加了 turbo 量化类型。这与权重量化是分开的——TurboQuant 可将 KV 缓存压缩 4.6 倍，从而在更少的 VRAM 中支持更长的上下文。

这需要使用 TurboQuant+ 分支的 feature/turboquant-kv-cache 分支：

# Build (same as llama.cpp, but clone the fork)
git clone https://github.com/TheTom/llama-cpp-turboquant.git
cd llama-cpp-turboquant
git checkout feature/turboquant-kv-cache
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

推荐配置：-ctk q8_0 -ctv turbo3 -fa on

# Example: APEX Mini with TurboQuant KV cache compression
./build/bin/llama-server -m Qwen3.5-35B-A3B-APEX-Mini.gguf \
    -ctk q8_0 -ctv turbo3 -fa on \
    --host 0.0.0.0 --port 8080 -ngl 99

8K上下文下的提示词处理速度提升

模型	pp8192基准	pp8192 turbo3	速度提升	tg128差异
APEX I-Quality	1,752 t/s	2,003 t/s	+14.3%	<1%
APEX I-Balanced	1,695 t/s	1,927 t/s	+13.7%	<1%
APEX I-Compact	1,714 t/s	1,959 t/s	+14.3%	<1%
APEX Mini	1,696 t/s	1,938 t/s	+14.3%	<1%

TurboQuant在8K上下文下实现了13-14%的提示词处理速度提升，同时对令牌生成速度的影响可忽略不计（tg128差异<1%）。KV缓存压缩与权重量化相互独立，因此所有质量指标（困惑度、准确率、KL散度）保持不变。

APEX Mini + TurboQuant支持在16 GB显存的GPU上以12 GB内存运行35B MoE模型，并支持8K+上下文。

致谢

APEX由LocalAI团队开发——他们是免费开源的OpenAI兼容API的创建者，可用于在本地运行AI。

该项目通过人工驱动、AI辅助的研究开发，系统地探索了MoE量化策略，进行了25+次实验。基于Georgi Gerganov及其贡献者开发的llama.cpp构建。灵感来源于karpathy/autoresearch。

引用

如果您在研究中使用APEX量化模型，请引用：

@misc{apex-quant-2026,
    title   = {APEX: Adaptive Precision for Expert Models -- MoE-Aware Mixed-Precision Quantization},
    author  = {Di Giacinto, Ettore and {LocalAI Team}},
    year    = {2026},
    url     = {https://github.com/mudler/apex-quant},
    note    = {Layer-wise precision gradient quantization for Mixture-of-Experts models using llama.cpp}
}

@misc{localai,
    title   = {LocalAI: the free, Open Source OpenAI alternative},
    author  = {Di Giacinto, Ettore and {LocalAI Contributors}},
    year    = {2023},
    url     = {https://github.com/mudler/LocalAI}
}