HuggingFace镜像/Qwen3.5-35B-A3B-APEX-GGUF
模型介绍文件和版本分析
下载使用量0

Qwen3.5-35B-A3B APEX GGUF——一种新颖的MoE感知混合精度量化技术

由 LocalAI 团队呈现——LocalAI 的创造者,这是一款开源 AI 引擎,可在任何硬件上运行任何模型(LLM、视觉、语音、图像、视频),无需 GPU。

APEX 技术报告 | GitHub 仓库 | LocalAI

APEX(Adaptive Precision for EXpert Models,专家模型自适应精度)是一种新颖的量化技术,专为混合专家(Mixture-of-Experts)语言模型设计。与对每个张量应用相同精度的均匀量化方法不同,APEX 引入了逐层精度梯度,并结合MoE 感知张量分类和多样化 imatrix 校准,以较小的模型体积实现 Q8_0 级别的质量。该方法是通过对 25 多种量化策略进行系统性的人工驱动、AI 辅助研究后发现的。APEX 在准确性基准测试中优于 Unsloth Dynamic 2.0(UD)量化,同时体积小 2 倍。

本仓库包含七个 APEX GGUF 文件以及一个视觉投影器(mmproj),涵盖了从最高精度到消费级 GPU 推理的各种部署场景。最佳配置(APEX Quality)在困惑度上超过 Q8_0 和 F16,同时比 Q8_0 小 38%。I 变体使用多样化的 imatrix(对话、代码、推理、工具调用——不含维基百科内容),以微小的困惑度增加换取显著的精度提升和更低的 KL 散度。

有关完整的技术细节、方法描述和复现脚本,请参见 APEX GitHub 仓库。

可用文件

文件配置大小困惑度(PPL)速度(tg128)最适用场景
Qwen3.5-35B-A3B-APEX-Quality.ggufAPEX Quality21.3 GB6.52762.3 t/s所有量化中最低的困惑度
Qwen3.5-35B-A3B-APEX-I-Quality.ggufAPEX I-Quality21.3 GB6.55263.1 t/s基准测试中最佳准确性
Qwen3.5-35B-A3B-APEX-Balanced.ggufAPEX Balanced23.6 GB6.53360.8 t/s交互式使用、服务部署、通用目的
Qwen3.5-35B-A3B-APEX-I-Balanced.ggufAPEX I-Balanced23.6 GB6.54861.4 t/s全面性能,更低的 KL 散度
Qwen3.5-35B-A3B-APEX-Compact.ggufAPEX Compact16.1 GB6.78369.8 t/s消费级 24 GB GPU
Qwen3.5-35B-A3B-APEX-I-Compact.ggufAPEX I-Compact16.1 GB6.66969.8 t/s16 GB GPU,该尺寸下最佳准确性
Qwen3.5-35B-A3B-APEX-Mini.ggufAPEX Mini12.2 GB7.08874.4 t/s消费级 16 GB VRAM,最小可行模型
mmproj-F16.ggufVision Projector899 MB----视觉/多模态任务必需

APEX Quality 采用三层逐层精度梯度(Q6_K/Q5_K/IQ4_XS),并使用 Q8_0 共享专家。它实现了所有测试量化中最低的困惑度——甚至超过 F16(6.527 vs 6.537)。

APEX I-Quality 采用与 Quality 相同的架构,但使用多样化的 imatrix(对话、代码、推理、工具调用——不含维基百科内容)。它实现了最高的 HellaSwag(83.5%),在 ARC 上与 Q8_0 持平(57.9%),并在所有测试模型中取得最佳的 TruthfulQA(38.4%)。

APEX Balanced 采用两层梯度(边缘层 Q6_K,中间层 Q5_K),并使用 Q8_0 共享专家。它的困惑度与 Q8_0 完全一致(6.533),同时体积小 31%,速度快 16%。推荐用于通用目的。

APEX I-Balanced 采用与 Balanced 相同的架构,并使用多样化的 imatrix。KL 散度下降 11%(平均值 0.0078 vs 0.0088),KL 最大值从 6.03 降至 5.77。

APEX Compact 使用 Q4_K 边缘层、Q3_K 中间层和 Q6_K 共享专家。16.1 GB 的体积可在消费级 24 GB GPU 上运行,并留有 KV 缓存空间。

APEX I-Compact 是 imatrix 带来最大收益的版本:PPL 从 6.783 降至 6.669(-0.114),KL 最大值从 7.56 降至 5.50,MMLU 从 40.9% 提升至 41.7%。多样化 imatrix 对激进量化的层级影响最大。

APEX Mini 将逐层精度梯度与 IQ2_S 中间层专家以及多样化 imatrix 相结合,模型体积压缩至 12.2 GB。它在所有指标上均优于 bartowski IQ2_M(11.3 GB):PPL 7.088 vs 7.303,HellaSwag 81.0% vs 80.3%,MMLU 41.3% vs 39.6%。可在消费级 16 GB VRAM GPU 上运行,并留有上下文空间。

基准测试结果

所有测量均在 Qwen3.5-35B-A3B、NVIDIA DGX Spark(GB10,122 GB 显存)上进行。困惑度(Perplexity)基于 wikitext-2-raw 数据集测量,上下文长度为 2048。准确度基准测试(HellaSwag、Winogrande、MMLU、ARC-Challenge、TruthfulQA)通过 llama.cpp 进行评估,适用时使用 400 个任务。

核心指标

量化方式大小(GB)PPLKL 均值KL 最大值HSWGMMLUARCTQAtg128(tokens/秒)
F1664.66.537----82.5%74.5%41.5%56.9%37.2%30.4
Q8_034.46.5330.004614.7183.0%75.3%41.2%57.9%37.7%52.5
APEX Quality21.36.5270.01145.8583.0%74.5%41.2%56.2%37.7%62.3
APEX I-Quality21.36.5520.01025.5983.5%74.5%41.4%57.9%38.4%63.1
APEX Balanced23.66.5330.00886.0383.0%74.5%41.3%56.9%36.8%60.8
APEX I-Balanced23.66.5480.00785.7783.0%73.3%41.0%57.5%37.5%61.4
APEX Compact16.16.7830.04697.5682.5%73.3%40.9%55.2%36.5%69.8
APEX I-Compact16.16.6690.03325.5081.8%75.0%41.7%55.5%37.9%69.8
APEX Mini12.27.0880.08705.5781.0%75.5%41.3%57.2%36.7%74.4
Unsloth UD-Q8_K_XL45.36.5360.00254.3682.5%74.8%41.3%57.9%38.1%36.4
Unsloth UD-Q4_K_L18.86.5860.01515.9882.3%75.8%41.1%59.2%37.3%65.5
bartowski IQ2_M11.37.3030.11136.0780.3%74.0%39.6%56.2%35.0%76.2
bartowski Q3_K_M15.16.7300.04205.5682.0%75.0%41.5%57.5%38.8%60.6

准确性基准测试

基准测试F16Q8_0QualityI-QualityBalancedI-BalancedCompactI-CompactMiniQ8_K_XLQ4_K_LIQ2_MQ3_K_M
HellaSwag82.5%83.0%83.0%83.5%83.0%83.0%82.5%81.8%81.0%82.5%82.3%80.3%82.0%
Winogrande74.5%75.3%74.5%74.5%74.5%73.3%73.3%75.0%75.5%74.8%75.8%74.0%75.0%
MMLU41.5%41.2%41.2%41.4%41.3%41.0%40.9%41.7%41.3%41.3%41.1%39.6%41.5%
ARC56.9%57.9%56.2%57.9%56.9%57.5%55.2%55.5%57.2%57.9%59.2%56.2%57.5%
TruthfulQA37.2%37.7%37.7%38.4%36.8%37.5%36.5%37.9%36.7%38.1%37.3%35.0%38.8%

核心要点

  • APEX Quality 量化版本的困惑度(perplexity)表现最佳(6.527,甚至优于 F16 的 6.537),而大小仅为 21.3 GB。
  • I 变体以微小的困惑度提升换取了显著的准确性增益。 I-Quality 实现了 83.5% 的 HellaSwag 得分(所有模型中最佳)、57.9% 的 ARC 得分以及 38.4% 的 TruthfulQA 得分。所有 I 变体的 KL 散度均一致降低了 10-30%。
  • I-Compact 是 imatrix 优化的最大受益者:困惑度从 6.783 降至 6.669(降低 0.114),KL 最大值从 7.56 降至 5.50,MMLU 得分从 40.9% 提升至 41.7%。
  • APEX Mini(12.2 GB)在所有指标上均优于 bartowski IQ2_M(11.3 GB):困惑度 7.088 vs 7.303,HellaSwag 81.0% vs 80.3%,MMLU 41.3% vs 39.6%。采用多样化 imatrix 的层梯度 + IQ2_S 优于统一的 IQ2_M。
  • 在相近大小下(18.8 GB vs 21.3 GB),APEX Quality 在困惑度(6.527 vs 6.586)、KL 均值(0.011 vs 0.015)和 HellaSwag(83.0% vs 82.3%)方面均优于 Unsloth UD-Q4_K_L。
  • APEX Compact(16.1 GB)比 Unsloth UD-Q4_K_L(18.8 GB)小 14%,且速度快 7%(69.8 t/s vs 65.5 t/s)。
  • Unsloth UD-Q8_K_XL 在 KL 散度方面表现最佳(最佳均值 0.0025,最佳最大值 4.36),但其大小是 APEX 各层级的 2-3 倍。
  • Q8_0 在所有测试模型中具有最差的离群值散度(KL 最大值 14.71),尽管其 KL 均值较低。
  • 在误差范围内,所有 APEX 层级的准确性基准测试结果均达到或优于 Unsloth,而大小仅为其一小部分。

基准测试图表

困惑度与模型大小对比

困惑度与推理速度对比

准确度基准测试对比

KL散度对比

效率:大小与速度对比

多指标雷达图

如何下载与使用

APEX I-Quality(21.3 GB)—— 最佳准确度

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-I-Quality.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-I-Quality.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-I-Quality.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约22 GB显存。采用多样化的矩阵校准,以在各基准测试中实现最佳精度。当下游任务性能比原始困惑度更重要时,推荐使用此版本。

APEX Quality(21.3 GB)——最佳困惑度

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-Quality.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Quality.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Quality.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约22 GB显存。中间层专家采用IQ4_XS,因此建议使用llama.cpp b5460或更高版本。

APEX I-Balanced(23.6 GB)—— 全面兼顾且KL更低

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-I-Balanced.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-I-Balanced.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-I-Balanced.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约24 GB显存。采用多样化的imatrix校准和标准K-quant格式,以降低KL散度。

APEX Balanced(23.6 GB)——最佳全能之选

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-Balanced.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Balanced.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Balanced.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约24 GB显存。仅使用标准K量化格式(Q6_K/Q5_K),并配备优化的反量化内核。

APEX I-Compact(16.1 GB)——16 GB显存下的最佳精度

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-I-Compact.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-I-Compact.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-I-Compact.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约17 GB显存。最大的imatrix赢家——与标准Compact相比,PPL降低0.114,MMLU从40.9%提升至41.7%。

APEX Compact(16.1 GB)——消费级GPU

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-Compact.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Compact.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Compact.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约17 GB显存。适用于消费级24 GB显存显卡(RTX 4090、RTX 5090),并有足够空间容纳KV缓存和上下文。

APEX Mini(12.2 GB)——消费级16 GB显存

# Download
huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF \
    Qwen3.5-35B-A3B-APEX-Mini.gguf --local-dir ./model

# Interactive chat
llama-cli -m ./model/Qwen3.5-35B-A3B-APEX-Mini.gguf \
    --conversation -ngl 99

# Server mode
llama-server -m ./model/Qwen3.5-35B-A3B-APEX-Mini.gguf \
    --host 0.0.0.0 --port 8080 -ngl 99

完全GPU卸载需要约13 GB显存。可适配消费级16 GB显存的GPU(RTX 4060 Ti 16GB、RTX 5060 Ti),并有足够空间容纳上下文。尽管仅比bartowski IQ2_M大0.9 GB,但在所有指标上均胜过它。

下载所有文件

huggingface-cli download mudler/Qwen3.5-35B-A3B-APEX-GGUF --local-dir ./model

关于基础模型

Qwen3.5-35B-A3B 是一个混合专家(Mixture-of-Experts)语言模型,总参数量为350亿,但每个token仅激活30亿参数。它在每个MoE层中使用256个专家,在40个Transformer层中,每个token路由8个专家加上1个共享专家。这种稀疏激活模式意味着对于任何给定token,97%的专家权重处于闲置状态,这为差异化量化创造了机会。

量化方法

APEX 利用MoE模型的三个特性实现无损压缩:

1. MoE感知张量分类

MoE模型中的并非所有张量都是同等重要的。APEX将它们分为三类,每类具有不同的精度要求:

  • 路由专家权重(gate/up/down投影):这些构成了模型参数的主体,但每个token仅激活256个专家中的8个。97%的稀疏性意味着这些权重可以承受激进的量化——路由决策使用全精度的门控权重,因此非激活专家中的量化噪声永远不会影响输出。
  • 共享专家权重:对每个token始终激活,并表现出重尾权重分布(峰度为13.10,而路由专家为3.41)。这些需要高精度(Q8_0)以保留异常值。
  • 注意力和SSM权重:密集层,参数数量较少,但对生成质量至关重要。在Quality和Balanced层级中统一保持为Q6_K。

2. 逐层精度梯度

边缘Transformer层(前5层和后5层)处理输入嵌入对齐和输出logit生成。它们对量化的敏感度明显高于中间层,中间层执行更多冗余的中间处理。APEX为边缘层分配更高的精度,为中间层分配更低的精度。

3. 五个层级(七种配置)

配置大小专家策略共享专家注意力最适合场景
APEX I-Quality21.3 GBQ6_K边缘层,Q5_K近边缘层,IQ4_XS中间层,多样化imatrixQ8_0Q6_K最佳准确性
APEX Quality21.3 GBQ6_K边缘层,Q5_K近边缘层,IQ4_XS中间层Q8_0Q6_K最低困惑度
APEX I-Balanced23.6 GBQ6_K边缘层,Q5_K中间层,多样化imatrixQ8_0Q6_K全面型,更低KL散度
APEX Balanced23.6 GBQ6_K边缘层,Q5_K中间层Q8_0Q6_K通用目的
APEX I-Compact16.1 GBQ4_K边缘层,Q3_K中间层,多样化imatrixQ6_KQ4_K16 GB下的最佳准确性
APEX Compact16.1 GBQ4_K边缘层,Q3_K中间层Q6_KQ4_K消费级24 GB GPU
APEX Mini12.2 GB带IQ2_S中间层的层级梯度,多样化imatrixQ6_KQ4_K消费级16 GB显存

I-variants:多样化矩阵校准

标准的矩阵校准使用维基百科文本,这会使量化偏向百科全书式的散文风格。APEX I-variants采用多样化的校准数据集,涵盖聊天、代码、推理和工具调用——不包含维基百科内容。这产生了一种不同的优化权衡:I-variants以维基文本(维基百科文本基准)上微小的困惑度增加为代价,换取了在实际准确性基准上的显著提升和始终较低的KL散度。

这种效果在激进量化中最为显著。I-Compact将困惑度从6.783降至6.669(降低0.114),将KL最大值从7.56降至5.50,并将MMLU从40.9%提升至41.7%。在Quality层级,I-Quality取得了所有测试模型中最高的HellaSwag分数(83.5%),在ARC上与Q8_0持平(57.9%),并在TruthfulQA上表现最佳(38.4%)。

APEX Mini:12 GB层级

APEX Mini结合了逐层精度梯度、IQ2_S中间层专家以及多样化矩阵,将MoE量化压缩至12.2 GB。在这个大小下,它可以适配消费级16 GB显存的GPU(RTX 4060 Ti 16GB、RTX 5060 Ti),并有足够空间容纳上下文。它在所有指标上均优于bartowski IQ2_M(11.3 GB):困惑度7.088对比7.303,HellaSwag 81.0%对比80.3%,MMLU 41.3%对比39.6%,ARC 57.2%对比56.2%。即使在极高的压缩比下,逐层梯度与多样化矩阵的组合仍然优于均匀量化。

25+项实验的关键发现

  • Q6_K是路由专家的最佳选择。 将专家权重从Q6_K提升至Q8_0会浪费7.5 GB显存,且困惑度没有任何改善。低于Q5_K则会导致可测量的性能下降。
  • 层位置比统一位宽更重要。 两层梯度(边缘层Q6_K,中间层Q5_K)可达到Q8_0的质量。而统一的Q5_K分配则无法实现。
  • 共享专家精度至关重要。 共享专家的重尾权重分布(峰度13.10)使其成为最敏感的组件。
  • IQ格式在MoE专家上的表现不如K-quants。 尽管比特率相似,IQ3_S在路由专家张量上的困惑度比Q3_K更差。
  • 多样化矩阵校准提高实际准确性。 涵盖聊天、代码、推理和工具调用(无维基百科)的校准数据集,以维基文本困惑度的微小增加为代价,换取了下游基准测试的显著提升和始终较低的KL散度。这种效果在激进量化中最为明显。
  • llama.cpp的原生量化算法已臻最优。 五项新颖的C级修改均未显示任何改进。性能提升来自更好的精度分配,而非算法变更。

APEX方法和代码即将发布。

评估方法

信息论指标:困惑度在 wikitext-2-raw 数据集上进行测量(上下文长度 2048,完整数据集)。KL 散度用于衡量量化模型与全精度模型 logit 分布之间的差异,报告均值、最大值、99.9 百分位数和中位数。数值越低,表示量化模型的预测与原始模型越接近。

下游精度基准测试:通过 llama.cpp 对 HellaSwag(常识推理)、Winogrande(指代消解)、MMLU(多任务语言理解)、ARC-Challenge(科学问答)和 TruthfulQA(真实性生成)进行评估,适当时包含 400 个任务。

注:混合 MoE 模型的评估通过我们对 llama.cpp 循环架构混合内存路径的上游修复实现(已准备好 PR)。

硬件

所有基准测试均在 NVIDIA DGX Spark 上进行:

  • GPU:NVIDIA GB10,122 GB 统一显存
  • CUDA:13.0,计算能力 12.1
  • 基准测试:wikitext-2-raw 测试集,上下文长度 2048,完整数据集评估
  • 推理速度:使用 llama-perplexity 测量(提示处理吞吐量)

技术细节

  • 量化工具:llama.cpp 的 llama-quantize,使用 --tensor-type-file 进行每一层的精度分配
  • 层数:40 个 transformer 层
  • 专家数量:每个 MoE 层 256 个专家(每个 token 路由 8 个 + 1 个共享激活专家)
  • 权重分布:路由专家接近高斯分布(峰度 3.41);共享专家为厚尾分布(峰度 13.10)
  • 兼容性:原生 llama.cpp,无需补丁或自定义构建

使用 LocalAI 在本地运行

这些 APEX 量化模型可与 LocalAI 开箱即用——LocalAI 是一个免费、开源的 OpenAI 兼容 API,可在本地运行。加载任何 APEX GGUF 模型,即可立即获得具备聊天补全、嵌入等功能的 API 服务器:

# Run APEX Balanced with LocalAI
local-ai run mudler/Qwen3.5-35B-A3B-APEX-GGUF@Qwen3.5-35B-A3B-APEX-Balanced.gguf

LocalAI 支持 GPU 加速、多模型加载以及函数调用。更多信息请参阅 LocalAI 文档。

TurboQuant KV 缓存压缩(可选)

为进一步节省内存并加快提示词处理速度,APEX 模型可通过 TurboQuant+ 与 KV 缓存压缩相结合。TurboQuant+ 是 llama.cpp 的一个分支,为 KV 缓存添加了 turbo 量化类型。这与权重量化是分开的——TurboQuant 可将 KV 缓存压缩 4.6 倍,从而在更少的 VRAM 中支持更长的上下文。

这需要使用 TurboQuant+ 分支的 feature/turboquant-kv-cache 分支:

# Build (same as llama.cpp, but clone the fork)
git clone https://github.com/TheTom/llama-cpp-turboquant.git
cd llama-cpp-turboquant
git checkout feature/turboquant-kv-cache
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

推荐配置:-ctk q8_0 -ctv turbo3 -fa on

# Example: APEX Mini with TurboQuant KV cache compression
./build/bin/llama-server -m Qwen3.5-35B-A3B-APEX-Mini.gguf \
    -ctk q8_0 -ctv turbo3 -fa on \
    --host 0.0.0.0 --port 8080 -ngl 99

8K上下文下的提示词处理速度提升

模型pp8192基准pp8192 turbo3速度提升tg128差异
APEX I-Quality1,752 t/s2,003 t/s+14.3%<1%
APEX I-Balanced1,695 t/s1,927 t/s+13.7%<1%
APEX I-Compact1,714 t/s1,959 t/s+14.3%<1%
APEX Mini1,696 t/s1,938 t/s+14.3%<1%

TurboQuant在8K上下文下实现了13-14%的提示词处理速度提升,同时对令牌生成速度的影响可忽略不计(tg128差异<1%)。KV缓存压缩与权重量化相互独立,因此所有质量指标(困惑度、准确率、KL散度)保持不变。

APEX Mini + TurboQuant支持在16 GB显存的GPU上以12 GB内存运行35B MoE模型,并支持8K+上下文。

致谢

APEX由LocalAI团队开发——他们是免费开源的OpenAI兼容API的创建者,可用于在本地运行AI。

该项目通过人工驱动、AI辅助的研究开发,系统地探索了MoE量化策略,进行了25+次实验。基于Georgi Gerganov及其贡献者开发的llama.cpp构建。灵感来源于karpathy/autoresearch。

引用

如果您在研究中使用APEX量化模型,请引用:

@misc{apex-quant-2026,
    title   = {APEX: Adaptive Precision for Expert Models -- MoE-Aware Mixed-Precision Quantization},
    author  = {Di Giacinto, Ettore and {LocalAI Team}},
    year    = {2026},
    url     = {https://github.com/mudler/apex-quant},
    note    = {Layer-wise precision gradient quantization for Mixture-of-Experts models using llama.cpp}
}
@misc{localai,
    title   = {LocalAI: the free, Open Source OpenAI alternative},
    author  = {Di Giacinto, Ettore and {LocalAI Contributors}},
    year    = {2023},
    url     = {https://github.com/mudler/LocalAI}
}