DeepSeek V4 Flash — ds4 的 GGUF 格式文件

本量化文件专为 DS4 推理引擎设计。它们可能适用于其他推理引擎，也可能不适用（理论上应该适用，但 MTP 模型需要特定加载器）。

文件

文件	大小	路由专家（`ffn_{gate,up,down}_exps`）	其他所有内容
`DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2.gguf`	80.8 GiB	`IQ2_XXS`（gate、up）+ `Q2_K`（down）	`Q8_0` 注意力投影 / 共享专家 / 输出，`F16` 路由器 + 嵌入 + 索引器 + 压缩器 + HC，`F32` 归一化 / 汇聚 / 偏置
`DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf`	153.3 GiB	`Q4_K`（全部三个）	同上
`DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf`	3.6 GiB	MTP / 投机解码支持（可选，非独立模型）。

128 GB Mac 机器使用 q2，≥ 256 GB RAM 的机器使用 q4，两者均可搭配 MTP 以实现可选的投机解码。

量化方案

文件名即规格说明。详细而言，对于 q2 文件：

张量类别	量化方式	说明
`blk..ffn_gate_exps`、`blk..ffn_up_exps`	`IQ2_XXS`	路由专家的 up/gate
`blk.*.ffn_down_exps`	`Q2_K`	路由专家的 down（K-quant 以保证质量）
`blk.*.ffn_{gate,up,down}_shexp`	`Q8_0`	共享专家
`blk.*.attn_q_a`、`attn_q_b`、`attn_kv`、`attn_output_a`、`attn_output_b`	`Q8_0`	所有注意力投影（MLA + 低秩输出）
`output.weight`	`Q8_0`	输出头
`token_embd.weight`	`F16`	输入嵌入
`blk.*.ffn_gate_inp`（路由器）	`F16`	学习型路由器
`blk..exp_probs_b`（路由器偏置）、`blk..attn_sinks`、所有 `*_norm.weight`	`F32`
`blk.*.ffn_gate_tid2eid`	`I32`	哈希路由表（仅前 3 层）
`blk..attn_compressor_`、`blk..indexer_`、`blk..hc_`、`blk..output_hc_`	`F16` / `F32`	DSv4 特定的辅助模块

对于 q4 文件，仅三个路由专家类别更改为 Q4_K。其他所有内容与 q2 方案完全一致（字节级相同）。

这种非对称设计的原因在于：路由专家虽然占参数数量的大部分，但每个专家仅处理一部分 token，因此对其进行激进量化所带来的平均质量损失，要小于对路由器、投影层或共享专家进行同样处理的损失。将决策相关组件保持在 Q8_0 可保留模型行为；对专家进行深度压缩则能有效减小模型体积。

使用方法

git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2     # 128 GB RAM machines
./download_model.sh q4     # >= 256 GB RAM machines
./download_model.sh mtp    # optional MTP / speculative decoding
make

./ds4 -p "Explain Redis streams in one paragraph."
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

download_model.sh脚本会从本仓库获取文件，支持断点续传，并将./ds4flash.gguf指向所选变体。

许可证

MIT。基础模型的版权归DeepSeek所有；GGUF文件根据基础模型的发布条款进行再分发。