本量化文件专为 DS4 推理引擎设计。它们可能适用于其他推理引擎,也可能不适用(理论上应该适用,但 MTP 模型需要特定加载器)。
https://github.com/antirez/ds4
| 文件 | 大小 | 路由专家(ffn_{gate,up,down}_exps) | 其他所有内容 |
|---|---|---|---|
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2.gguf | 80.8 GiB | IQ2_XXS(gate、up)+ Q2_K(down) | Q8_0 注意力投影 / 共享专家 / 输出,F16 路由器 + 嵌入 + 索引器 + 压缩器 + HC,F32 归一化 / 汇聚 / 偏置 |
DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf | 153.3 GiB | Q4_K(全部三个) | 同上 |
DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf | 3.6 GiB | MTP / 投机解码支持(可选,非独立模型)。 |
128 GB Mac 机器使用 q2,≥ 256 GB RAM 的机器使用 q4,两者均可搭配 MTP 以实现可选的投机解码。
文件名即规格说明。详细而言,对于 q2 文件:
| 张量类别 | 量化方式 | 说明 |
|---|---|---|
blk.*.ffn_gate_exps、blk.*.ffn_up_exps | IQ2_XXS | 路由专家的 up/gate |
blk.*.ffn_down_exps | Q2_K | 路由专家的 down(K-quant 以保证质量) |
blk.*.ffn_{gate,up,down}_shexp | Q8_0 | 共享专家 |
blk.*.attn_q_a、attn_q_b、attn_kv、attn_output_a、attn_output_b | Q8_0 | 所有注意力投影(MLA + 低秩输出) |
output.weight | Q8_0 | 输出头 |
token_embd.weight | F16 | 输入嵌入 |
blk.*.ffn_gate_inp(路由器) | F16 | 学习型路由器 |
blk.*.exp_probs_b(路由器偏置)、blk.*.attn_sinks、所有 *_norm.weight | F32 | |
blk.*.ffn_gate_tid2eid | I32 | 哈希路由表(仅前 3 层) |
blk.*.attn_compressor_*、blk.*.indexer_*、blk.*.hc_*、blk.*.output_hc_* | F16 / F32 | DSv4 特定的辅助模块 |
对于 q4 文件,仅三个路由专家类别更改为 Q4_K。其他所有内容与 q2 方案完全一致(字节级相同)。
这种非对称设计的原因在于:路由专家虽然占参数数量的大部分,但每个专家仅处理一部分 token,因此对其进行激进量化所带来的平均质量损失,要小于对路由器、投影层或共享专家进行同样处理的损失。将决策相关组件保持在 Q8_0 可保留模型行为;对专家进行深度压缩则能有效减小模型体积。
git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2 # 128 GB RAM machines
./download_model.sh q4 # >= 256 GB RAM machines
./download_model.sh mtp # optional MTP / speculative decoding
make
./ds4 -p "Explain Redis streams in one paragraph."
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192download_model.sh脚本会从本仓库获取文件,支持断点续传,并将./ds4flash.gguf指向所选变体。
MIT。基础模型的版权归DeepSeek所有;GGUF文件根据基础模型的发布条款进行再分发。