HuggingFace镜像/deepseek-v4-gguf
模型介绍文件和版本分析
下载使用量0

DeepSeek V4 Flash — ds4 的 GGUF 格式文件

本量化文件专为 DS4 推理引擎设计。它们可能适用于其他推理引擎,也可能不适用(理论上应该适用,但 MTP 模型需要特定加载器)。

https://github.com/antirez/ds4

文件

文件大小路由专家(ffn_{gate,up,down}_exps)其他所有内容
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2.gguf80.8 GiBIQ2_XXS(gate、up)+ Q2_K(down)Q8_0 注意力投影 / 共享专家 / 输出,F16 路由器 + 嵌入 + 索引器 + 压缩器 + HC,F32 归一化 / 汇聚 / 偏置
DeepSeek-V4-Flash-Q4KExperts-F16HC-F16Compressor-F16Indexer-Q8Attn-Q8Shared-Q8Out-chat-v2.gguf153.3 GiBQ4_K(全部三个)同上
DeepSeek-V4-Flash-MTP-Q4K-Q8_0-F32.gguf3.6 GiBMTP / 投机解码支持(可选,非独立模型)。

128 GB Mac 机器使用 q2,≥ 256 GB RAM 的机器使用 q4,两者均可搭配 MTP 以实现可选的投机解码。

量化方案

文件名即规格说明。详细而言,对于 q2 文件:

张量类别量化方式说明
blk.*.ffn_gate_exps、blk.*.ffn_up_expsIQ2_XXS路由专家的 up/gate
blk.*.ffn_down_expsQ2_K路由专家的 down(K-quant 以保证质量)
blk.*.ffn_{gate,up,down}_shexpQ8_0共享专家
blk.*.attn_q_a、attn_q_b、attn_kv、attn_output_a、attn_output_bQ8_0所有注意力投影(MLA + 低秩输出)
output.weightQ8_0输出头
token_embd.weightF16输入嵌入
blk.*.ffn_gate_inp(路由器)F16学习型路由器
blk.*.exp_probs_b(路由器偏置)、blk.*.attn_sinks、所有 *_norm.weightF32
blk.*.ffn_gate_tid2eidI32哈希路由表(仅前 3 层)
blk.*.attn_compressor_*、blk.*.indexer_*、blk.*.hc_*、blk.*.output_hc_*F16 / F32DSv4 特定的辅助模块

对于 q4 文件,仅三个路由专家类别更改为 Q4_K。其他所有内容与 q2 方案完全一致(字节级相同)。

这种非对称设计的原因在于:路由专家虽然占参数数量的大部分,但每个专家仅处理一部分 token,因此对其进行激进量化所带来的平均质量损失,要小于对路由器、投影层或共享专家进行同样处理的损失。将决策相关组件保持在 Q8_0 可保留模型行为;对专家进行深度压缩则能有效减小模型体积。

使用方法

git clone https://github.com/antirez/ds4
cd ds4
./download_model.sh q2     # 128 GB RAM machines
./download_model.sh q4     # >= 256 GB RAM machines
./download_model.sh mtp    # optional MTP / speculative decoding
make

./ds4 -p "Explain Redis streams in one paragraph."
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

download_model.sh脚本会从本仓库获取文件,支持断点续传,并将./ds4flash.gguf指向所选变体。

许可证

MIT。基础模型的版权归DeepSeek所有;GGUF文件根据基础模型的发布条款进行再分发。