d
deepseek-ai/DeepSeek-V4-Flash
模型介绍文件和版本分析
下载使用量0

DeepSeek-V4:迈向高效百万token上下文智能

DeepSeek-V4

Homepage Chat
Hugging Face Twitter Follow
License

技术报告👁️

简介

我们推出DeepSeek-V4系列的预览版本,包含两款强大的混合专家(Mixture-of-Experts, MoE)语言模型——参数规模为1.6T(激活49B)的DeepSeek-V4-Pro,以及参数规模为284B(激活13B)的DeepSeek-V4-Flash,两者均支持一百万token的上下文长度。

DeepSeek-V4系列在架构与优化方面实现了多项关键升级:

  1. 混合注意力架构:我们设计了一种融合压缩稀疏注意力(Compressed Sparse Attention, CSA)与深度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力机制,显著提升长上下文处理效率。在1M token上下文场景下,DeepSeek-V4-Pro的单token推理FLOPs仅为DeepSeek-V3.2的27%,KV缓存占用仅为其10%。
  2. 流形约束超连接(mHC):我们引入mHC以增强传统残差连接,在保留模型表达能力的同时,提升跨层信号传播的稳定性。
  3. Muon优化器:我们采用Muon优化器,以实现更快的收敛速度和更高的训练稳定性。

我们在超过32T的多样化高质量token上对两款模型进行预训练,随后执行全面的后训练流程。后训练采用两阶段范式:首先通过有监督微调(SFT)和带GRPO的强化学习(RL)独立培养特定领域专家,然后通过有策略蒸馏进行统一模型整合,将不同领域的独特能力集成到单个模型中。

DeepSeek-V4-Pro-Max作为DeepSeek-V4-Pro的最大推理努力模式,显著提升了开源模型的知识能力,稳居当前最佳开源模型之列。它在代码基准测试中表现顶尖,并大幅缩小了与领先闭源模型在推理和智能体任务上的差距。同时,DeepSeek-V4-Flash-Max在给予更大思考预算时,能达到与Pro版本相当的推理性能,尽管其较小的参数规模使其在纯知识任务和最复杂的智能体工作流上自然略逊一筹。

模型下载

模型总参数数量激活参数数量上下文长度精度下载链接
DeepSeek-V4-Flash-Base284B13B1MFP8 混合精度HuggingFace | ModelScope
DeepSeek-V4-Flash284B13B1MFP4 + FP8 混合精度*HuggingFace | ModelScope
DeepSeek-V4-Pro-Base1.6T49B1MFP8 混合精度HuggingFace | ModelScope
DeepSeek-V4-Pro1.6T49B1MFP4 + FP8 混合精度*HuggingFace | ModelScope

*FP4 + FP8 混合精度:MoE 专家参数采用 FP4 精度;其他大部分参数采用 FP8 精度。

评估结果

基础模型

基准测试(指标)提示次数DeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base
架构-MoEMoEMoE
激活参数数量-37B13B49B
总参数数量-671B284B1.6T
世界知识
AGIEval(精确匹配)0 次提示80.182.683.1
MMLU(精确匹配)5 次提示87.888.790.1
MMLU-Redux(精确匹配)5 次提示87.589.490.8
MMLU-Pro(精确匹配)5 次提示65.568.373.5
MMMLU(精确匹配)5 次提示87.988.890.3
C-Eval(精确匹配)5 次提示90.492.193.1
CMMLU(精确匹配)5 次提示88.990.490.8
MultiLoKo(精确匹配)5 次提示38.742.251.1
Simple-QA verified(精确匹配)25 次提示28.330.155.2
SuperGPQA(精确匹配)5 次提示45.046.553.9
FACTS Parametric(精确匹配)25 次提示27.133.962.6
TriviaQA(精确匹配)5 次提示83.382.885.6
语言与推理
BBH(精确匹配)3 次提示87.686.987.5
DROP(F1 分数)1 次提示88.288.688.7
HellaSwag(精确匹配)0 次提示86.485.788.0
WinoGrande(精确匹配)0 次提示78.979.581.5
CLUEWSC(精确匹配)5 次提示83.582.285.2
代码与数学
BigCodeBench(Pass@1)3 次提示63.956.859.2
HumanEval(Pass@1)0 次提示62.869.576.8
GSM8K(精确匹配)8 次提示91.190.892.6
MATH(精确匹配)4 次提示60.557.464.5
MGSM(精确匹配)8 次提示81.385.784.4
CMath(精确匹配)3 次提示92.693.690.9
长上下文
LongBench-V2(精确匹配)1 次提示40.244.751.5

指令模型

DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 均支持三种推理努力模式:

推理模式特点典型应用场景响应格式
非思考(Non-think)快速、直观的响应日常常规任务、低风险决策</think> summary
深度思考(Think High)有意识的逻辑分析,速度较慢但更准确复杂问题解决、规划</think> thinking superscript: summary
极致思考(Think Max)将推理能力发挥到极致探索模型推理能力的边界特殊系统提示 + <RichMediaReference> thinking superscript: summary

DeepSeek-V4-Pro-Max 与前沿模型对比

基准测试(指标)Opus-4.6 MaxGPT-5.4 xHighGemini-3.1-Pro HighK2.6 ThinkingGLM-5.1 ThinkingDS-V4-Pro Max
知识与推理
MMLU-Pro(EM)89.187.591.087.186.087.5
SimpleQA-Verified(Pass@1)46.245.375.636.938.157.9
Chinese-SimpleQA(Pass@1)76.476.885.975.975.084.4
GPQA Diamond(Pass@1)91.393.094.390.586.290.1
HLE(Pass@1)40.039.844.436.434.737.7
LiveCodeBench(Pass@1)88.8-91.789.6-93.5
Codeforces(Rating)-31683052--3206
HMMT 2026 Feb(Pass@1)96.297.794.792.789.495.2
IMOAnswerBench(Pass@1)75.391.481.086.083.889.8
Apex(Pass@1)34.554.160.924.011.538.3
Apex Shortlist(Pass@1)85.978.189.175.572.490.2
长上下文
MRCR 1M(MMR)92.9-76.3--83.5
CorpusQA 1M(ACC)71.7-53.8--62.0
智能体能力
Terminal Bench 2.0(Acc)65.475.168.566.763.567.9
SWE Verified(Resolved)80.8-80.680.2-80.6
SWE Pro(Resolved)57.357.754.258.658.455.4
SWE Multilingual(Resolved)77.5--76.773.376.2
BrowseComp(Pass@1)83.782.785.983.279.383.4
HLE w/ tools(Pass@1)53.152.051.654.050.448.2
GDPval-AA(Elo)161916741314148215351554
MCPAtlas Public(Pass@1)73.867.269.266.671.873.6
Toolathlon(Pass@1)47.254.648.850.040.751.8

不同模式间的对比

基准测试(指标)V4-Flash Non-ThinkV4-Flash HighV4-Flash MaxV4-Pro Non-ThinkV4-Pro HighV4-Pro Max
知识与推理
MMLU-Pro(EM)83.086.486.282.987.187.5
SimpleQA-Verified(Pass@1)23.128.934.145.046.257.9
Chinese-SimpleQA(Pass@1)71.573.278.975.877.784.4
GPQA Diamond(Pass@1)71.287.488.172.989.190.1
HLE(Pass@1)8.129.434.87.734.537.7
LiveCodeBench(Pass@1)55.288.491.656.889.893.5
Codeforces(Rating)-28163052-29193206
HMMT 2026 Feb(Pass@1)40.891.994.831.794.095.2
IMOAnswerBench(Pass@1)41.985.188.435.388.089.8
Apex(Pass@1)1.019.133.00.427.438.3
Apex Shortlist(Pass@1)9.372.185.79.285.590.2
长上下文
MRCR 1M(MMR)37.576.978.744.783.383.5
CorpusQA 1M(ACC)15.559.360.535.656.562.0
智能体能力
Terminal Bench 2.0(Acc)49.156.656.959.163.367.9
SWE Verified(Resolved)73.778.679.073.679.480.6
SWE Pro(Resolved)49.152.352.652.154.455.4
SWE Multilingual(Resolved)69.770.273.369.874.176.2
BrowseComp(Pass@1)-53.573.2-80.483.4
HLE w/ tools(Pass@1)-40.345.1-44.748.2
MCPAtlas(Pass@1)64.067.469.069.474.273.6
GDPval-AA(Elo)--1395--1554
Toolathlon(Pass@1)40.743.547.846.349.051.8

对话模板

本版本未包含 Jinja 格式的对话模板。相反,我们提供了一个专用的 encoding 文件夹,其中包含 Python 脚本和测试用例,展示了如何将 OpenAI 兼容格式的消息编码为模型的输入字符串,以及如何解析模型的文本输出。完整文档请参考 encoding 文件夹。

一个简单示例:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"}
]

# messages -> string
prompt = encode_messages(messages, thinking_mode="thinking")

# string -> tokens
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
tokens = tokenizer.encode(prompt)

如何本地运行

有关本地运行 DeepSeek-V4 的详细说明,包括模型权重转换和交互式聊天演示,请参考 推理 文件夹。

对于本地部署,我们建议将采样参数设置为 temperature = 1.0, top_p = 1.0。对于 Think Max 推理模式,我们建议将上下文窗口设置为至少 384K tokens。

许可证

本仓库和模型权重采用 MIT 许可证 授权。

引用

@misc{deepseekai2026deepseekv4,
      title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
      author={DeepSeek-AI},
      year={2026},
}

联系方式

若您有任何疑问,请提交 issue 或通过 service@deepseek.com 与我们联系。