d
deepseek-ai/DeepSeek-V3.2-Exp
模型介绍模型推理文件和版本分析
下载使用量0

DeepSeek-V3.2-Exp

DeepSeek-V3

官网 聊天 Hugging Face
Discord 微信 Twitter 关注
许可证

简介

我们很高兴地宣布DeepSeek-V3.2-Exp的正式发布,这是我们模型的一个实验版本。作为迈向我们下一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention——一种稀疏注意力机制,旨在探索和验证长文本场景下训练与推理效率的优化。

此次实验版本的发布,体现了我们在更高效Transformer架构方面持续的研究努力,尤其侧重于提升处理长文本序列时的计算效率。

  • DeepSeek Sparse Attention(DSA)首次实现了细粒度的稀疏注意力,在保持模型输出质量几乎相同的同时,显著提升了长文本训练和推理的效率。

  • 为了严格评估引入稀疏注意力的影响,我们特意将DeepSeek-V3.2-Exp的训练配置与V3.1-Terminus保持一致。在多个领域的公开基准测试中,DeepSeek-V3.2-Exp展现出与V3.1-Terminus相当的性能。

基准测试DeepSeek-V3.1-TerminusDeepSeek-V3.2-Exp
无工具调用推理模式
MMLU-Pro85.085.0
GPQA-Diamond80.779.9
Humanity's Last Exam21.719.8
LiveCodeBench74.974.1
AIME 202588.489.3
HMMT 202586.183.6
Codeforces20462121
Aider-Polyglot76.174.5
智能体工具调用
BrowseComp38.540.1
BrowseComp-zh45.047.9
SimpleQA96.897.1
SWE Verified68.467.8
SWE-bench Multilingual57.857.9
Terminal-bench36.737.7

更新说明

  • 2025.11.17:我们发现先前版本的推理演示代码中,索引器模块内的 Rotary Position Embedding(RoPE)存在实现不一致问题,这可能导致模型性能下降。 具体来说,索引器模块中输入到RoPE的张量需要采用非交错布局,而MLA模块中的RoPE则期望交错布局。此问题现已修复。请参考更新后的推理演示代码,并注意此实现细节。

本地运行方法

HuggingFace

我们在inference文件夹中提供了更新后的推理演示代码,以帮助社区快速上手使用我们的模型并了解其架构细节。

首先将HuggingFace模型权重转换为我们推理演示所需的格式。设置MP以匹配您可用的GPU数量:

cd inference
export EXPERTS=256
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}

启动交互式聊天界面,开始探索DeepSeek的功能:

export CONFIG=config_671B_v3.2.json
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive

SGLang

基于 Docker 的安装

# H200
docker pull lmsysorg/sglang:dsv32

# MI350
docker pull lmsysorg/sglang:dsv32-rocm

# NPUs
docker pull lmsysorg/sglang:dsv32-a2
docker pull lmsysorg/sglang:dsv32-a3

启动命令

python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --enable-dp-attention

vLLM

vLLM 已为 DeepSeek-V3.2-Exp 提供首日支持。最新详情请参见 使用指南。

开源内核

若需具备更高可读性和研究用途设计的 TileLang 内核,请参考 TileLang。

关于高性能 CUDA 内核,索引器 logit 内核(包括分页版本)可在 DeepGEMM 中获取。稀疏注意力内核已在 FlashMLA 中发布。

许可证

本仓库及模型权重采用 MIT 许可证 授权。

引用

@misc{deepseekai2024deepseekv32,
      title={DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention}, 
      author={DeepSeek-AI},
      year={2025},
}

联系方式

若您有任何问题,请提交 issue 或通过 service@deepseek.com 与我们联系。