d
deepseek-ai/DeepSeek-V3.1-Terminus
模型介绍模型推理文件和版本分析
下载使用量0

DeepSeek-V3.1-Terminus

DeepSeek-V3

官网 聊天 Hugging Face
Discord 微信 Twitter 关注
许可证

简介

本次更新在保持模型原有能力的基础上,重点修复了用户反馈的若干问题,具体包括:

  • 语言一致性:减少中英文混用现象及偶发的异常字符问题;
  • 智能体能力:进一步优化代码智能体(Code Agent)与搜索智能体(Search Agent)的性能表现。
评测基准DeepSeek-V3.1DeepSeek-V3.1-Terminus
无工具推理模式
MMLU-Pro84.885.0
GPQA-Diamond80.180.7
Humanity's Last Exam15.921.7
LiveCodeBench74.874.9
Codeforces20912046
Aider-Polyglot76.376.1
智能体工具使用
BrowseComp30.038.5
BrowseComp-zh49.245.0
SimpleQA93.496.8
SWE Verified66.068.4
SWE-bench Multilingual54.557.8
Terminal-bench31.336.7

搜索智能体的模板与工具集已完成更新,具体内容详见 assets/search_tool_trajectory.html。

本地运行方法

DeepSeek-V3.1-Terminus 的模型结构与 DeepSeek-V3 保持一致。关于本地运行该模型的更多信息,请访问 DeepSeek-V3 代码仓库。

若需获取除搜索智能体外的模型对话模板,请参考 DeepSeek-V3.1 代码仓库。

我们在 inference 文件夹中提供了更新后的推理演示代码,以帮助社区快速上手模型运行并深入理解模型架构细节。

注意:在当前模型 checkpoint 中,self_attn.o_proj 的参数不符合 UE8M0 FP8 尺度数据格式。此为已知问题,将在未来的模型版本中修复。

许可证

本仓库及模型权重遵循 MIT 许可证。

引用

@misc{deepseekai2024deepseekv3technicalreport,
      title={DeepSeek-V3 Technical Report}, 
      author={DeepSeek-AI},
      year={2024},
      eprint={2412.19437},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.19437}, 
}

联系方式

如有任何疑问,请提交 issue 或通过 service@deepseek.com 与我们联系。