HuggingFace镜像/Tongyi-DeepResearch-30B-A3B
模型介绍文件和版本分析
下载使用量0

简介

我们推出了Tongyi DeepResearch,这是一款智能体大型语言模型,总参数量达300亿,每个token仅激活30亿参数。该模型由通义实验室开发,专门针对长周期、深度信息检索任务设计。Tongyi-DeepResearch在一系列智能体搜索基准测试中展现了最先进的性能,包括Humanity's Last Exam、BrowserComp、BrowserComp-ZH、WebWalkerQA、GAIA、xbench-DeepSearch和FRAMES。

更多详情可参见我们的📰技术博客。

image/png

核心特性

  • ⚙️ 全自动合成数据生成流水线:我们设计了高度可扩展的数据合成流水线,该流水线完全自动化,可支持智能体预训练、有监督微调及强化学习。
  • 🔄 基于智能体数据的大规模持续预训练:利用多样化、高质量的智能体交互数据扩展模型能力,保持模型时效性,并增强推理性能。
  • 🔁 端到端强化学习:我们采用了严格的在线策略强化学习方法,该方法基于定制的Group Relative Policy Optimization框架,结合token级策略梯度、留一法优势估计以及负样本选择性过滤,以在非平稳环境中稳定训练。
  • 🤖 智能体推理范式兼容性:在推理阶段,Tongyi-DeepResearch兼容两种推理范式:一是ReAct,用于严格评估模型的核心内在能力;二是基于IterResearch的“Heavy”模式,该模式采用测试时扩展策略,以释放模型的最大性能上限。

下载

您可以下载模型,然后运行https://github.com/Alibaba-NLP/DeepResearch中的推理脚本。

@misc{tongyidr,
  author={Tongyi DeepResearch Team},
  title={Tongyi DeepResearch: A New Era of Open-Source AI Researchers},
  year={2025},
  howpublished={\url{https://github.com/Alibaba-NLP/DeepResearch}}
}