简介

我们推出了Tongyi DeepResearch，这是一款智能体大型语言模型，总参数量达300亿，每个token仅激活30亿参数。该模型由通义实验室开发，专门针对长周期、深度信息检索任务设计。Tongyi-DeepResearch在一系列智能体搜索基准测试中展现了最先进的性能，包括Humanity's Last Exam、BrowserComp、BrowserComp-ZH、WebWalkerQA、GAIA、xbench-DeepSearch和FRAMES。

更多详情可参见我们的📰技术博客。

image/png

核心特性

⚙️ 全自动合成数据生成流水线：我们设计了高度可扩展的数据合成流水线，该流水线完全自动化，可支持智能体预训练、有监督微调及强化学习。
🔄 基于智能体数据的大规模持续预训练：利用多样化、高质量的智能体交互数据扩展模型能力，保持模型时效性，并增强推理性能。
🔁 端到端强化学习：我们采用了严格的在线策略强化学习方法，该方法基于定制的Group Relative Policy Optimization框架，结合token级策略梯度、留一法优势估计以及负样本选择性过滤，以在非平稳环境中稳定训练。
🤖 智能体推理范式兼容性：在推理阶段，Tongyi-DeepResearch兼容两种推理范式：一是ReAct，用于严格评估模型的核心内在能力；二是基于IterResearch的“Heavy”模式，该模式采用测试时扩展策略，以释放模型的最大性能上限。

下载

您可以下载模型，然后运行https://github.com/Alibaba-NLP/DeepResearch中的推理脚本。

@misc{tongyidr,
  author={Tongyi DeepResearch Team},
  title={Tongyi DeepResearch: A New Era of Open-Source AI Researchers},
  year={2025},
  howpublished={\url{https://github.com/Alibaba-NLP/DeepResearch}}
}

简介

更多详情可参见我们的📰技术博客。

image/png

核心特性

⚙️ 全自动合成数据生成流水线：我们设计了高度可扩展的数据合成流水线，该流水线完全自动化，可支持智能体预训练、有监督微调及强化学习。
🔄 基于智能体数据的大规模持续预训练：利用多样化、高质量的智能体交互数据扩展模型能力，保持模型时效性，并增强推理性能。
🔁 端到端强化学习：我们采用了严格的在线策略强化学习方法，该方法基于定制的Group Relative Policy Optimization框架，结合token级策略梯度、留一法优势估计以及负样本选择性过滤，以在非平稳环境中稳定训练。
🤖 智能体推理范式兼容性：在推理阶段，Tongyi-DeepResearch兼容两种推理范式：一是ReAct，用于严格评估模型的核心内在能力；二是基于IterResearch的“Heavy”模式，该模式采用测试时扩展策略，以释放模型的最大性能上限。

下载

您可以下载模型，然后运行https://github.com/Alibaba-NLP/DeepResearch中的推理脚本。

@misc{tongyidr,
  author={Tongyi DeepResearch Team},
  title={Tongyi DeepResearch: A New Era of Open-Source AI Researchers},
  year={2025},
  howpublished={\url{https://github.com/Alibaba-NLP/DeepResearch}}
}