您可以从 https://github.com/Alibaba-NLP/WebAgent 下载模型并运行推理脚本。
WebSailor 是一套完整的后训练方法体系,旨在教授大语言模型代理执行复杂网络导航与信息检索任务所需的精密推理能力。它解决了海量信息环境中极端不确定性的挑战——这一能力正是以往开源模型落后于私有系统的关键所在。
我们将信息检索任务按难度划分为三个层级,其中第三层级代表同时具备高度不确定性和复杂非线性解决路径的难题。为生成这类挑战性任务,我们推出了SailorFog-QA——一种创新的数据合成流程,通过构建精密知识图谱并施加信息模糊化处理,创造出需要创造性探索且超越简单结构化推理模式的高初始不确定性问题。
训练流程首先生成专家轨迹,随后通过重构推理过程来创建简洁且面向行动的监督信号,从而规避教师模型的风格冗余问题。代理首先通过在小规模高质量样本上进行拒绝采样微调(RFT)实现"冷启动",建立基础能力;继而采用我们提出的**双采样策略优化(DUPO)**算法进行高效代理强化学习,以此优化代理的探索策略。
WebSailor 开创了开源代理模型的全新性能标杆,在BrowseComp-en、BrowseComp-zh等高难度基准测试中表现卓越。值得注意的是,WebSailor-7B等较小模型甚至超越了基于更大规模骨干网络构建的代理,这充分证明了我们训练范式的有效性。最终,WebSailor成功弥合了与私有系统的性能差距,实现了与豆包搜索(Doubao-Search)等代理相媲美的成果。