DR-Venus-4B-RL-GGUF 是基于 inclusionAI/DR-Venus-4B-SFT 构建的强化学习版 DR-Venus 模型 checkpoint。这是一个 4B 参数的深度研究智能体,专为长周期网络研究设计,具备显式工具使用、证据收集和答案生成能力。
该模型完全基于开放数据训练。从 SFT checkpoint 出发,DR-Venus-4B-RL 应用了长周期智能体强化学习,结合 IGPO 风格的信息增益奖励和格式感知的轮次级监督,以提升在长工具使用轨迹下的执行可靠性。
本 checkpoint 主要用于:
search 和 visit 工具实现基于证据的回答它并非主要针对以下场景优化:
verl + IGPO 算法search + visit200 个交互步骤256KDR-Venus-4B-RL 采用专为深度研究定制的密集轮次级监督进行训练:
search 和 visit 轨迹与环境交互。与单纯的稀疏轨迹级强化学习相比,这种设计提高了监督密度、信用分配效率和数据利用率。
本模型基于以下开放数据监督进行训练:
search + visit 工具环境进行的在线轨迹生成在当前论文设置中:
200 个交互步骤更多实现细节,请参考 DR-Venus GitHub 仓库。
RL 检查点的训练采用当前论文草稿中报告的以下设置:
8161e-61.00.95256K8,1920.951.0verl,搭配 vLLM 轨迹生成引擎和 FSDP 训练器当前论文配置还启用了浏览感知的 IG 分配和 IG 尺度风格的奖励平衡。
DR-Venus-4B-RL 在大多数跟踪的深度研究基准上优于 SFT 检查点,并为小模型树立了更强的前沿。
| 模型 | BrowseComp | BrowseComp-ZH | GAIA (Text-Only) | xBench-DS-2505 | xBench-DS-2510 | DeepSearchQA |
|---|---|---|---|---|---|---|
| DeepDive-9B-SFT | 5.6 | 15.7 | -- | 35.0 | -- | -- |
| DeepDive-9B-RL | 6.3 | 15.1 | -- | 38.0 | -- | -- |
| WebSailor-7B | 6.7 | 14.2 | 37.9 | 34.3 | -- | -- |
| OffSeeker-8B-SFT | 10.6 | 24.2 | 47.6 | 48.0 | -- | -- |
| OffSeeker-8B-DPO | 12.8 | 26.6 | 51.5 | 49.0 | -- | -- |
| WebExplorer-8B-RL | 15.7 | 32.0 | 50.0 | 53.7 | 23.0 | 17.8 |
| AgentCPM-Explore-4B | 24.1 | 29.1 | 63.9 | 70.0 | 34.0 | 32.8 |
| DR-Venus-4B-SFT | 26.8 | 35.7 | 65.4 | 69.0 | 35.3 | 37.7 |
| DR-Venus-4B-RL | 29.1 | 37.7 | 64.4 | 74.7 | 40.7 | 39.6 |
与 SFT 检查点相比,DR-Venus-4B-RL 的提升如下:
+2.3+2.0+5.7+5.4+1.9这些提升与更高的格式准确性、更可靠的工具使用以及更强的长周期执行稳定性相关。
此 checkpoint 应与官方 DR-Venus 推理管道 配合使用。
git clone https://github.com/inclusionAI/DR-Venus
cd DR-Venus/Inference
pip install -r requirements.txt
# then configure the model path in run_demo.sh or run_web_demo.sh
bash run_demo.sh如需复现强化学习训练或了解rollout设置,请参见官方仓库中的RL目录。
请确认以下内容的许可证兼容性:
本部分后续会更新为最终的项目特定许可证声明。
如果您使用此 checkpoint,请引用DR-Venus project。
@article{venus2026drvenus,
title={DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data},
author={Venus Team and Dai, Sunhao and Deng, Yong and Lin, Jinzhen and Song, Yusheng and Wang, Guoqing and Wu, Xiaofeng and Zhou, Yuqi and Yang, Shuo and Ying, Zhenzhe and Zhang, Zhanwei and Meng, Changhua and Wang, Weiqiang},
journal={arXiv preprint arXiv:2604.19859},
year={2026}
}