DR-Venus-4B-SFT 是一个 4B 深度研究智能体,它通过在清洗后的开放数据智能体轨迹上对 Qwen/Qwen3-4B-Thinking-2507 进行微调而获得。它是 DR-Venus 的有监督初始化检查点,旨在建立稳定的长周期智能体行为,包括推理、工具使用、证据收集和最终答案合成。
DR-Venus-4B-SFT 不依赖专有轨迹,而是完全基于经过环境对齐、结构清洗、正确性过滤和回合感知重采样后的开放 REDSearcher 轨迹进行训练。
此检查点适用于:
search 和 visit 工具进行开放域信息检索它并非主要针对以下场景进行优化:
verlsearch + visit200KDR-Venus-4B-SFT 基于从开放的 REDSearcher SFT 轨迹 构建的清洗后轨迹进行训练:
search / visit 协议。此管道旨在提高小型深度研究智能体的数据质量和有效数据利用率。
本模型基于清洗后的开放数据监督进行训练,数据来源如下:
在当前论文实例中,此过程产生:
10,001 条原始轨迹9,365 条经正确性过滤的轨迹18,745 个最终 SFT 训练实例更多详情,请参考 DR-Venus GitHub 仓库。
SFT 检查点的训练采用当前论文草稿中报告的以下设置:
13211e-5200K8verl FSDP 训练器DR-Venus-4B-SFT 在多个深度研究基准测试中树立了强大的 4B 模型基准。
| 模型 | BrowseComp | BrowseComp-ZH | GAIA (Text-Only) | xBench-DS-2505 | xBench-DS-2510 | DeepSearchQA |
|---|---|---|---|---|---|---|
| DeepDive-9B-SFT | 5.6 | 15.7 | -- | 35.0 | -- | -- |
| DeepDive-9B-RL | 6.3 | 15.1 | -- | 38.0 | -- | -- |
| WebSailor-7B | 6.7 | 14.2 | 37.9 | 34.3 | -- | -- |
| OffSeeker-8B-SFT | 10.6 | 24.2 | 47.6 | 48.0 | -- | -- |
| OffSeeker-8B-DPO | 12.8 | 26.6 | 51.5 | 49.0 | -- | -- |
| WebExplorer-8B-RL | 15.7 | 32.0 | 50.0 | 53.7 | 23.0 | 17.8 |
| AgentCPM-Explore-4B | 24.1 | 29.1 | 63.9 | 70.0 | 34.0 | 32.8 |
| DR-Venus-4B-SFT | 26.8 | 35.7 | 65.4 | 69.0 | 35.3 | 37.7 |
| DR-Venus-4B-RL | 29.1 | 37.7 | 64.4 | 74.7 | 40.7 | 39.6 |
在 9B 以下的开放模型中,DR-Venus-4B-SFT 已具备高度竞争力,在大多数跟踪基准上优于先前报道的小型智能体。它同时也是 DR-Venus-4B-RL 所使用的初始化检查点。
此 checkpoint 旨在与官方 DR-Venus 推理管道 配合使用,该管道提供了预期的系统提示、工具协议和长周期推演循环。
git clone https://github.com/inclusionAI/DR-Venus
cd DR-Venus/Inference
pip install -r requirements.txt
# then configure the model path in run_demo.sh or run_web_demo.sh
bash run_demo.sh如果您在官方 DR-Venus 代码库 之外使用此 checkpoint,请确保您的运行时环境与 DR-Venus 的工具模式以及 search、visit、<tool_call> 和 <tool_response> 的消息格式相匹配。
请确认您的使用场景与以下各项的许可证兼容:
本部分内容日后可能会更新,以包含最终的项目特定许可证声明。
如果您使用此 checkpoint,请引用 DR-Venus 项目。
@article{venus2026drvenus,
title={DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data},
author={Venus Team and Dai, Sunhao and Deng, Yong and Lin, Jinzhen and Song, Yusheng and Wang, Guoqing and Wu, Xiaofeng and Zhou, Yuqi and Yang, Shuo and Ying, Zhenzhe and Zhang, Zhanwei and Meng, Changhua and Wang, Weiqiang},
journal={arXiv preprint arXiv:2604.19859},
year={2026}
}