HuggingFace镜像/DR-Venus-4B-RL-GGUF
模型介绍文件和版本分析
下载使用量0

DR-Venus-4B-RL-GGUF

DR-Venus-4B-RL-GGUF 是基于 inclusionAI/DR-Venus-4B-SFT 构建的强化学习版 DR-Venus 模型 checkpoint。这是一个 4B 参数的深度研究智能体,专为长周期网络研究设计,具备显式工具使用、证据收集和答案生成能力。

该模型完全基于开放数据训练。从 SFT checkpoint 出发,DR-Venus-4B-RL 应用了长周期智能体强化学习,结合 IGPO 风格的信息增益奖励和格式感知的轮次级监督,以提升在长工具使用轨迹下的执行可靠性。

模型用途

本 checkpoint 主要用于:

  • 借助工具增强推理的长周期深度研究
  • 超越监督模仿学习,提升执行可靠性
  • 通过 search 和 visit 工具实现基于证据的回答
  • 在官方 DR-Venus 推理管道 中部署

它并非主要针对以下场景优化:

  • 无工具的纯聊天场景
  • 通用的短上下文指令遵循
  • 不需要多步骤检索和浏览的使用案例

模型详情

  • 基础模型:Qwen/Qwen3-4B-Thinking-2507
  • 初始 checkpoint:inclusionAI/DR-Venus-4B-SFT
  • 训练阶段:智能体强化学习
  • 训练框架:verl + IGPO 算法
  • 工具设置:search + visit
  • 最大推演周期:200 个交互步骤
  • 最大推演上下文长度:256K
  • 目标领域:长周期开放域研究和基于证据的问答

DR-Venus 如何构建强化学习监督

DR-Venus-4B-RL 采用专为深度研究定制的密集轮次级监督进行训练:

  1. 模型从 DR-Venus 监督 checkpoint 开始。
  2. 对于每个查询,智能体通过多轮 search 和 visit 轨迹与环境交互。
  3. IGPO 使用信息增益奖励来衡量中间轮次是否提高了模型生成真实答案的概率。
  4. 信息增益奖励与结果奖励以及轮次级格式感知惩罚相结合。
  5. 策略使用 IGPO 目标进行优化,具备细粒度的信用分配,专门针对深度研究推演的长周期特性。

与单纯的稀疏轨迹级强化学习相比,这种设计提高了监督密度、信用分配效率和数据利用率。

训练数据

本模型基于以下开放数据监督进行训练:

  • 以 DR-Venus SFT 检查点作为初始化
  • REDSearcher 1K RL 查询-回答对
  • 使用 DR-Venus search + visit 工具环境进行的在线轨迹生成

在当前论文设置中:

  • RL 完全基于开放查询-回答对执行
  • 轨迹组通过长周期智能体交互进行采样
  • 每个查询的生成最多包含 200 个交互步骤

更多实现细节,请参考 DR-Venus GitHub 仓库。

训练方案

RL 检查点的训练采用当前论文草稿中报告的以下设置:

  • 算法:IGPO 风格智能体 RL
  • 轨迹组大小:8
  • 训练批次大小:16
  • 学习率:1e-6
  • 轨迹温度:1.0
  • 轨迹 top-p:0.95
  • 最大上下文长度:256K
  • 每轮最大生成长度:8,192
  • 折扣因子:0.95
  • 格式惩罚系数:1.0
  • 训练框架:verl,搭配 vLLM 轨迹生成引擎和 FSDP 训练器

当前论文配置还启用了浏览感知的 IG 分配和 IG 尺度风格的奖励平衡。

评估摘要

DR-Venus-4B-RL 在大多数跟踪的深度研究基准上优于 SFT 检查点,并为小模型树立了更强的前沿。

与 9B 以下开放模型的对比结果

模型BrowseCompBrowseComp-ZHGAIA (Text-Only)xBench-DS-2505xBench-DS-2510DeepSearchQA
DeepDive-9B-SFT5.615.7--35.0----
DeepDive-9B-RL6.315.1--38.0----
WebSailor-7B6.714.237.934.3----
OffSeeker-8B-SFT10.624.247.648.0----
OffSeeker-8B-DPO12.826.651.549.0----
WebExplorer-8B-RL15.732.050.053.723.017.8
AgentCPM-Explore-4B24.129.163.970.034.032.8
DR-Venus-4B-SFT26.835.765.469.035.337.7
DR-Venus-4B-RL29.137.764.474.740.739.6

与 SFT 检查点相比,DR-Venus-4B-RL 的提升如下:

  • BrowseComp:+2.3
  • BrowseComp-ZH:+2.0
  • xBench-DS-2505:+5.7
  • xBench-DS-2510:+5.4
  • DeepSearchQA:+1.9

这些提升与更高的格式准确性、更可靠的工具使用以及更强的长周期执行稳定性相关。

使用方法

此 checkpoint 应与官方 DR-Venus 推理管道 配合使用。

git clone https://github.com/inclusionAI/DR-Venus
cd DR-Venus/Inference
pip install -r requirements.txt
# then configure the model path in run_demo.sh or run_web_demo.sh
bash run_demo.sh

如需复现强化学习训练或了解rollout设置,请参见官方仓库中的RL目录。

许可证与发布说明

请确认以下内容的许可证兼容性:

  • 上游基础模型
  • 已发布的监督数据
  • 训练或评估中使用的外部工具和评判模型

本部分后续会更新为最终的项目特定许可证声明。

引用

如果您使用此 checkpoint,请引用DR-Venus project。

@article{venus2026drvenus,
  title={DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data},
  author={Venus Team and Dai, Sunhao and Deng, Yong and Lin, Jinzhen and Song, Yusheng and Wang, Guoqing and Wu, Xiaofeng and Zhou, Yuqi and Yang, Shuo and Ying, Zhenzhe and Zhang, Zhanwei and Meng, Changhua and Wang, Weiqiang},
  journal={arXiv preprint arXiv:2604.19859},
  year={2026}
}

链接

  • GitHub:https://github.com/inclusionAI/DR-Venus
  • 强化学习代码:https://github.com/inclusionAI/DR-Venus/tree/master/RL
  • 推理代码:https://github.com/inclusionAI/DR-Venus/tree/master/Inference
  • 监督微调模型:https://huggingface.co/inclusionAI/DR-Venus-4B-SFT
  • 强化学习模型:https://huggingface.co/inclusionAI/DR-Venus-4B-RL
  • 资源集合:https://huggingface.co/collections/inclusionAI/dr-venus