HuggingFace镜像/DR-Venus-4B-SFT
模型介绍文件和版本分析
下载使用量0

DR-Venus-4B-SFT

DR-Venus-4B-SFT 是一个 4B 深度研究智能体,它通过在清洗后的开放数据智能体轨迹上对 Qwen/Qwen3-4B-Thinking-2507 进行微调而获得。它是 DR-Venus 的有监督初始化检查点,旨在建立稳定的长周期智能体行为,包括推理、工具使用、证据收集和最终答案合成。

DR-Venus-4B-SFT 不依赖专有轨迹,而是完全基于经过环境对齐、结构清洗、正确性过滤和回合感知重采样后的开放 REDSearcher 轨迹进行训练。

模型用途

此检查点适用于:

  • 具有长周期工具使用能力的深度研究智能体
  • 使用 search 和 visit 工具进行开放域信息检索
  • 在强化学习(RL)前初始化更强的智能体检查点
  • 在官方 DR-Venus 推理管道 中部署

它并非主要针对以下场景进行优化:

  • 不使用工具的纯聊天场景
  • 通用指令遵循基准测试
  • 无需外部检索的短上下文问答

模型详情

  • 基础模型:Qwen/Qwen3-4B-Thinking-2507
  • 模型类型:用于工具增强型深度研究的长上下文推理模型
  • 训练阶段:智能体有监督微调
  • 训练框架:verl
  • 工具设置:search + visit
  • 最大训练长度:200K
  • 目标领域:长周期网络研究和基于证据的问答

DR-Venus 如何构建 SFT 数据

DR-Venus-4B-SFT 基于从开放的 REDSearcher SFT 轨迹 构建的清洗后轨迹进行训练:

  1. 将原始轨迹转换为 DR-Venus 推理管道 使用的相同交互格式。
  2. 对工具调用进行标准化,确保训练和部署使用相同的 search / visit 协议。
  3. 移除不允许的工具和重复的工具调用回合。
  4. 通过最终答案的正确性过滤结构有效的轨迹。
  5. 通过回合感知重采样增加长周期轨迹的权重。

此管道旨在提高小型深度研究智能体的数据质量和有效数据利用率。

训练数据

本模型基于清洗后的开放数据监督进行训练,数据来源如下:

  • REDSearcher SFT 轨迹
  • 与 DR-Venus 推理管道 对齐的工具环境

在当前论文实例中,此过程产生:

  • 10,001 条原始轨迹
  • 9,365 条经正确性过滤的轨迹
  • 重采样后得到 18,745 个最终 SFT 训练实例

更多详情,请参考 DR-Venus GitHub 仓库。

训练方案

SFT 检查点的训练采用当前论文草稿中报告的以下设置:

  • 轮次(epochs):1
  • 全局批次大小(global batch size):32
  • 每 GPU 微批次大小(micro batch size per GPU):1
  • 学习率(learning rate):1e-5
  • 最大训练长度(maximum training length):200K
  • 序列并行大小(sequence parallel size):8
  • 训练框架(training framework):verl FSDP 训练器
  • 监督格式(supervision format):带有助手令牌损失掩码的多轮智能体轨迹

评估摘要

DR-Venus-4B-SFT 在多个深度研究基准测试中树立了强大的 4B 模型基准。

与 9B 以下开放模型的结果对比

模型BrowseCompBrowseComp-ZHGAIA (Text-Only)xBench-DS-2505xBench-DS-2510DeepSearchQA
DeepDive-9B-SFT5.615.7--35.0----
DeepDive-9B-RL6.315.1--38.0----
WebSailor-7B6.714.237.934.3----
OffSeeker-8B-SFT10.624.247.648.0----
OffSeeker-8B-DPO12.826.651.549.0----
WebExplorer-8B-RL15.732.050.053.723.017.8
AgentCPM-Explore-4B24.129.163.970.034.032.8
DR-Venus-4B-SFT26.835.765.469.035.337.7
DR-Venus-4B-RL29.137.764.474.740.739.6

在 9B 以下的开放模型中,DR-Venus-4B-SFT 已具备高度竞争力,在大多数跟踪基准上优于先前报道的小型智能体。它同时也是 DR-Venus-4B-RL 所使用的初始化检查点。

使用方法

此 checkpoint 旨在与官方 DR-Venus 推理管道 配合使用,该管道提供了预期的系统提示、工具协议和长周期推演循环。

git clone https://github.com/inclusionAI/DR-Venus
cd DR-Venus/Inference
pip install -r requirements.txt
# then configure the model path in run_demo.sh or run_web_demo.sh
bash run_demo.sh

如果您在官方 DR-Venus 代码库 之外使用此 checkpoint,请确保您的运行时环境与 DR-Venus 的工具模式以及 search、visit、<tool_call> 和 <tool_response> 的消息格式相匹配。

许可证与发布说明

请确认您的使用场景与以下各项的许可证兼容:

  • 上游基础模型
  • 已发布的训练数据
  • 您在下游设置中使用的外部工具和基准测试

本部分内容日后可能会更新,以包含最终的项目特定许可证声明。

引用

如果您使用此 checkpoint,请引用 DR-Venus 项目。

@article{venus2026drvenus,
  title={DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data},
  author={Venus Team and Dai, Sunhao and Deng, Yong and Lin, Jinzhen and Song, Yusheng and Wang, Guoqing and Wu, Xiaofeng and Zhou, Yuqi and Yang, Shuo and Ying, Zhenzhe and Zhang, Zhanwei and Meng, Changhua and Wang, Weiqiang},
  journal={arXiv preprint arXiv:2604.19859},
  year={2026}
}

链接

  • GitHub:https://github.com/inclusionAI/DR-Venus
  • SFT 代码:https://github.com/inclusionAI/DR-Venus/tree/master/SFT
  • 推理代码:https://github.com/inclusionAI/DR-Venus/tree/master/Inference
  • SFT 模型:https://huggingface.co/inclusionAI/DR-Venus-4B-SFT
  • RL 模型:https://huggingface.co/inclusionAI/DR-Venus-4B-RL
  • 合集:https://huggingface.co/collections/inclusionAI/dr-venus