AReaL-SEA-235B-A22B — 交互式工具使用智能体

AReaL-SEA-235B-A22B 是一款多轮交互式工具使用智能体，基于 Qwen3-235B-A22B-Thinking-2507 通过监督微调（SFT）与带可验证奖励的强化学习进行优化。

论文：从自演化合成数据到可验证奖励强化学习：训练后多轮交互式工具使用智能体
训练框架：AReaL — 大规模异步强化学习系统
基准测试：τ²-bench

亮点

在 τ²-bench 所有三个领域的平均 pass^1 达 81.3%，超越 GPT-5（80.0%）和 Qwen3-Max-Thinking（80.7%）。
完全基于自演化合成数据训练，无需人工标注。
端到端训练后优化（SFT → RL）由 AReaL 驱动，采用全异步 GRPO 算法，结合轨迹级组相对优势与动态过滤。

性能

τ²-bench 混合训练结果（基于所有三个领域的合并数据训练）：

领域	pass^1	pass^2	pass^3	pass^4	pass@4
航空	71.0	68.0	66.5	66.0	80.0
零售	79.0	67.5	63.5	57.9	95.6
电信	93.0	88.6	81.6	81.6	100.0
平均值	81.3	74.7	70.5	68.5	91.9

与前沿模型对比

模型	航空 p^1	零售 p^1	电信 p^1	平均 p^1
AReaL-SEA-235B-A22B	71.0	79.0	93.0	81.3
Gemini 3.0 Pro	73.0	85.3	98.0	85.4
Claude-Sonnet-4.5	70.0	86.2	98.0	84.7
GPT-5	62.5	81.6	95.8	80.0
Qwen3-Max-Thinking	71.0	75.4	95.8	80.7
Deepseek-v3.2	63.8	81.1	96.2	80.4

训练

方法

合成数据生成：采用分层自演化多智能体框架生成多轮工具使用对话，附带可执行的实例级验证函数，覆盖航空、零售和电信三个领域。
监督微调（SFT）：首先使用合成对话对基础模型进行微调。
强化学习（GRPO）：SFT checkpoint 通过 GRPO 进一步训练，结合轨迹级组相对优势、动态过滤和基于验证器的结果奖励。经过微调的用户模型确保稳定的交互过程。

基础设施

所有强化学习训练均使用**AReaL** 框架在80张H200 GPU（10个节点）上进行。AReaL的全异步流水线将轨迹生成与策略训练解耦，最大限度地提高了大规模多轮智能体强化学习的GPU利用率。

超参数

	SFT	RL
批大小	128	256 (16×16)
学习率	1e-5	1e-5
轮次/步数	10轮	—
最大上下文长度	32,768	32,768
每轮最大生成 tokens 数	—	8,192
温度系数	—	1.0

训练数据

本仓库包含以下合成训练数据：

文件	描述	样本数
`sft_merge.jsonl`	SFT训练数据（所有3个领域）	33,531
`rl_merge.jsonl`	含验证函数的RL训练数据	1,982
`tau2_rl_database/`	RL轨迹生成的环境数据库状态	—

数据格式

rl_merge.jsonl中的每个样本包含：

id：唯一任务标识符（例如 airline_1、telecom_1）
user_scenario：用户角色、指令、已知信息和行为指导
evaluation_criteria：基于事实的动作序列和基于断言的验证函数
db_path：对应环境数据库的路径

使用方法

该模型可作为任何与Qwen3-235B-A22B兼容的推理设置的即插即用替代品。关于τ²-bench评估：

# Follow the τ²-bench evaluation protocol
# Use GPT-4.1 as user simulator for fair comparison
# Report pass^k metrics (all k attempts must succeed)

若要与 AReaL 训练框架集成，请参考 Tau2 客户服务示例。

引用

@article{gao2025sea,
  title={From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents},
  author={Gao, Jiaxuan and Chen, Jiaao and He, Chuyi and Wang, Wei-Chen and Xu, Shusheng and Wang, Hanrui and Jin, Di and Wu, Yi},
  journal={arXiv preprint arXiv:2601.22607},
  year={2025}
}

@article{fu2025areal,
  title={AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning},
  author={Fu, Wei and Gao, Jiaxuan and Shen, Xujie and Zhu, Chen and Mei, Zhiyu and He, Chuyi and Xu, Shusheng and Wei, Guo and Mei, Jun and Wang, Jiashu and Yang, Tongkai and Yuan, Binhang and Wu, Yi},
  journal={arXiv preprint arXiv:2505.24298},
  year={2025}
}