AReaL-SEA-235B-A22B 是一款多轮交互式工具使用智能体,基于 Qwen3-235B-A22B-Thinking-2507 通过监督微调(SFT)与带可验证奖励的强化学习进行优化。
τ²-bench 混合训练结果(基于所有三个领域的合并数据训练):
| 领域 | pass^1 | pass^2 | pass^3 | pass^4 | pass@4 |
|---|---|---|---|---|---|
| 航空 | 71.0 | 68.0 | 66.5 | 66.0 | 80.0 |
| 零售 | 79.0 | 67.5 | 63.5 | 57.9 | 95.6 |
| 电信 | 93.0 | 88.6 | 81.6 | 81.6 | 100.0 |
| 平均值 | 81.3 | 74.7 | 70.5 | 68.5 | 91.9 |
| 模型 | 航空 p^1 | 零售 p^1 | 电信 p^1 | 平均 p^1 |
|---|---|---|---|---|
| AReaL-SEA-235B-A22B | 71.0 | 79.0 | 93.0 | 81.3 |
| Gemini 3.0 Pro | 73.0 | 85.3 | 98.0 | 85.4 |
| Claude-Sonnet-4.5 | 70.0 | 86.2 | 98.0 | 84.7 |
| GPT-5 | 62.5 | 81.6 | 95.8 | 80.0 |
| Qwen3-Max-Thinking | 71.0 | 75.4 | 95.8 | 80.7 |
| Deepseek-v3.2 | 63.8 | 81.1 | 96.2 | 80.4 |
所有强化学习训练均使用**AReaL** 框架在80张H200 GPU(10个节点)上进行。AReaL的全异步流水线将轨迹生成与策略训练解耦,最大限度地提高了大规模多轮智能体强化学习的GPU利用率。
| SFT | RL | |
|---|---|---|
| 批大小 | 128 | 256 (16×16) |
| 学习率 | 1e-5 | 1e-5 |
| 轮次/步数 | 10轮 | — |
| 最大上下文长度 | 32,768 | 32,768 |
| 每轮最大生成 tokens 数 | — | 8,192 |
| 温度系数 | — | 1.0 |
本仓库包含以下合成训练数据:
| 文件 | 描述 | 样本数 |
|---|---|---|
sft_merge.jsonl | SFT训练数据(所有3个领域) | 33,531 |
rl_merge.jsonl | 含验证函数的RL训练数据 | 1,982 |
tau2_rl_database/ | RL轨迹生成的环境数据库状态 | — |
rl_merge.jsonl中的每个样本包含:
id:唯一任务标识符(例如 airline_1、telecom_1)user_scenario:用户角色、指令、已知信息和行为指导evaluation_criteria:基于事实的动作序列和基于断言的验证函数db_path:对应环境数据库的路径该模型可作为任何与Qwen3-235B-A22B兼容的推理设置的即插即用替代品。关于τ²-bench评估:
# Follow the τ²-bench evaluation protocol
# Use GPT-4.1 as user simulator for fair comparison
# Report pass^k metrics (all k attempts must succeed)若要与 AReaL 训练框架集成,请参考 Tau2 客户服务示例。
@article{gao2025sea,
title={From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents},
author={Gao, Jiaxuan and Chen, Jiaao and He, Chuyi and Wang, Wei-Chen and Xu, Shusheng and Wang, Hanrui and Jin, Di and Wu, Yi},
journal={arXiv preprint arXiv:2601.22607},
year={2025}
}
@article{fu2025areal,
title={AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning},
author={Fu, Wei and Gao, Jiaxuan and Shen, Xujie and Zhu, Chen and Mei, Zhiyu and He, Chuyi and Xu, Shusheng and Wei, Guo and Mei, Jun and Wang, Jiashu and Yang, Tongkai and Yuan, Binhang and Wu, Yi},
journal={arXiv preprint arXiv:2505.24298},
year={2025}
}