我们很高兴发布 AReaL v0.2(boba)版本,该版本实现了三大里程碑:
| 模型(7B) | AIME 2024 | AIME 2025 | GPQA-Diamond |
|---|---|---|---|
| R1-Distill-Qwen-7B | 55.0 | 39.7 | 47.1 |
| Light-R1-7B-DS | 56.7 | 44.9 | 40.9 |
| AReaL-boba-RL-7B 🤗 | 61.9 | 48.3 | 47.6 |
| 模型(32B) | AIME 2024 | AIME 2025 | GPQA-Diamond |
| R1-Distill-Qwen-32B | 72.6 | 54.9 | 63.2 |
| QwQ-32B | 78.9 | 70.2 | 64.6 |
| Light-R1-32B-DS | 76.2 | 67.8 | 63.5 |
| AReaL-boba-SFT-32B 🤗 | 78.8 | 62.1 | 60.1 |

AReaL v0.2.0 包含以下系统优化:
生成后端已从 vLLM 0.6.3 升级到 SGLang v0.4.0,利用其基数注意力(radix attention)机制,在从同一提示采样多个响应的场景中显著提高了吞吐量。此外,SGLang 会在权重更新时自动刷新基数缓存,确保在策略强化学习(RL)中的正确性。我们将持续关注社区进展,以整合更多优化。
为了高效处理变长序列,我们消除了填充(padding),转而将序列打包成一维张量。一种动态分配算法(近似地)在最大令牌预算下优化分配序列,平衡微批量大小的同时最小化微批量数量。这种方法最大化了 GPU 内存利用率,能够高效计算大批量的变长输入。
AReaL 采用 NCCL 并结合基于 InfiniBand/RoCE 的 GPU-Direct RDMA(GDRDMA),实现了直接的 GPU 到 GPU 通信,绕过了成本高昂的 CPU 中介传输和 PCIe 瓶颈。与传统的基于以太网的方法相比,这减少了延迟并提高了吞吐量,即使在 1000-GPU 集群中,生成到训练的数据传输开销也能保持在 3 秒以内。
我们使用R1-Distill-Qwen-7B作为基础模型。
我们的训练数据集(AReaL-boba-106k)整合了多个开源项目的资源:
我们还通过以下来源增强了具有挑战性的题目:
为了保持适当的难度水平,我们过滤掉了过于简单的题目。具体来说,我们使用DeepSeek-R1-Distill-Qwen-7B为每个题目生成8个解答,并过滤掉所有解答均正确的题目。
我们采用稀疏的序列级奖励机制。模型被指示将最终答案用\boxed{}括起来,然后验证框中的答案。正确的回答获得+5的奖励,而错误的回答则被惩罚-5。
值得注意的是,我们观察到KL奖励会损害性能,特别是在长思维链训练中,因此我们将其设置为零。
我们采用近端策略优化(PPO)作为训练算法。为节省计算资源,我们移除了评论家模型。我们将折扣因子γ和GAE参数λ都设置为1。Open-Reasoner-Zero项目也采用了此类做法。
在序列级别平均损失可能会降低较长文本的整体贡献权重。为解决此问题,我们在token级别对损失进行归一化,DAPO项目中也强调了这种做法。
在采样阶段,我们每批次采样512个问题,大型语言模型为每个问题生成16个回答,因此总批次大小为8192。为最大限度减少输出截断,我们将最大生成长度设置为27K tokens。在我们的实验中,截断率保持在5%以下。
在训练阶段,我们使用GAE计算优势,并在所有生成的tokens上对其进行归一化。
| 参数 | 值 |
|---|---|
| PPO 小批量数 | 4 |
| 学习率 | 2e-5 |
| Adam ε | 1e-5 |
| 批次大小 | 8,192 |
此配置平衡了收敛速度与训练稳定性,避免了较高学习率或较小ε值可能导致的模型崩溃风险。
| 模型 | AIME 2024 |
|---|---|
| R1-Distill-Qwen-32B | 72.6 |
| QwQ-32B | 78.9 |
| AReaL-boba-SFT-32B 🤗 | 78.8 |
在32B模型尺寸下,我们进一步优化了训练数据,并发布了AReaL-boba-SFT-200,这是一个仅包含200个数据点的高质量数据集。配合相关训练脚本,我们通过监督微调(SFT)复现了QwQ-32B在AIME2024上的推理性能。
评估过程中,我们使用vLLM v0.6.3作为生成框架。我们发现有几个设置会影响评估性能,尤其是在长上下文生成方面。建议手动配置以下选项:
enforce_eager=True
enable_chunked_prefill=False
disable_custom_all_reduce=True
disable_sliding_window=True遵循DeepSeek模型的做法,我们在提示词中加入了指令:“请逐步推理,并将最终答案放在\boxed{}中。”为鼓励长上下文推理,我们还强制模型在输出开头以“\n”开始每个响应。
为确保可靠的pass@1评估,我们:
我们的结果表明,高质量数据与算法创新同等重要。
在强大的基础模型上进行RL训练时,我们需要更具挑战性的问题来促进学习。因此,我们整合了多个近期开源项目的资源,并按难度对问题进行筛选。一种简单的数据筛选策略是移除基础模型在多次采样尝试中均能正确解决的问题,因为这些问题对提升模型性能不再有帮助。
AReaL实现了稳定快速的训练,并获得了前沿的模型性能。自初始版本发布以来,我们持续改进了系统效率、训练稳定性和易用性。
上述所有技术均已在AReaL中实现,并为不同模型大小和硬件配置提供了可复现的配置。
展望未来,AReaL团队将:
我们相信这些贡献降低了高质量RL训练的门槛,同时推动了推理能力的边界。该项目将持续发展——我们欢迎社区反馈与合作,以在这一令人兴奋的领域推动进一步的进步。