i
inclusionAI/AReaL-boba-RL-7B
模型介绍文件和版本分析
下载使用量0

简介

我们很高兴发布 AReaL v0.2(boba)版本,该版本实现了三大里程碑:

  • SGLang 支持:通过新增 SGLang 支持及一系列工程优化,AReaL v0.2 在 7B 模型上的速度较 AReaL v0.1 提升了 1.5 倍。
  • SOTA 7B 模型:AReaL 的强化学习(RL)训练更加稳定且样本效率更高。我们获得了数学推理领域的 SOTA 7B 模型,该模型在 aime24 上的 pass@1 分数为 61.9,在 aime25 上为 48.3。
  • 高性能 32B 模型:我们以极低的成本训练出一个极具竞争力的 32B 模型,仅使用 200 个数据样本就取得了与 QwQ-32B 相当的结果。
模型(7B)AIME 2024AIME 2025GPQA-Diamond
R1-Distill-Qwen-7B55.039.747.1
Light-R1-7B-DS56.744.940.9
AReaL-boba-RL-7B 🤗61.948.347.6
模型(32B)AIME 2024AIME 2025GPQA-Diamond
R1-Distill-Qwen-32B72.654.963.2
QwQ-32B78.970.264.6
Light-R1-32B-DS76.267.863.5
AReaL-boba-SFT-32B 🤗78.862.160.1

训练速度对比

throughput_comparision_with_v0.1.0.png

AReaL v0.2.0 包含以下系统优化:

  • 升级生成后端:vLLM 0.6.3 → SGLang v0.4.0

生成后端已从 vLLM 0.6.3 升级到 SGLang v0.4.0,利用其基数注意力(radix attention)机制,在从同一提示采样多个响应的场景中显著提高了吞吐量。此外,SGLang 会在权重更新时自动刷新基数缓存,确保在策略强化学习(RL)中的正确性。我们将持续关注社区进展,以整合更多优化。

  • 针对变长序列和大批量的优化训练

为了高效处理变长序列,我们消除了填充(padding),转而将序列打包成一维张量。一种动态分配算法(近似地)在最大令牌预算下优化分配序列,平衡微批量大小的同时最小化微批量数量。这种方法最大化了 GPU 内存利用率,能够高效计算大批量的变长输入。

  • 支持 1K-GPU 扩展的高性能数据传输

AReaL 采用 NCCL 并结合基于 InfiniBand/RoCE 的 GPU-Direct RDMA(GDRDMA),实现了直接的 GPU 到 GPU 通信,绕过了成本高昂的 CPU 中介传输和 PCIe 瓶颈。与传统的基于以太网的方法相比,这减少了延迟并提高了吞吐量,即使在 1000-GPU 集群中,生成到训练的数据传输开销也能保持在 3 秒以内。

训练方案

基于强化学习的数学推理SOTA 7B模型

基础模型

我们使用R1-Distill-Qwen-7B作为基础模型。

数据集构建

我们的训练数据集(AReaL-boba-106k)整合了多个开源项目的资源:

  • DeepScaleR
  • Open-Reasoner-Zero
  • Light-R1
  • DAPO

我们还通过以下来源增强了具有挑战性的题目:

  • NuminaMath(AoPS/奥林匹克子集)
  • ZebraLogic

为了保持适当的难度水平,我们过滤掉了过于简单的题目。具体来说,我们使用DeepSeek-R1-Distill-Qwen-7B为每个题目生成8个解答,并过滤掉所有解答均正确的题目。

奖励函数

我们采用稀疏的序列级奖励机制。模型被指示将最终答案用\boxed{}括起来,然后验证框中的答案。正确的回答获得+5的奖励,而错误的回答则被惩罚-5。

值得注意的是,我们观察到KL奖励会损害性能,特别是在长思维链训练中,因此我们将其设置为零。

强化学习算法

我们采用近端策略优化(PPO)作为训练算法。为节省计算资源,我们移除了评论家模型。我们将折扣因子γ和GAE参数λ都设置为1。Open-Reasoner-Zero项目也采用了此类做法。

token级损失归一化

在序列级别平均损失可能会降低较长文本的整体贡献权重。为解决此问题,我们在token级别对损失进行归一化,DAPO项目中也强调了这种做法。

采样策略

在采样阶段,我们每批次采样512个问题,大型语言模型为每个问题生成16个回答,因此总批次大小为8192。为最大限度减少输出截断,我们将最大生成长度设置为27K tokens。在我们的实验中,截断率保持在5%以下。

优势归一化

在训练阶段,我们使用GAE计算优势,并在所有生成的tokens上对其进行归一化。

关键超参数

参数值
PPO 小批量数4
学习率2e-5
Adam ε1e-5
批次大小8,192

此配置平衡了收敛速度与训练稳定性,避免了较高学习率或较小ε值可能导致的模型崩溃风险。

仅用200个数据样本接近QwQ-32B的性能

模型AIME 2024
R1-Distill-Qwen-32B72.6
QwQ-32B78.9
AReaL-boba-SFT-32B 🤗78.8

在32B模型尺寸下,我们进一步优化了训练数据,并发布了AReaL-boba-SFT-200,这是一个仅包含200个数据点的高质量数据集。配合相关训练脚本,我们通过监督微调(SFT)复现了QwQ-32B在AIME2024上的推理性能。

评估最佳实践

评估过程中,我们使用vLLM v0.6.3作为生成框架。我们发现有几个设置会影响评估性能,尤其是在长上下文生成方面。建议手动配置以下选项:

enforce_eager=True
enable_chunked_prefill=False
disable_custom_all_reduce=True
disable_sliding_window=True

遵循DeepSeek模型的做法,我们在提示词中加入了指令:“请逐步推理,并将最终答案放在\boxed{}中。”为鼓励长上下文推理,我们还强制模型在输出开头以“\n”开始每个响应。

为确保可靠的pass@1评估,我们:

  • 每个问题采样32个答案
  • SFT模型使用temperature=0.6和top_p=0.95
  • RL模型保持训练时的温度(1.0)

结论与未来工作

我们的结果表明,高质量数据与算法创新同等重要。
在强大的基础模型上进行RL训练时,我们需要更具挑战性的问题来促进学习。因此,我们整合了多个近期开源项目的资源,并按难度对问题进行筛选。一种简单的数据筛选策略是移除基础模型在多次采样尝试中均能正确解决的问题,因为这些问题对提升模型性能不再有帮助。

AReaL实现了稳定快速的训练,并获得了前沿的模型性能。自初始版本发布以来,我们持续改进了系统效率、训练稳定性和易用性。

上述所有技术均已在AReaL中实现,并为不同模型大小和硬件配置提供了可复现的配置。

展望未来,AReaL团队将:

  • 进一步优化系统性能
  • 引入新功能
  • 继续开源训练数据
  • 扩展到更广泛的推理任务

我们相信这些贡献降低了高质量RL训练的门槛,同时推动了推理能力的边界。该项目将持续发展——我们欢迎社区反馈与合作,以在这一令人兴奋的领域推动进一步的进步。