HuggingFace镜像/OpenMathReasoning
数据集数据集查看器文件和版本
下载使用量0

OpenMathReasoning

OpenMathReasoning 是一个用于训练大型语言模型(LLMs)的大规模数学推理数据集。
该数据集包含:

  • 306K 道源自 AoPS 论坛的独特数学问题,配套有:
    • 320 万条长链思维(CoT)解答
    • 170 万条工具集成推理(TIR)解答
    • 56.6K 条从多个候选答案中筛选最优解的样本(GenSelect)
  • 额外 193K 道源自 AoPS 论坛的问题(仅有题目,无解答)

我们使用 Qwen2.5-32B-Instruct 对问题进行预处理,并通过 DeepSeek-R1 和 QwQ-32B 生成解答。

该数据集是我们在 AIMO-2 Kaggle 竞赛中夺冠提交方案的基础。

详见我们的 论文 以了解更多细节!

注意: 我们最初报告数据集包含 540K 道独特问题,但该数字仅代表数据处理流程初期的题目数量。已发布数据集中实际的 CoT 和 TIR 解答对应 306K 道问题。由于我们的 OpenMath-Nemotron 模型是在这一缩减后的子集上训练的,所有已发表结果均使用当前发布版本可复现——仅初始问题数量存在统计偏差。

问题数量差异由两方面原因导致:

  • 过滤流程中,大量问题因格式限制(是非题、选择题等)、基准数据集去污染需求,以及现有 LLMs 无法为特定问题生成有效解答而被移除。
  • 处理 pipeline 存在的 bug 导致 137K 道证明类问题丢失。当我们恢复并将这些额外数据纳入训练后,SFT 性能出现退化。目前我们正在测试整合这些恢复问题的不同方法,仅在确认能显著提升性能时才会发布其解答。

注意: 本数据的早期版本已单独发布于 Llama-Nemotron-Post-Training-Dataset。

数据集字段

OpenMathReasoning 数据集包含以下字段:

  • problem:从 AoPS 论坛 提取并使用 Qwen2.5-32B-Instruct 优化的问题陈述。
  • generated_solution:使用 DeepSeek-R1 或 QwQ-32B 生成的合成解答。
  • generation_model:DeepSeek-R1 或 QwQ-32B。
  • problem_type:根据是否能够提取答案或是否为转换为答案问题的证明题,可取值为 "has_answer_extracted"、"no_answer_extracted" 或 "converted_proof"。
  • expected_answer:若 "problem_type" 为 "has_answer_extracted",则为提取的答案;否则,为该问题所有生成解答的多数投票结果。
  • problem_source:表示相应的 AoPS 论坛(例如 "aops_c6_high_school_olympiads")或 "MATH_training_set",因为我们还包含了少量来自 MATH 的生成内容。
  • inference_mode:"cot"、"tir" 或 "genselect"。
  • pass_rate_72b_tir:在 TIR 模式下运行 Qwen2.5-Math-72B-Instruct 时,32 次生成的通过率。此属性仅在 "problem_type" 为 "has_answer_extracted" 时可用,其他情况下设为 "n/a"。
  • used_in_kaggle:该实例是否用于训练 AIMO-2 Kaggle 竞赛 的获胜模型。我们使用了 220 万条 CoT 和 1.5 万条 TIR 解答来训练 OpenMath-Nemotron-14B-Kaggle 模型。请注意,在训练 OpenMath-Nemotron 模型时,我们使用了所有 CoT、TIR 和 GenSelect 数据,但不包括 Kaggle 中使用的 TIR 子集。

OpenMath-Nemotron 模型

为了展示此数据集的质量,我们发布了一系列在该数据上训练的 OpenMath-Nemotron 模型。

  • OpenMath-Nemotron-1.5B
  • OpenMath-Nemotron-7B
  • OpenMath-Nemotron-14B
  • OpenMath-Nemotron-14B-Kaggle(此模型用于 AIMO-2 Kaggle 竞赛)
  • OpenMath-Nemotron-32B

评估结果

这些模型在主流数学基准测试中取得了最先进的结果。我们以 pass@1(maj@64)作为指标,其中 pass@1 是 64 次生成的平均准确率,maj@64 是多数投票的结果。有关评估设置的更多详细信息,请参见我们的 论文。

模型AIME24AIME25HMMT-24-25HLE-Math
DeepSeek-R1-Distill-Qwen-1.5B26.8 (60.0)21.4 (36.7)14.2 (26.5)2.9 (5.0)
OpenMath-Nemotron-1.5B CoT61.6 (80.0)49.5 (66.7)39.9 (53.6)5.4 (5.4)
OpenMath-Nemotron-1.5B TIR52.0 (83.3)39.7 (70.0)37.2 (60.7)2.5 (6.2)
+ Self GenSelect83.370.062.27.9
+ 32B GenSelect83.370.062.88.3
DeepSeek-R1-Distill-Qwen-7B54.4 (80.0)38.6 (53.3)30.6 (42.9)3.3 (5.2)
OpenMath-Nemotron-7B CoT74.8 (80.0)61.2 (76.7)49.7 (57.7)6.6 (6.6)
OpenMath-Nemotron-7B TIR72.9 (83.3)57.5 (76.7)54.6 (66.3)7.8 (10.8)
+ Self GenSelect86.776.768.411.5
+ 32B GenSelect86.776.769.911.9
DeepSeek-R1-Distill-Qwen-14B65.8 (80.0)48.4 (60.0)40.1 (52.0)4.2 (4.8)
OpenMath-Nemotron-14B-MIX (kaggle)73.7 (86.7)57.9 (73.3)50.5 (64.8)5.7 (6.5)
OpenMath-Nemotron-14B CoT76.3 (83.3)63.0 (76.7)52.1 (60.7)7.5 (7.6)
OpenMath-Nemotron-14B TIR76.3 (86.7)61.3 (76.7)58.6 (70.9)9.5 (11.5)
+ Self GenSelect86.776.772.414.1
+ 32B GenSelect90.076.771.913.7
QwQ-32B78.1 (86.7)66.5 (76.7)55.9 (63.3)9.0 (9.5)
DeepSeek-R1-Distill-Qwen-32B66.9 (83.3)51.8 (73.3)39.9 (51.0)4.8 (6.0)
OpenMath-Nemotron-32B CoT76.5 (86.7)62.5 (73.3)53.0 (59.2)8.3 (8.3)
OpenMath-Nemotron-32B TIR78.4 (93.3)64.2 (76.7)59.7 (70.9)9.2 (12.5)
+ Self GenSelect93.380.073.515.7
DeepSeek-R179.1 (86.7)64.3 (73.3)53.0 (59.2)10.5 (11.4)

复现我们的结果

我们用于生成数据和模型的流程已完全开源!

  • 代码
  • 模型
  • 数据集
  • 论文

我们提供了完整操作指南,可助您全面复现我们的结果,包括数据生成环节。

引用

如果您觉得我们的研究工作对您有所帮助,欢迎引用我们的成果!

@article{moshkov2025aimo2,
  title   = {AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset},
  author  = {Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman},
  year    = {2025},
  journal = {arXiv preprint arXiv:2504.16891}
}

数据集所有者:

NVIDIA Corporation

发布日期:

2025年4月23日

数据版本

1.0(2025年4月23日)

许可协议/使用条款:

cc-by-4.0

预期用途:

本数据集旨在供社区用于持续改进模型。数据可自由用于训练和评估。

伦理考量:

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当按照我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对意外的产品误用问题。

请通过此处报告安全漏洞或 NVIDIA AI 相关问题。