OpenMathReasoning

OpenMathReasoning 是一个用于训练大型语言模型（LLMs）的大规模数学推理数据集。
该数据集包含：

306K 道源自 AoPS 论坛的独特数学问题，配套有：
- 320 万条长链思维（CoT）解答
- 170 万条工具集成推理（TIR）解答
- 56.6K 条从多个候选答案中筛选最优解的样本（GenSelect）
额外 193K 道源自 AoPS 论坛的问题（仅有题目，无解答）

我们使用 Qwen2.5-32B-Instruct 对问题进行预处理，并通过 DeepSeek-R1 和 QwQ-32B 生成解答。

该数据集是我们在 AIMO-2 Kaggle 竞赛中夺冠提交方案的基础。

详见我们的论文以了解更多细节！

注意： 我们最初报告数据集包含 540K 道独特问题，但该数字仅代表数据处理流程初期的题目数量。已发布数据集中实际的 CoT 和 TIR 解答对应 306K 道问题。由于我们的 OpenMath-Nemotron 模型是在这一缩减后的子集上训练的，所有已发表结果均使用当前发布版本可复现——仅初始问题数量存在统计偏差。

问题数量差异由两方面原因导致：

过滤流程中，大量问题因格式限制（是非题、选择题等）、基准数据集去污染需求，以及现有 LLMs 无法为特定问题生成有效解答而被移除。
处理 pipeline 存在的 bug 导致 137K 道证明类问题丢失。当我们恢复并将这些额外数据纳入训练后，SFT 性能出现退化。目前我们正在测试整合这些恢复问题的不同方法，仅在确认能显著提升性能时才会发布其解答。

注意： 本数据的早期版本已单独发布于 Llama-Nemotron-Post-Training-Dataset。

数据集字段

OpenMathReasoning 数据集包含以下字段：

problem：从 AoPS 论坛提取并使用 Qwen2.5-32B-Instruct 优化的问题陈述。
generated_solution：使用 DeepSeek-R1 或 QwQ-32B 生成的合成解答。
generation_model：DeepSeek-R1 或 QwQ-32B。
problem_type：根据是否能够提取答案或是否为转换为答案问题的证明题，可取值为 "has_answer_extracted"、"no_answer_extracted" 或 "converted_proof"。
expected_answer：若 "problem_type" 为 "has_answer_extracted"，则为提取的答案；否则，为该问题所有生成解答的多数投票结果。
problem_source：表示相应的 AoPS 论坛（例如 "aops_c6_high_school_olympiads"）或 "MATH_training_set"，因为我们还包含了少量来自 MATH 的生成内容。
inference_mode："cot"、"tir" 或 "genselect"。
pass_rate_72b_tir：在 TIR 模式下运行 Qwen2.5-Math-72B-Instruct 时，32 次生成的通过率。此属性仅在 "problem_type" 为 "has_answer_extracted" 时可用，其他情况下设为 "n/a"。
used_in_kaggle：该实例是否用于训练 AIMO-2 Kaggle 竞赛的获胜模型。我们使用了 220 万条 CoT 和 1.5 万条 TIR 解答来训练 OpenMath-Nemotron-14B-Kaggle 模型。请注意，在训练 OpenMath-Nemotron 模型时，我们使用了所有 CoT、TIR 和 GenSelect 数据，但不包括 Kaggle 中使用的 TIR 子集。

OpenMath-Nemotron 模型

为了展示此数据集的质量，我们发布了一系列在该数据上训练的 OpenMath-Nemotron 模型。

OpenMath-Nemotron-1.5B
OpenMath-Nemotron-7B
OpenMath-Nemotron-14B
OpenMath-Nemotron-14B-Kaggle（此模型用于 AIMO-2 Kaggle 竞赛）
OpenMath-Nemotron-32B

评估结果

这些模型在主流数学基准测试中取得了最先进的结果。我们以 pass@1（maj@64）作为指标，其中 pass@1 是 64 次生成的平均准确率，maj@64 是多数投票的结果。有关评估设置的更多详细信息，请参见我们的论文。

模型	AIME24	AIME25	HMMT-24-25	HLE-Math
DeepSeek-R1-Distill-Qwen-1.5B	26.8 (60.0)	21.4 (36.7)	14.2 (26.5)	2.9 (5.0)
OpenMath-Nemotron-1.5B CoT	61.6 (80.0)	49.5 (66.7)	39.9 (53.6)	5.4 (5.4)
OpenMath-Nemotron-1.5B TIR	52.0 (83.3)	39.7 (70.0)	37.2 (60.7)	2.5 (6.2)
+ Self GenSelect	83.3	70.0	62.2	7.9
+ 32B GenSelect	83.3	70.0	62.8	8.3
DeepSeek-R1-Distill-Qwen-7B	54.4 (80.0)	38.6 (53.3)	30.6 (42.9)	3.3 (5.2)
OpenMath-Nemotron-7B CoT	74.8 (80.0)	61.2 (76.7)	49.7 (57.7)	6.6 (6.6)
OpenMath-Nemotron-7B TIR	72.9 (83.3)	57.5 (76.7)	54.6 (66.3)	7.8 (10.8)
+ Self GenSelect	86.7	76.7	68.4	11.5
+ 32B GenSelect	86.7	76.7	69.9	11.9
DeepSeek-R1-Distill-Qwen-14B	65.8 (80.0)	48.4 (60.0)	40.1 (52.0)	4.2 (4.8)
OpenMath-Nemotron-14B-MIX (kaggle)	73.7 (86.7)	57.9 (73.3)	50.5 (64.8)	5.7 (6.5)
OpenMath-Nemotron-14B CoT	76.3 (83.3)	63.0 (76.7)	52.1 (60.7)	7.5 (7.6)
OpenMath-Nemotron-14B TIR	76.3 (86.7)	61.3 (76.7)	58.6 (70.9)	9.5 (11.5)
+ Self GenSelect	86.7	76.7	72.4	14.1
+ 32B GenSelect	90.0	76.7	71.9	13.7
QwQ-32B	78.1 (86.7)	66.5 (76.7)	55.9 (63.3)	9.0 (9.5)
DeepSeek-R1-Distill-Qwen-32B	66.9 (83.3)	51.8 (73.3)	39.9 (51.0)	4.8 (6.0)
OpenMath-Nemotron-32B CoT	76.5 (86.7)	62.5 (73.3)	53.0 (59.2)	8.3 (8.3)
OpenMath-Nemotron-32B TIR	78.4 (93.3)	64.2 (76.7)	59.7 (70.9)	9.2 (12.5)
+ Self GenSelect	93.3	80.0	73.5	15.7
DeepSeek-R1	79.1 (86.7)	64.3 (73.3)	53.0 (59.2)	10.5 (11.4)

复现我们的结果

我们用于生成数据和模型的流程已完全开源！

我们提供了完整操作指南，可助您全面复现我们的结果，包括数据生成环节。

引用

如果您觉得我们的研究工作对您有所帮助，欢迎引用我们的成果！

@article{moshkov2025aimo2,
  title   = {AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset},
  author  = {Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman},
  year    = {2025},
  journal = {arXiv preprint arXiv:2504.16891}
}

数据集所有者：

NVIDIA Corporation

发布日期：

2025年4月23日

数据版本

1.0（2025年4月23日）

许可协议/使用条款：

cc-by-4.0

预期用途：

本数据集旨在供社区用于持续改进模型。数据可自由用于训练和评估。

伦理考量：

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持各类 AI 应用的开发。当按照我们的服务条款下载或使用时，开发人员应与其内部模型团队合作，确保该模型满足相关行业和用例的要求，并应对意外的产品误用问题。

请通过此处报告安全漏洞或 NVIDIA AI 相关问题。