OpenMathReasoning 是一个用于训练大型语言模型(LLMs)的大规模数学推理数据集。
该数据集包含:
我们使用 Qwen2.5-32B-Instruct 对问题进行预处理,并通过 DeepSeek-R1 和 QwQ-32B 生成解答。
该数据集是我们在 AIMO-2 Kaggle 竞赛中夺冠提交方案的基础。
详见我们的 论文 以了解更多细节!
注意: 我们最初报告数据集包含 540K 道独特问题,但该数字仅代表数据处理流程初期的题目数量。已发布数据集中实际的 CoT 和 TIR 解答对应 306K 道问题。由于我们的 OpenMath-Nemotron 模型是在这一缩减后的子集上训练的,所有已发表结果均使用当前发布版本可复现——仅初始问题数量存在统计偏差。
问题数量差异由两方面原因导致:
注意: 本数据的早期版本已单独发布于 Llama-Nemotron-Post-Training-Dataset。
OpenMathReasoning 数据集包含以下字段:
为了展示此数据集的质量,我们发布了一系列在该数据上训练的 OpenMath-Nemotron 模型。

这些模型在主流数学基准测试中取得了最先进的结果。我们以 pass@1(maj@64)作为指标,其中 pass@1 是 64 次生成的平均准确率,maj@64 是多数投票的结果。有关评估设置的更多详细信息,请参见我们的 论文。
| 模型 | AIME24 | AIME25 | HMMT-24-25 | HLE-Math |
|---|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 26.8 (60.0) | 21.4 (36.7) | 14.2 (26.5) | 2.9 (5.0) |
| OpenMath-Nemotron-1.5B CoT | 61.6 (80.0) | 49.5 (66.7) | 39.9 (53.6) | 5.4 (5.4) |
| OpenMath-Nemotron-1.5B TIR | 52.0 (83.3) | 39.7 (70.0) | 37.2 (60.7) | 2.5 (6.2) |
| + Self GenSelect | 83.3 | 70.0 | 62.2 | 7.9 |
| + 32B GenSelect | 83.3 | 70.0 | 62.8 | 8.3 |
| DeepSeek-R1-Distill-Qwen-7B | 54.4 (80.0) | 38.6 (53.3) | 30.6 (42.9) | 3.3 (5.2) |
| OpenMath-Nemotron-7B CoT | 74.8 (80.0) | 61.2 (76.7) | 49.7 (57.7) | 6.6 (6.6) |
| OpenMath-Nemotron-7B TIR | 72.9 (83.3) | 57.5 (76.7) | 54.6 (66.3) | 7.8 (10.8) |
| + Self GenSelect | 86.7 | 76.7 | 68.4 | 11.5 |
| + 32B GenSelect | 86.7 | 76.7 | 69.9 | 11.9 |
| DeepSeek-R1-Distill-Qwen-14B | 65.8 (80.0) | 48.4 (60.0) | 40.1 (52.0) | 4.2 (4.8) |
| OpenMath-Nemotron-14B-MIX (kaggle) | 73.7 (86.7) | 57.9 (73.3) | 50.5 (64.8) | 5.7 (6.5) |
| OpenMath-Nemotron-14B CoT | 76.3 (83.3) | 63.0 (76.7) | 52.1 (60.7) | 7.5 (7.6) |
| OpenMath-Nemotron-14B TIR | 76.3 (86.7) | 61.3 (76.7) | 58.6 (70.9) | 9.5 (11.5) |
| + Self GenSelect | 86.7 | 76.7 | 72.4 | 14.1 |
| + 32B GenSelect | 90.0 | 76.7 | 71.9 | 13.7 |
| QwQ-32B | 78.1 (86.7) | 66.5 (76.7) | 55.9 (63.3) | 9.0 (9.5) |
| DeepSeek-R1-Distill-Qwen-32B | 66.9 (83.3) | 51.8 (73.3) | 39.9 (51.0) | 4.8 (6.0) |
| OpenMath-Nemotron-32B CoT | 76.5 (86.7) | 62.5 (73.3) | 53.0 (59.2) | 8.3 (8.3) |
| OpenMath-Nemotron-32B TIR | 78.4 (93.3) | 64.2 (76.7) | 59.7 (70.9) | 9.2 (12.5) |
| + Self GenSelect | 93.3 | 80.0 | 73.5 | 15.7 |
| DeepSeek-R1 | 79.1 (86.7) | 64.3 (73.3) | 53.0 (59.2) | 10.5 (11.4) |
我们用于生成数据和模型的流程已完全开源!
我们提供了完整操作指南,可助您全面复现我们的结果,包括数据生成环节。
如果您觉得我们的研究工作对您有所帮助,欢迎引用我们的成果!
@article{moshkov2025aimo2,
title = {AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset},
author = {Ivan Moshkov and Darragh Hanley and Ivan Sorokin and Shubham Toshniwal and Christof Henkel and Benedikt Schifferer and Wei Du and Igor Gitman},
year = {2025},
journal = {arXiv preprint arXiv:2504.16891}
}NVIDIA Corporation
2025年4月23日
1.0(2025年4月23日)
cc-by-4.0
本数据集旨在供社区用于持续改进模型。数据可自由用于训练和评估。
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当按照我们的服务条款下载或使用时,开发人员应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对意外的产品误用问题。
请通过此处报告安全漏洞或 NVIDIA AI 相关问题。