MGSM 数据集卡片

数据集描述

主页： https://openai.com/blog/grade-school-math/
代码库： https://github.com/openai/grade-school-math
论文： https://arxiv.org/abs/2110.14168
排行榜： [需要更多信息]
联系方式： [需要更多信息]

数据集摘要

多语言小学算术基准（MGSM）是一个小学算术问题基准，在论文《Language models are multilingual chain-of-thought reasoners》（http://arxiv.org/abs/2210.03057）中提出。

GSM8K 中的 250 个相同问题均由人工标注者翻译成 10 种语言。这 10 种语言分别是：

西班牙语
法语
德语
俄语
中文
日语
泰语
斯瓦希里语
孟加拉语
泰卢固语

GSM8K（小学算术 8K）是一个包含 8.5K 高质量、语言多样的小学算术应用题数据集。创建该数据集的目的是支持需要多步推理的基础数学问题的问答任务。

您可以找到这十种语言（以及英语）的输入和目标，均为 .tsv 文件。我们还在 exemplars.py 中包含了少量示例，这些示例也是从每种语言手动翻译而来的。

支持的任务和排行榜

[需要更多信息]

语言

来自GSM8K的相同250道题目，每道都由人工注释者翻译成10种语言。这10种语言分别是：

西班牙语
法语
德语
俄语
中文
日语
泰语
斯瓦希里语
孟加拉语
泰卢固语

数据集结构

数据实例

训练集中的每个实例包含：

一个字符串，内容为小学水平的数学问题
一个字符串，内容为带有思维链步骤的相应答案
该问题的数字解
该问题的方程解

{'question': 'Question: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?',
 'answer': 'Step-by-Step Answer: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6 tennis balls. 5 + 6 = 11. The answer is 11.',
 'answer_number': 11,
 'equation_solution': '5 + 6 = 11.'}

测试集中的每个实例包含：

一个小学水平数学问题的字符串
该问题的数字解

{'question': "Janet’s ducks lay 16 eggs per day. She eats three for breakfast every morning and bakes muffins for her friends every day with four. She sells the remainder at the farmers' market daily for $2 per fresh duck egg. How much in dollars does she make every day at the farmers' market?",
 'answer': None,
 'answer_number': 18,
 'equation_solution': None}

数据字段

train（训练集）和test（测试集）划分中的数据字段相同。

question：小学数学问题的问题字符串。
answer：question的完整解答字符串。它包含多个推理步骤，带有计算器注释和最终的数字解。
answer_number：question的数字解。
equation_solution：question的方程解。

数据划分

训练集包含8个少样本示例，这些示例也均从每种语言手动翻译而来。
测试集包含250个与GSM8K相同的题目，由人工注释者翻译成10种语言。

名称	训练集	测试集
en	8	250
es	8	250
fr	8	250
de	8	250
ru	8	250
zh	8	250
ja	8	250
th	8	250
sw	8	250
bn	8	250
te	8	250

数据集创建

整理 rationale

[需要更多信息]

源数据

初始数据收集与标准化

来自论文：

我们最初通过在Upwork（upwork.com）上聘请自由承包商，收集了一组包含一千个问题和自然语言解答的初始集合。然后，我们与NLP数据标注平台Surge AI（surgehq.ai）合作，以扩大我们的数据收集规模。在收集完完整数据集后，我们让工作人员重新解答所有问题，确保没有工作人员重新解答他们最初编写的问题。我们检查他们的最终答案是否与原始解答一致，对于产生分歧的任何问题，要么进行修正，要么予以丢弃。随后，我们对一小部分问题进行了另一轮一致性检查，发现1.7%的问题在承包商之间仍然存在分歧。我们估计这部分问题包含致命错误或歧义。可能有更大比例的问题存在细微错误。

源语言的生产者是谁？

[需要更多信息]

标注说明

标注流程

[需要更多信息]

标注人员

Surge AI（surgehq.ai）

个人及敏感信息

[需要更多信息]

数据使用注意事项

数据集的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知局限性

[需要更多信息]

补充信息

数据集维护者

[需要更多信息]

许可信息

GSM8K 数据集基于 MIT 许可证授权。

引用信息

@article{cobbe2021gsm8k,
    title={Training Verifiers to Solve Math Word Problems},
    author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John},
    journal={arXiv preprint arXiv:2110.14168},
    year={2021}
}
@misc{shi2022language,
    title={Language Models are Multilingual Chain-of-Thought Reasoners}, 
    author={Freda Shi and Mirac Suzgun and Markus Freitag and Xuezhi Wang and Suraj Srivats and Soroush Vosoughi and Hyung Won Chung and Yi Tay and Sebastian Ruder and Denny Zhou and Dipanjan Das and Jason Wei},
    year={2022},
    eprint={2210.03057},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢 @juletx 添加了此数据集。

MGSM 数据集卡片

数据集描述

主页： https://openai.com/blog/grade-school-math/
代码库： https://github.com/openai/grade-school-math
论文： https://arxiv.org/abs/2110.14168
排行榜： [需要更多信息]
联系方式： [需要更多信息]

数据集摘要

多语言小学算术基准（MGSM）是一个小学算术问题基准，在论文《Language models are multilingual chain-of-thought reasoners》（http://arxiv.org/abs/2210.03057）中提出。

GSM8K 中的 250 个相同问题均由人工标注者翻译成 10 种语言。这 10 种语言分别是：

西班牙语
法语
德语
俄语
中文
日语
泰语
斯瓦希里语
孟加拉语
泰卢固语

GSM8K（小学算术 8K）是一个包含 8.5K 高质量、语言多样的小学算术应用题数据集。创建该数据集的目的是支持需要多步推理的基础数学问题的问答任务。

支持的任务和排行榜

[需要更多信息]

语言

来自GSM8K的相同250道题目，每道都由人工注释者翻译成10种语言。这10种语言分别是：

西班牙语
法语
德语
俄语
中文
日语
泰语
斯瓦希里语
孟加拉语
泰卢固语

数据集结构

数据实例

训练集中的每个实例包含：

一个字符串，内容为小学水平的数学问题
一个字符串，内容为带有思维链步骤的相应答案
该问题的数字解
该问题的方程解

{'question': 'Question: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?',
 'answer': 'Step-by-Step Answer: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6 tennis balls. 5 + 6 = 11. The answer is 11.',
 'answer_number': 11,
 'equation_solution': '5 + 6 = 11.'}

测试集中的每个实例包含：

一个小学水平数学问题的字符串
该问题的数字解

{'question': "Janet’s ducks lay 16 eggs per day. She eats three for breakfast every morning and bakes muffins for her friends every day with four. She sells the remainder at the farmers' market daily for $2 per fresh duck egg. How much in dollars does she make every day at the farmers' market?",
 'answer': None,
 'answer_number': 18,
 'equation_solution': None}

数据字段

train（训练集）和test（测试集）划分中的数据字段相同。

question：小学数学问题的问题字符串。
answer：question的完整解答字符串。它包含多个推理步骤，带有计算器注释和最终的数字解。
answer_number：question的数字解。
equation_solution：question的方程解。

数据划分

训练集包含8个少样本示例，这些示例也均从每种语言手动翻译而来。
测试集包含250个与GSM8K相同的题目，由人工注释者翻译成10种语言。

名称	训练集	测试集
en	8	250
es	8	250
fr	8	250
de	8	250
ru	8	250
zh	8	250
ja	8	250
th	8	250
sw	8	250
bn	8	250
te	8	250

数据集创建

整理 rationale

[需要更多信息]

源数据

初始数据收集与标准化

来自论文：

我们最初通过在Upwork（upwork.com）上聘请自由承包商，收集了一组包含一千个问题和自然语言解答的初始集合。然后，我们与NLP数据标注平台Surge AI（surgehq.ai）合作，以扩大我们的数据收集规模。在收集完完整数据集后，我们让工作人员重新解答所有问题，确保没有工作人员重新解答他们最初编写的问题。我们检查他们的最终答案是否与原始解答一致，对于产生分歧的任何问题，要么进行修正，要么予以丢弃。随后，我们对一小部分问题进行了另一轮一致性检查，发现1.7%的问题在承包商之间仍然存在分歧。我们估计这部分问题包含致命错误或歧义。可能有更大比例的问题存在细微错误。

源语言的生产者是谁？

[需要更多信息]

标注说明

标注流程

[需要更多信息]

标注人员

Surge AI（surgehq.ai）

个人及敏感信息

[需要更多信息]

数据使用注意事项

数据集的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知局限性

[需要更多信息]

补充信息

数据集维护者

[需要更多信息]

许可信息

GSM8K 数据集基于 MIT 许可证授权。

引用信息

@article{cobbe2021gsm8k,
    title={Training Verifiers to Solve Math Word Problems},
    author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John},
    journal={arXiv preprint arXiv:2110.14168},
    year={2021}
}
@misc{shi2022language,
    title={Language Models are Multilingual Chain-of-Thought Reasoners}, 
    author={Freda Shi and Mirac Suzgun and Markus Freitag and Xuezhi Wang and Suraj Srivats and Soroush Vosoughi and Hyung Won Chung and Yi Tay and Sebastian Ruder and Denny Zhou and Dipanjan Das and Jason Wei},
    year={2022},
    eprint={2210.03057},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢 @juletx 添加了此数据集。

名称	训练集	测试集
en	8	250
es	8	250
fr	8	250
de	8	250
ru	8	250
zh	8	250
ja	8	250
th	8	250
sw	8	250
bn	8	250
te	8	250

名称	训练集	测试集
en	8	250
es	8	250
fr	8	250
de	8	250
ru	8	250
zh	8	250
ja	8	250
th	8	250
sw	8	250
bn	8	250
te	8	250

名称	训练集	测试集
en	8	250
es	8	250
fr	8	250
de	8	250
ru	8	250
zh	8	250
ja	8	250
th	8	250
sw	8	250
bn	8	250
te	8	250

名称	训练集	测试集
en	8	250
es	8	250
fr	8	250
de	8	250
ru	8	250
zh	8	250
ja	8	250
th	8	250
sw	8	250
bn	8	250
te	8	250

MGSM 数据集卡片

目录

数据集描述

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据划分

数据集创建

整理 rationale

源数据

初始数据收集与标准化

源语言的生产者是谁？

标注说明

标注流程

标注人员

个人及敏感信息

数据使用注意事项

数据集的社会影响

偏差讨论

其他已知局限性

补充信息

数据集维护者

许可信息

引用信息

贡献

MGSM 数据集卡片

目录

数据集描述

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据划分

数据集创建

整理 rationale

源数据

初始数据收集与标准化

源语言的生产者是谁？

标注说明

标注流程

标注人员

个人及敏感信息

数据使用注意事项

数据集的社会影响

偏差讨论

其他已知局限性

补充信息

数据集维护者

许可信息

引用信息

贡献

名称	训练集	测试集
en	8	250
es	8	250
fr	8	250
de	8	250
ru	8	250
zh	8	250
ja	8	250
th	8	250
sw	8	250
bn	8	250
te	8	250

名称	训练集	测试集
en	8	250
es	8	250
fr	8	250
de	8	250
ru	8	250
zh	8	250
ja	8	250
th	8	250
sw	8	250
bn	8	250
te	8	250