TyDi QA 是一个问答数据集,涵盖 11 种类型学上多样化的语言,包含 204K 个问答对。TyDi QA 所涉及的语言在类型学方面具有多样性——即每种语言所展现的语言特征集合各不相同——因此,我们期望在该数据集上表现良好的模型能够在世界上大量语言之间实现良好的泛化。它包含了仅英文语料库中不会出现的语言现象。为了提供一个真实的信息检索任务并避免启动效应,问题由那些想要知道答案但目前还不知道答案的人来撰写(这与 SQuAD 及其衍生数据集不同),并且数据是直接以各种语言收集的,不经过翻译(这与 MLQA 和 XQuAD 不同)。
“validation”(验证集)的一个示例如下。
This example was too long and was cropped:
{
"annotations": {
"minimal_answers_end_byte": [-1, -1, -1],
"minimal_answers_start_byte": [-1, -1, -1],
"passage_answer_candidate_index": [-1, -1, -1],
"yes_no_answer": ["NONE", "NONE", "NONE"]
},
"document_plaintext": "\"\\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...",
"document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร",
"document_url": "\"https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...",
"language": "thai",
"passage_answer_candidates": "{\"plaintext_end_byte\": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...",
"question_text": "\"หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?\"..."
}“验证”集的示例如下。
This example was too long and was cropped:
{
"answers": {
"answer_start": [394],
"text": ["بطولتين"]
},
"context": "\"أقيمت البطولة 21 مرة، شارك في النهائيات 78 دولة، وعدد الفرق التي فازت بالبطولة حتى الآن 8 فرق، ويعد المنتخب البرازيلي الأكثر تت...",
"id": "arabic-2387335860751143628-1",
"question": "\"كم عدد مرات فوز الأوروغواي ببطولة كاس العالم لكرو القدم؟\"...",
"title": "قائمة نهائيات كأس العالم"
}所有数据拆分中的数据字段均相同。
passage_answer_candidates:一个字典特征,包含:
plaintext_start_byte:一个 int32 特征。plaintext_end_byte:一个 int32 特征。question_text:一个 string 特征。document_title:一个 string 特征。language:一个 string 特征。annotations:一个字典特征,包含:
passage_answer_candidate_index:一个 int32 特征。minimal_answers_start_byte:一个 int32 特征。minimal_answers_end_byte:一个 int32 特征。yes_no_answer:一个 string 特征。document_plaintext:一个 string 特征。document_url:一个 string 特征。id:一个 string 特征。title:一个 string 特征。context:一个 string 特征。question:一个 string 特征。answers:一个字典特征,包含:
text:一个 string 特征。answer_start:一个 int32 特征。| 名称 | 训练集 | 验证集 |
|---|---|---|
| primary_task | 166916 | 18670 |
| secondary_task | 49881 | 5077 |
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}
感谢 @thomwolf、@albertvillanova、@lewtun 和 @patrickvonplaten 添加了此数据集。