Atomgit-Ascend/google-research-datasets-tydiqa
数据集数据集查看器文件和版本Pull Requests讨论
下载使用量0

"tydiqa" 数据集卡片

目录

  • 数据集描述
    • 数据集摘要
    • 支持的任务和排行榜
    • 语言
  • 数据集结构
    • 数据实例
    • 数据字段
    • 数据划分
  • 数据集创建
    • 构建理由
    • 源数据
    • 标注
    • 个人和敏感信息
  • 使用数据的注意事项
    • 数据集的社会影响
    • 偏差讨论
    • 其他已知限制
  • 其他信息
    • 数据集构建者
    • 许可信息
    • 引用信息
    • 贡献

数据集描述

  • 主页: https://github.com/google-research-datasets/tydiqa
  • 代码库: 需要更多信息
  • 论文: 需要更多信息
  • 联系人: 需要更多信息
  • 下载的数据集文件大小: 3.91 GB
  • 生成的数据集大小: 6.10 GB
  • 磁盘总使用量: 10.00 GB

数据集摘要

TyDi QA 是一个问答数据集,涵盖 11 种类型学上多样化的语言,包含 204K 个问答对。TyDi QA 所涉及的语言在类型学方面具有多样性——即每种语言所展现的语言特征集合各不相同——因此,我们期望在该数据集上表现良好的模型能够在世界上大量语言之间实现良好的泛化。它包含了仅英文语料库中不会出现的语言现象。为了提供一个真实的信息检索任务并避免启动效应,问题由那些想要知道答案但目前还不知道答案的人来撰写(这与 SQuAD 及其衍生数据集不同),并且数据是直接以各种语言收集的,不经过翻译(这与 MLQA 和 XQuAD 不同)。

支持的任务和排行榜

需要更多信息

语言

需要更多信息

数据集结构

数据实例

primary_task

  • 下载的数据集文件大小: 1.95 GB
  • 生成的数据集大小: 6.04 GB
  • 使用的总磁盘空间: 7.99 GB

“validation”(验证集)的一个示例如下。

This example was too long and was cropped:

{
    "annotations": {
        "minimal_answers_end_byte": [-1, -1, -1],
        "minimal_answers_start_byte": [-1, -1, -1],
        "passage_answer_candidate_index": [-1, -1, -1],
        "yes_no_answer": ["NONE", "NONE", "NONE"]
    },
    "document_plaintext": "\"\\nรองศาสตราจารย์[1] หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร  (22 กันยายน 2495 -) ผู้ว่าราชการกรุงเทพมหานครคนที่ 15 อดีตรองหัวหน้าพรรคปร...",
    "document_title": "หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร",
    "document_url": "\"https://th.wikipedia.org/wiki/%E0%B8%AB%E0%B8%A1%E0%B9%88%E0%B8%AD%E0%B8%A1%E0%B8%A3%E0%B8%B2%E0%B8%8A%E0%B8%A7%E0%B8%87%E0%B8%...",
    "language": "thai",
    "passage_answer_candidates": "{\"plaintext_end_byte\": [494, 1779, 2931, 3904, 4506, 5588, 6383, 7122, 8224, 9375, 10473, 12563, 15134, 17765, 19863, 21902, 229...",
    "question_text": "\"หม่อมราชวงศ์สุขุมพันธุ์ บริพัตร เรียนจบจากที่ไหน ?\"..."
}

次要任务

  • 已下载数据集文件大小: 1.95 GB
  • 生成的数据集大小: 58.03 MB
  • 使用的磁盘总量: 2.01 GB

“验证”集的示例如下。

This example was too long and was cropped:

{
    "answers": {
        "answer_start": [394],
        "text": ["بطولتين"]
    },
    "context": "\"أقيمت البطولة 21 مرة، شارك في النهائيات 78 دولة، وعدد الفرق التي فازت بالبطولة حتى الآن 8 فرق، ويعد المنتخب البرازيلي الأكثر تت...",
    "id": "arabic-2387335860751143628-1",
    "question": "\"كم عدد مرات فوز الأوروغواي ببطولة كاس العالم لكرو القدم؟\"...",
    "title": "قائمة نهائيات كأس العالم"
}

数据字段

所有数据拆分中的数据字段均相同。

primary_task

  • passage_answer_candidates:一个字典特征,包含:
    • plaintext_start_byte:一个 int32 特征。
    • plaintext_end_byte:一个 int32 特征。
  • question_text:一个 string 特征。
  • document_title:一个 string 特征。
  • language:一个 string 特征。
  • annotations:一个字典特征,包含:
    • passage_answer_candidate_index:一个 int32 特征。
    • minimal_answers_start_byte:一个 int32 特征。
    • minimal_answers_end_byte:一个 int32 特征。
    • yes_no_answer:一个 string 特征。
  • document_plaintext:一个 string 特征。
  • document_url:一个 string 特征。

secondary_task

  • id:一个 string 特征。
  • title:一个 string 特征。
  • context:一个 string 特征。
  • question:一个 string 特征。
  • answers:一个字典特征,包含:
    • text:一个 string 特征。
    • answer_start:一个 int32 特征。

数据拆分

名称训练集验证集
primary_task16691618670
secondary_task498815077

数据集创建

构建理由

需要更多信息

源数据

初始数据收集与标准化

需要更多信息

源语言提供者是谁?

需要更多信息

标注

标注流程

需要更多信息

标注者是谁?

需要更多信息

个人和敏感信息

需要更多信息

数据使用注意事项

数据集的社会影响

需要更多信息

偏差讨论

需要更多信息

其他已知限制

需要更多信息

其他信息

数据集整理者

需要更多信息

许可信息

需要更多信息

引用信息

@article{tydiqa,
title   = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author  = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year    = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}

贡献

感谢 @thomwolf、@albertvillanova、@lewtun 和 @patrickvonplaten 添加了此数据集。