Google 的 mT5-base 在 TyDi QA(次要任务)上进行了微调,适用于多语言问题生成下游任务(通过答案前置方式)。
mT5 在 mC4 语料库上进行预训练,涵盖 101 种语言:
南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、保加利亚语、缅甸语、加泰罗尼亚语、宿务语、齐切瓦语、中文、科西嘉语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、海地克里奥尔语、豪萨语、夏威夷语、希伯来语、印地语、苗族语、匈牙利语、冰岛语、伊博语、印度尼西亚语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、卢森堡语、马其顿语、马达加斯加语、马来语、马拉雅拉姆语、马耳他语、毛利语、马拉地语、蒙古语、尼泊尔语、挪威语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、萨摩亚语、苏格兰盖尔语、塞尔维亚语、修纳语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、索托语、西班牙语、巽他语、斯瓦希里语、瑞典语、塔吉克语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、西弗里西亚语、科萨语、意第绪语、约鲁巴语、祖鲁语。
注意:mT5 仅在 mC4 上进行预训练,未进行任何有监督训练。因此,该模型在用于下游任务前必须进行微调。
预训练数据集:mC4
其他社区检查点:此处
作者:Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel
TyDi QA 是一个问答数据集,涵盖 11 种类型多样的语言,包含 204K 个问答对。TyDi QA 所涉及的语言在类型学方面具有多样性——即每种语言所表达的语言特征集合各不相同,因此我们期望在该数据集上表现良好的模型能够在世界上大量语言中实现泛化。它包含了仅英语语料库中不会出现的语言现象。为了提供一个真实的信息检索任务并避免启动效应,问题由那些想要知道答案但目前还不知道答案的人编写(这与 SQuAD 及其衍生数据集不同),并且数据是直接以各种语言收集的,不经过翻译(这与 MLQA 和 XQuAD 不同)。
| 数据集 | 任务 | 划分 | 样本数量 |
|---|---|---|---|
| TyDi QA | GoldP | train | 49881 |
| TyDi QA | GoldP | valid | 5077 |
创建者:Narrativa
关于 Narrativa:自然语言生成(NLG)| Gabriele 是我们基于机器学习的平台,用于构建和部署自然语言解决方案。#NLG #AI