印度语言多语言表示:一个 BERT Large(24 层)模型,在 17 种印度语言及其音译对应文本上进行预训练。
本模型采用 BERT large 架构 [1],基于 17 种 [6] 印度语言的 Wikipedia [2]、Common Crawl [3]、PMINDIA [4] 和 Dakshina [5] 语料库从头开始预训练。
我们采用与多语言 BERT 类似的训练范式,但做了如下几处修改:
更多详情请参见训练部分。
MuRIL 模型在单语文本段和并行文本段上进行预训练,具体如下:
我们使用 0.3 的指数值来计算低资源语言上采样的复制乘数,并相应地设置重复因子。请注意,我们将音译对限制为仅来自 Wikipedia。
该模型通过自监督的掩码语言建模任务进行训练。我们采用全词掩码,最多进行 80 次预测。模型训练了 150 万步,批大小为 8192,最大序列长度为 512。
模块中的所有参数均可训练,建议对所有参数进行微调。
该模型旨在用于多种印度语言的下游自然语言处理任务。此模型也在音译数据上进行了训练,这种现象在印度语境中十分常见。预计该模型在预训练所用的17种印度语言之外的其他语言上表现不佳。
我们提供了该模型在一系列下游任务上的微调结果。
这些任务选自XTREME基准,评估在印度语言测试集上进行。
所有结果均在零样本设置下计算,其中英语作为高资源训练集语言。
XLM-R(Large)的结果取自XTREME论文[9]。
以下是XTREME基准数据集上的结果(单位:%)
| PANX(F1值) | bn | en | hi | ml | mr | ta | te | ur | 平均值 |
|---|---|---|---|---|---|---|---|---|---|
| XLM-R(large) | 78.8 | 84.7 | 73.0 | 67.8 | 68.1 | 59.5 | 55.8 | 56.4 | 68.0 |
| MuRIL(large) | 85.8 | 85.0 | 78.3 | 75.6 | 77.3 | 71.1 | 65.6 | 83.0 | 77.7 |
| UDPOS(F1值) | en | hi | mr | ta | te | ur | 平均值 |
|---|---|---|---|---|---|---|---|
| XLM-R(large) | 96.1 | 76.4 | 80.8 | 65.2 | 86.6 | 70.3 | 79.2 |
| MuRIL(large) | 95.7 | 71.3 | 85.7 | 62.6 | 85.8 | 62.8 | 77.3 |
| XNLI(准确率) | en | hi | ur | 平均值 |
|---|---|---|---|---|
| XLM-R(large) | 88.7 | 75.6 | 71.7 | 78.7 |
| MuRIL(large) | 88.4 | 75.8 | 71.7 | 78.6 |
| XQUAD(F1值/EM值) | en | hi | 平均值 |
|---|---|---|---|
| XLM-R(large) | 86.5/75.7 | 76.7/59.7 | 81.6/67.7 |
| MuRIL(large) | 88.2/77.8 | 78.4/62.4 | 83.3/70.1 |
| MLQA(F1值/EM值) | en | hi | 平均值 |
|---|---|---|---|
| XLM-R(large) | 83.5/70.6 | 70.6/53.1 | 77.1/61.9 |
| MuRIL(large) | 84.4/71.7 | 72.2/54.1 | 78.3/62.9 |
| TyDiQA(F1值/EM值) | en | bn | te | 平均值 |
|---|---|---|---|---|
| XLM-R(large) | 71.5/56.8 | 64.0/47.8 | 70.1/43.6 | 68.5/49.4 |
| MuRIL(large) | 75.9/66.8 | 67.1/53.1 | 71.5/49.8 | 71.5/56.6 |
微调超参数如下:
| 任务 | 批大小 | 学习率 | 轮次 | 预热比例 |
|---|---|---|---|---|
| PANX | 32 | 2e-5 | 10 | 0.1 |
| UDPOS | 64 | 5e-6 | 10 | 0.1 |
| XNLI | 128 | 2e-5 | 5 | 0.1 |
| XQuAD | 32 | 3e-5 | 2 | 0.1 |
| MLQA | 32 | 3e-5 | 2 | 0.1 |
| TyDiQA | 32 | 3e-5 | 3 | 0.1 |
[1]: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv预印本 arXiv:1810.04805, 2018.
[2]: 维基百科
[3]: Common Crawl
[4]: PMINDIA
[5]: Dakshina
[6]: 阿萨姆语 (as)、孟加拉语 (bn)、英语 (en)、古吉拉特语 (gu)、印地语 (hi)、卡纳达语 (kn)、克什米尔语 (ks)、马拉雅拉姆语 (ml)、马拉地语 (mr)、尼泊尔语 (ne)、奥里亚语 (or)、旁遮普语 (pa)、梵语 (sa)、信德语 (sd)、泰米尔语 (ta)、泰卢固语 (te) 和乌尔都语 (ur)。
[7]: Conneau, Alexis, et al. Unsupervised cross-lingual representation learning at scale. arXiv预印本 arXiv:1911.02116 (2019).
[8]: IndicTrans
[9]: Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). XTREME: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization. arXiv预印本 arXiv:2003.11080.
[10]: Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding. arXiv预印本 arXiv:2009.05166.
如果您发现MuRIL在您的应用中有用,请引用以下论文:
@misc{khanuja2021muril,
title={MuRIL: Multilingual Representations for Indian Languages},
author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
year={2021},
eprint={2103.10730},
archivePrefix={arXiv},
primaryClass={cs.CL}
}如有任何疑问或反馈,请发送邮件至 muril-contact@google.com。