MuRIL 是一款 BERT 模型,针对 17 种印度语言及其音译文本进行了预训练。我们已在此代码库中发布了预训练模型(保留了 MLM 层,可进行掩码词预测)。我们还在 TFHub 上发布了编码器,并附带一个额外的预处理模块,该模块可将原始文本处理为编码器所需的输入格式。有关 MuRIL 的更多详细信息,请参阅此 论文。
本模型采用 BERT base 架构 [1],使用 17 种 [6] 印度语言的 Wikipedia [2]、Common Crawl [3]、PMINDIA [4] 和 Dakshina [5] 语料库从头开始预训练。
我们采用与多语言 BERT 类似的训练范式,但做了一些修改,具体如下:
更多详情请参见训练部分。
MuRIL 模型在单语文本段和并行文本段上进行预训练,具体如下:
我们使用 0.3 的指数值来计算低资源语言上采样的重复倍数,并相应地设置重复因子。请注意,我们将音译对仅限于 Wikipedia。
该模型通过自监督的掩码语言建模任务进行训练。我们采用全词掩码,最多进行 80 次预测。模型训练了 1000K 步,批处理大小为 4096,最大序列长度为 512。
模块中的所有参数均可训练,建议对所有参数进行微调。
该模型旨在用于多种印度语言的下游自然语言处理任务。此模型同样在音译数据上进行了训练,这是印度语境中常见的现象。除预训练时使用的17种印度语言外,预计该模型在其他语言上的表现不佳。
我们提供了该模型在一系列下游任务上的微调结果。
这些任务选自XTREME基准,评估在印度语言测试集上进行。
我们还对测试集进行了音译,并在音译后的测试集上进行了评估。
我们使用与[9]相同的微调设置,但在TyDiQA任务中,我们使用了额外的SQuAD v1.1英文训练数据,与[10]类似。
对于Tatoeba任务,我们不微调模型,而是使用最后一层的pooled_output作为句子嵌入。
所有结果均在零样本设置下计算,其中英语作为高资源训练集语言。
以下是XTREME基准数据集上的结果(以%为单位)
| PANX(F1值) | ml | ta | te | en | bn | hi | mr | ur | 平均值 |
|---|---|---|---|---|---|---|---|---|---|
| mBERT | 54.77 | 51.24 | 50.16 | 84.40 | 68.59 | 65.13 | 58.44 | 31.36 | 58.01 |
| MuRIL | 75.74 | 71.86 | 64.99 | 84.43 | 85.97 | 78.09 | 74.63 | 85.07 | 77.60 |
| UDPOS(F1值) | en | hi | mr | ta | te | ur | 平均值 |
|---|---|---|---|---|---|---|---|
| mBERT | 95.35 | 66.09 | 71.27 | 59.58 | 76.98 | 57.85 | 71.19 |
| MuRIL | 95.55 | 64.47 | 82.95 | 62.57 | 85.63 | 58.93 | 75.02 |
| XNLI(准确率) | en | hi | ur | 平均值 |
|---|---|---|---|---|
| mBERT | 81.72 | 60.52 | 58.20 | 66.81 |
| MuRIL | 83.85 | 70.66 | 67.70 | 74.07 |
| Tatoeba(准确率) | ml | ta | te | bn | hi | mr | ur | 平均值 |
|---|---|---|---|---|---|---|---|---|
| mBERT | 20.23 | 12.38 | 14.96 | 12.80 | 27.80 | 18.00 | 22.70 | 18.41 |
| MuRIL | 26.35 | 36.81 | 17.52 | 20.20 | 31.50 | 26.60 | 17.10 | 25.15 |
| XQUAD(F1值/EM值) | en | hi | 平均值 |
|---|---|---|---|
| mBERT | 83.85/72.86 | 58.46/43.53 | 71.15/58.19 |
| MuRIL | 84.31/72.94 | 73.93/58.32 | 79.12/65.63 |
| MLQA(F1值/EM值) | en | hi | 平均值 |
|---|---|---|---|
| mBERT | 80.39/67.30 | 50.28/35.18 | 65.34/51.24 |
| MuRIL | 80.28/67.37 | 67.34/50.22 | 73.81/58.80 |
| TyDiQA(F1值/EM值) | en | bn | te | 平均值 |
|---|---|---|---|---|
| mBERT | 75.21/65.00 | 60.62/45.13 | 53.55/44.54 | 63.13/51.66 |
| MuRIL | 74.10/64.55 | 78.03/66.37 | 73.95/46.94 | 75.36/59.28 |
以下是上述测试集音译版本的结果。
| PANX(F1值) | ml_tr | ta_tr | te_tr | bn_tr | hi_tr | mr_tr | ur_tr | 平均值 |
|---|---|---|---|---|---|---|---|---|
| mBERT | 7.53 | 1.04 | 8.24 | 41.77 | 25.46 | 8.34 | 7.30 | 14.24 |
| MuRIL | 63.39 | 7.00 | 53.62 | 72.94 | 69.75 | 68.77 | 68.41 | 57.70 |
| UDPOS(F1值) | hi_tr | mr_tr | ta_tr | te_tr | ur_tr | 平均值 |
|---|---|---|---|---|---|---|
| mBERT | 25.00 | 33.67 | 24.02 | 36.21 | 22.07 | 28.20 |
| MuRIL | 63.09 | 67.19 | 58.40 | 65.30 | 56.49 | 62.09 |
| XNLI(准确率) | hi_tr | ur_tr | 平均值 |
|---|---|---|---|
| mBERT | 39.6 | 38.86 | 39.23 |
| MuRIL | 68.24 | 61.16 | 64.70 |
| Tatoeba(准确率) | ml_tr | ta_tr | te_tr | bn_tr | hi_tr | mr_tr | ur_tr | 平均值 |
|---|---|---|---|---|---|---|---|---|
| mBERT | 2.18 | 1.95 | 5.13 | 1.80 | 3.00 | 2.40 | 2.30 | 2.68 |
| MuRIL | 10.33 | 11.07 | 11.54 | 8.10 | 14.90 | 7.20 | 13.70 | 10.98 |
[1]: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv 预印本 arXiv:1810.04805, 2018.
[2]: 维基百科
[3]: Common Crawl
[4]: PMINDIA
[5]: Dakshina
[6]: 阿萨姆语 (as)、孟加拉语 (bn)、英语 (en)、古吉拉特语 (gu)、印地语 (hi)、卡纳达语 (kn)、克什米尔语 (ks)、马拉雅拉姆语 (ml)、马拉地语 (mr)、尼泊尔语 (ne)、奥里亚语 (or)、旁遮普语 (pa)、梵语 (sa)、信德语 (sd)、泰米尔语 (ta)、泰卢固语 (te) 和乌尔都语 (ur)。
[7]: Conneau, Alexis, et al. Unsupervised cross-lingual representation learning at scale. arXiv 预印本 arXiv:1911.02116 (2019).
[8]: IndicTrans
[9]: Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization. arXiv 预印本 arXiv:2003.11080.
[10]: Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding. arXiv 预印本 arXiv:2009.05166.
如果您发现 MuRIL 在您的应用中有用,请引用以下论文:
@misc{khanuja2021muril,
title={MuRIL: Multilingual Representations for Indian Languages},
author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
year={2021},
eprint={2103.10730},
archivePrefix={arXiv},
primaryClass={cs.CL}
}如有任何疑问或反馈,请发送邮件至 muril-contact@google.com。