MuRIL Large

印度语言多语言表示：一个 BERT Large（24 层）模型，在 17 种印度语言及其音译对应文本上进行预训练。

概述

本模型采用 BERT large 架构 [1]，基于 17 种 [6] 印度语言的 Wikipedia [2]、Common Crawl [3]、PMINDIA [4] 和 Dakshina [5] 语料库从头开始预训练。

我们采用与多语言 BERT 类似的训练范式，但做了如下几处修改：

我们在训练中还包含了翻译和音译的文本段对。
我们将用于上采样的指数值设为 0.3 而非 0.7，这被证明可以提升低资源语言的性能。[7]

更多详情请参见训练部分。

训练

MuRIL 模型在单语文本段和并行文本段上进行预训练，具体如下：

单语数据：我们使用了 17 种印度语言的 Wikipedia 和 Common Crawl 公开语料库。
并行数据：我们有两种类型的并行数据：
- 翻译数据：我们使用 Google NMT 管道对上述单语语料库进行翻译。我们将翻译后的文本段对作为输入。我们还使用了公开可用的 PMINDIA 语料库。
- 音译数据：我们使用 IndicTrans [8] 库对 Wikipedia 文本进行音译。我们将音译后的文本段对作为输入。我们还使用了公开可用的 Dakshina 数据集。

我们使用 0.3 的指数值来计算低资源语言上采样的复制乘数，并相应地设置重复因子。请注意，我们将音译对限制为仅来自 Wikipedia。

该模型通过自监督的掩码语言建模任务进行训练。我们采用全词掩码，最多进行 80 次预测。模型训练了 150 万步，批大小为 8192，最大序列长度为 512。

可训练参数

模块中的所有参数均可训练，建议对所有参数进行微调。

用途与局限性

该模型旨在用于多种印度语言的下游自然语言处理任务。此模型也在音译数据上进行了训练，这种现象在印度语境中十分常见。预计该模型在预训练所用的17种印度语言之外的其他语言上表现不佳。

评估

我们提供了该模型在一系列下游任务上的微调结果。
这些任务选自XTREME基准，评估在印度语言测试集上进行。
所有结果均在零样本设置下计算，其中英语作为高资源训练集语言。
XLM-R（Large）的结果取自XTREME论文[9]。

以下是XTREME基准数据集上的结果（单位：%）

PANX（F1值） bn en hi ml mr ta te ur 平均值
XLM-R（large） 78.8 84.7 73.0 67.8 68.1 59.5 55.8 56.4 68.0
MuRIL（large） 85.8 85.0 78.3 75.6 77.3 71.1 65.6 83.0 77.7

UDPOS（F1值） en hi mr ta te ur 平均值
XLM-R（large） 96.1 76.4 80.8 65.2 86.6 70.3 79.2
MuRIL（large） 95.7 71.3 85.7 62.6 85.8 62.8 77.3

XNLI（准确率） en hi ur 平均值
XLM-R（large） 88.7 75.6 71.7 78.7
MuRIL（large） 88.4 75.8 71.7 78.6

XQUAD（F1值/EM值） en hi 平均值
XLM-R（large） 86.5/75.7 76.7/59.7 81.6/67.7
MuRIL（large） 88.2/77.8 78.4/62.4 83.3/70.1

MLQA（F1值/EM值） en hi 平均值
XLM-R（large） 83.5/70.6 70.6/53.1 77.1/61.9
MuRIL（large） 84.4/71.7 72.2/54.1 78.3/62.9

TyDiQA（F1值/EM值） en bn te 平均值
XLM-R（large） 71.5/56.8 64.0/47.8 70.1/43.6 68.5/49.4
MuRIL（large） 75.9/66.8 67.1/53.1 71.5/49.8 71.5/56.6

微调超参数如下：

任务批大小学习率轮次预热比例
PANX 32 2e-5 10 0.1
UDPOS 64 5e-6 10 0.1
XNLI 128 2e-5 5 0.1
XQuAD 32 3e-5 2 0.1
MLQA 32 3e-5 2 0.1
TyDiQA 32 3e-5 3 0.1

PANX（F1值）	bn	en	hi	ml	mr	ta	te	ur	平均值
XLM-R（large）	78.8	84.7	73.0	67.8	68.1	59.5	55.8	56.4	68.0
MuRIL（large）	85.8	85.0	78.3	75.6	77.3	71.1	65.6	83.0	77.7

UDPOS（F1值）	en	hi	mr	ta	te	ur	平均值
XLM-R（large）	96.1	76.4	80.8	65.2	86.6	70.3	79.2
MuRIL（large）	95.7	71.3	85.7	62.6	85.8	62.8	77.3

XNLI（准确率）	en	hi	ur	平均值
XLM-R（large）	88.7	75.6	71.7	78.7
MuRIL（large）	88.4	75.8	71.7	78.6

XQUAD（F1值/EM值）	en	hi	平均值
XLM-R（large）	86.5/75.7	76.7/59.7	81.6/67.7
MuRIL（large）	88.2/77.8	78.4/62.4	83.3/70.1

MLQA（F1值/EM值）	en	hi	平均值
XLM-R（large）	83.5/70.6	70.6/53.1	77.1/61.9
MuRIL（large）	84.4/71.7	72.2/54.1	78.3/62.9

TyDiQA（F1值/EM值）	en	bn	te	平均值
XLM-R（large）	71.5/56.8	64.0/47.8	70.1/43.6	68.5/49.4
MuRIL（large）	75.9/66.8	67.1/53.1	71.5/49.8	71.5/56.6

任务	批大小	学习率	轮次	预热比例
PANX	32	2e-5	10	0.1
UDPOS	64	5e-6	10	0.1
XNLI	128	2e-5	5	0.1
XQuAD	32	3e-5	2	0.1
MLQA	32	3e-5	2	0.1
TyDiQA	32	3e-5	3	0.1

参考文献

[1]: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv预印本 arXiv:1810.04805, 2018.

[2]: 维基百科

[3]: Common Crawl

[4]: PMINDIA

[5]: Dakshina

[6]: 阿萨姆语 (as)、孟加拉语 (bn)、英语 (en)、古吉拉特语 (gu)、印地语 (hi)、卡纳达语 (kn)、克什米尔语 (ks)、马拉雅拉姆语 (ml)、马拉地语 (mr)、尼泊尔语 (ne)、奥里亚语 (or)、旁遮普语 (pa)、梵语 (sa)、信德语 (sd)、泰米尔语 (ta)、泰卢固语 (te) 和乌尔都语 (ur)。

[7]: Conneau, Alexis, et al. Unsupervised cross-lingual representation learning at scale. arXiv预印本 arXiv:1911.02116 (2019).

[8]: IndicTrans

[9]: Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). XTREME: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization. arXiv预印本 arXiv:2003.11080.

[10]: Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding. arXiv预印本 arXiv:2009.05166.

引用

如果您发现MuRIL在您的应用中有用，请引用以下论文：

@misc{khanuja2021muril,
      title={MuRIL: Multilingual Representations for Indian Languages},
      author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
      year={2021},
      eprint={2103.10730},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

联系方式

如有任何疑问或反馈，请发送邮件至 muril-contact@google.com。