MuRIL：印度语言的多语言表示

MuRIL 是一款 BERT 模型，针对 17 种印度语言及其音译文本进行了预训练。我们已在此代码库中发布了预训练模型（保留了 MLM 层，可进行掩码词预测）。我们还在 TFHub 上发布了编码器，并附带一个额外的预处理模块，该模块可将原始文本处理为编码器所需的输入格式。有关 MuRIL 的更多详细信息，请参阅此论文。

概述

本模型采用 BERT base 架构 [1]，使用 17 种 [6] 印度语言的 Wikipedia [2]、Common Crawl [3]、PMINDIA [4] 和 Dakshina [5] 语料库从头开始预训练。

我们采用与多语言 BERT 类似的训练范式，但做了一些修改，具体如下：

我们在训练中还纳入了翻译和音译的文本段对。
我们将上采样的指数值设为 0.3 而非 0.7，这被证明可以提升低资源语言的性能。[7]

更多详情请参见训练部分。

训练

MuRIL 模型在单语文本段和并行文本段上进行预训练，具体如下：

单语数据：我们利用了 17 种印度语言的 Wikipedia 和 Common Crawl 公开语料库。
并行数据：我们有两种类型的并行数据：
- 翻译数据：我们使用 Google NMT 管道对上述单语语料库进行翻译。我们将翻译后的文本段对作为输入。我们还利用了公开可用的 PMINDIA 语料库。
- 音译数据：我们使用 IndicTrans [8] 库对 Wikipedia 文本进行音译。我们将音译后的文本段对作为输入。我们还利用了公开可用的 Dakshina 数据集。

我们使用 0.3 的指数值来计算低资源语言上采样的重复倍数，并相应地设置重复因子。请注意，我们将音译对仅限于 Wikipedia。

该模型通过自监督的掩码语言建模任务进行训练。我们采用全词掩码，最多进行 80 次预测。模型训练了 1000K 步，批处理大小为 4096，最大序列长度为 512。

可训练参数

模块中的所有参数均可训练，建议对所有参数进行微调。

用途与局限性

该模型旨在用于多种印度语言的下游自然语言处理任务。此模型同样在音译数据上进行了训练，这是印度语境中常见的现象。除预训练时使用的17种印度语言外，预计该模型在其他语言上的表现不佳。

评估

我们提供了该模型在一系列下游任务上的微调结果。
这些任务选自XTREME基准，评估在印度语言测试集上进行。
我们还对测试集进行了音译，并在音译后的测试集上进行了评估。
我们使用与[9]相同的微调设置，但在TyDiQA任务中，我们使用了额外的SQuAD v1.1英文训练数据，与[10]类似。
对于Tatoeba任务，我们不微调模型，而是使用最后一层的pooled_output作为句子嵌入。
所有结果均在零样本设置下计算，其中英语作为高资源训练集语言。

以下是XTREME基准数据集上的结果（以%为单位）

PANX（F1值） ml ta te en bn hi mr ur 平均值
mBERT 54.77 51.24 50.16 84.40 68.59 65.13 58.44 31.36 58.01
MuRIL 75.74 71.86 64.99 84.43 85.97 78.09 74.63 85.07 77.60

UDPOS（F1值） en hi mr ta te ur 平均值
mBERT 95.35 66.09 71.27 59.58 76.98 57.85 71.19
MuRIL 95.55 64.47 82.95 62.57 85.63 58.93 75.02

XNLI（准确率） en hi ur 平均值
mBERT 81.72 60.52 58.20 66.81
MuRIL 83.85 70.66 67.70 74.07

Tatoeba（准确率） ml ta te bn hi mr ur 平均值
mBERT 20.23 12.38 14.96 12.80 27.80 18.00 22.70 18.41
MuRIL 26.35 36.81 17.52 20.20 31.50 26.60 17.10 25.15

XQUAD（F1值/EM值） en hi 平均值
mBERT 83.85/72.86 58.46/43.53 71.15/58.19
MuRIL 84.31/72.94 73.93/58.32 79.12/65.63

MLQA（F1值/EM值） en hi 平均值
mBERT 80.39/67.30 50.28/35.18 65.34/51.24
MuRIL 80.28/67.37 67.34/50.22 73.81/58.80

TyDiQA（F1值/EM值） en bn te 平均值
mBERT 75.21/65.00 60.62/45.13 53.55/44.54 63.13/51.66
MuRIL 74.10/64.55 78.03/66.37 73.95/46.94 75.36/59.28
以下是上述测试集音译版本的结果。

PANX（F1值） ml_tr ta_tr te_tr bn_tr hi_tr mr_tr ur_tr 平均值
mBERT 7.53 1.04 8.24 41.77 25.46 8.34 7.30 14.24
MuRIL 63.39 7.00 53.62 72.94 69.75 68.77 68.41 57.70

UDPOS（F1值） hi_tr mr_tr ta_tr te_tr ur_tr 平均值
mBERT 25.00 33.67 24.02 36.21 22.07 28.20
MuRIL 63.09 67.19 58.40 65.30 56.49 62.09

XNLI（准确率） hi_tr ur_tr 平均值
mBERT 39.6 38.86 39.23
MuRIL 68.24 61.16 64.70

Tatoeba（准确率） ml_tr ta_tr te_tr bn_tr hi_tr mr_tr ur_tr 平均值
mBERT 2.18 1.95 5.13 1.80 3.00 2.40 2.30 2.68
MuRIL 10.33 11.07 11.54 8.10 14.90 7.20 13.70 10.98

PANX（F1值）	ml	ta	te	en	bn	hi	mr	ur	平均值
mBERT	54.77	51.24	50.16	84.40	68.59	65.13	58.44	31.36	58.01
MuRIL	75.74	71.86	64.99	84.43	85.97	78.09	74.63	85.07	77.60

UDPOS（F1值）	en	hi	mr	ta	te	ur	平均值
mBERT	95.35	66.09	71.27	59.58	76.98	57.85	71.19
MuRIL	95.55	64.47	82.95	62.57	85.63	58.93	75.02

XNLI（准确率）	en	hi	ur	平均值
mBERT	81.72	60.52	58.20	66.81
MuRIL	83.85	70.66	67.70	74.07

Tatoeba（准确率）	ml	ta	te	bn	hi	mr	ur	平均值
mBERT	20.23	12.38	14.96	12.80	27.80	18.00	22.70	18.41
MuRIL	26.35	36.81	17.52	20.20	31.50	26.60	17.10	25.15

XQUAD（F1值/EM值）	en	hi	平均值
mBERT	83.85/72.86	58.46/43.53	71.15/58.19
MuRIL	84.31/72.94	73.93/58.32	79.12/65.63

MLQA（F1值/EM值）	en	hi	平均值
mBERT	80.39/67.30	50.28/35.18	65.34/51.24
MuRIL	80.28/67.37	67.34/50.22	73.81/58.80

TyDiQA（F1值/EM值）	en	bn	te	平均值
mBERT	75.21/65.00	60.62/45.13	53.55/44.54	63.13/51.66
MuRIL	74.10/64.55	78.03/66.37	73.95/46.94	75.36/59.28

PANX（F1值）	ml_tr	ta_tr	te_tr	bn_tr	hi_tr	mr_tr	ur_tr	平均值
mBERT	7.53	1.04	8.24	41.77	25.46	8.34	7.30	14.24
MuRIL	63.39	7.00	53.62	72.94	69.75	68.77	68.41	57.70

UDPOS（F1值）	hi_tr	mr_tr	ta_tr	te_tr	ur_tr	平均值
mBERT	25.00	33.67	24.02	36.21	22.07	28.20
MuRIL	63.09	67.19	58.40	65.30	56.49	62.09

XNLI（准确率）	hi_tr	ur_tr	平均值
mBERT	39.6	38.86	39.23
MuRIL	68.24	61.16	64.70

Tatoeba（准确率）	ml_tr	ta_tr	te_tr	bn_tr	hi_tr	mr_tr	ur_tr	平均值
mBERT	2.18	1.95	5.13	1.80	3.00	2.40	2.30	2.68
MuRIL	10.33	11.07	11.54	8.10	14.90	7.20	13.70	10.98

参考文献

[1]: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv 预印本 arXiv:1810.04805, 2018.

[2]: 维基百科

[3]: Common Crawl

[4]: PMINDIA

[5]: Dakshina

[6]: 阿萨姆语 (as)、孟加拉语 (bn)、英语 (en)、古吉拉特语 (gu)、印地语 (hi)、卡纳达语 (kn)、克什米尔语 (ks)、马拉雅拉姆语 (ml)、马拉地语 (mr)、尼泊尔语 (ne)、奥里亚语 (or)、旁遮普语 (pa)、梵语 (sa)、信德语 (sd)、泰米尔语 (ta)、泰卢固语 (te) 和乌尔都语 (ur)。

[7]: Conneau, Alexis, et al. Unsupervised cross-lingual representation learning at scale. arXiv 预印本 arXiv:1911.02116 (2019).

[8]: IndicTrans

[9]: Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization. arXiv 预印本 arXiv:2003.11080.

[10]: Fang, Y., Wang, S., Gan, Z., Sun, S., & Liu, J. (2020). FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding. arXiv 预印本 arXiv:2009.05166.

引用

如果您发现 MuRIL 在您的应用中有用，请引用以下论文：

@misc{khanuja2021muril,
      title={MuRIL: Multilingual Representations for Indian Languages},
      author={Simran Khanuja and Diksha Bansal and Sarvesh Mehtani and Savya Khosla and Atreyee Dey and Balaji Gopalan and Dilip Kumar Margam and Pooja Aggarwal and Rajiv Teja Nagipogu and Shachi Dave and Shruti Gupta and Subhash Chandra Bose Gali and Vish Subramanian and Partha Talukdar},
      year={2021},
      eprint={2103.10730},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

联系方式

如有任何疑问或反馈，请发送邮件至 muril-contact@google.com。