基于 110 种语言、通过掩码语言模型(MLM)目标预训练的 RemBERT 模型。该模型在论文《Rethinking embedding coupling in pre-trained language models》中被首次提出。模型 checkpoint 的直接导出最初在[this repository]中提供。此版本的 checkpoint 更为轻量,因为它旨在针对分类任务进行微调,并且不包含输出嵌入权重。
RemBERT 与 mBERT 的主要区别在于其输入嵌入和输出嵌入是不绑定的。相反,RemBERT 使用较小的输入嵌入和较大的输出嵌入。这使得模型效率更高,因为在微调过程中输出嵌入会被舍弃。它的准确性也更高,尤其是在将输入嵌入的参数重新投入到核心模型中时,正如在 RemBERT 上所做的那样。
您应该针对您的下游任务微调此模型。它旨在成为一个通用模型,类似于 mBERT。在我们的[paper]中,我们已成功将此模型应用于分类、问答、命名实体识别(NER)、词性标注(POS-tagging)等任务。对于文本生成等任务,您应考虑 GPT2 等模型。
RemBERT 模型是在涵盖 110 种语言的多语言维基百科数据上进行预训练的。完整的语言列表可在[this repository]中找到。
@inproceedings{DBLP:conf/iclr/ChungFTJR21,
author = {Hyung Won Chung and
Thibault F{\'{e}}vry and
Henry Tsai and
Melvin Johnson and
Sebastian Ruder},
title = {Rethinking Embedding Coupling in Pre-trained Language Models},
booktitle = {9th International Conference on Learning Representations, {ICLR} 2021,
Virtual Event, Austria, May 3-7, 2021},
publisher = {OpenReview.net},
year = {2021},
url = {https://openreview.net/forum?id=xpFFI\_NtgpW},
timestamp = {Wed, 23 Jun 2021 17:36:39 +0200},
biburl = {https://dblp.org/rec/conf/iclr/ChungFTJR21.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}