RemBERT（用于分类）

基于 110 种语言、通过掩码语言模型（MLM）目标预训练的 RemBERT 模型。该模型在论文《Rethinking embedding coupling in pre-trained language models》中被首次提出。模型 checkpoint 的直接导出最初在[this repository]中提供。此版本的 checkpoint 更为轻量，因为它旨在针对分类任务进行微调，并且不包含输出嵌入权重。

模型说明

RemBERT 与 mBERT 的主要区别在于其输入嵌入和输出嵌入是不绑定的。相反，RemBERT 使用较小的输入嵌入和较大的输出嵌入。这使得模型效率更高，因为在微调过程中输出嵌入会被舍弃。它的准确性也更高，尤其是在将输入嵌入的参数重新投入到核心模型中时，正如在 RemBERT 上所做的那样。

预期用途和局限性

您应该针对您的下游任务微调此模型。它旨在成为一个通用模型，类似于 mBERT。在我们的[paper]中，我们已成功将此模型应用于分类、问答、命名实体识别（NER）、词性标注（POS-tagging）等任务。对于文本生成等任务，您应考虑 GPT2 等模型。

训练数据

RemBERT 模型是在涵盖 110 种语言的多语言维基百科数据上进行预训练的。完整的语言列表可在[this repository]中找到。

BibTeX 条目和引用信息

@inproceedings{DBLP:conf/iclr/ChungFTJR21,
  author    = {Hyung Won Chung and
               Thibault F{\'{e}}vry and
               Henry Tsai and
               Melvin Johnson and
               Sebastian Ruder},
  title     = {Rethinking Embedding Coupling in Pre-trained Language Models},
  booktitle = {9th International Conference on Learning Representations, {ICLR} 2021,
               Virtual Event, Austria, May 3-7, 2021},
  publisher = {OpenReview.net},
  year      = {2021},
  url       = {https://openreview.net/forum?id=xpFFI\_NtgpW},
  timestamp = {Wed, 23 Jun 2021 17:36:39 +0200},
  biburl    = {https://dblp.org/rec/conf/iclr/ChungFTJR21.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

RemBERT（用于分类）

模型说明

预期用途和局限性

训练数据

RemBERT 模型是在涵盖 110 种语言的多语言维基百科数据上进行预训练的。完整的语言列表可在[this repository]中找到。

BibTeX 条目和引用信息

@inproceedings{DBLP:conf/iclr/ChungFTJR21,
  author    = {Hyung Won Chung and
               Thibault F{\'{e}}vry and
               Henry Tsai and
               Melvin Johnson and
               Sebastian Ruder},
  title     = {Rethinking Embedding Coupling in Pre-trained Language Models},
  booktitle = {9th International Conference on Learning Representations, {ICLR} 2021,
               Virtual Event, Austria, May 3-7, 2021},
  publisher = {OpenReview.net},
  year      = {2021},
  url       = {https://openreview.net/forum?id=xpFFI\_NtgpW},
  timestamp = {Wed, 23 Jun 2021 17:36:39 +0200},
  biburl    = {https://dblp.org/rec/conf/iclr/ChungFTJR21.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}