这是在《Well-Read Students Learn Better: On the Importance of Pre-training Compact Models》(仅英语,不区分大小写,使用 WordPiece 掩码训练)中引用的 24 个 BERT 模型集合。
我们已经证明,标准的 BERT 方案(包括模型架构和训练目标)在各种模型规模上都有效,不仅仅限于 BERT-Base 和 BERT-Large。较小的 BERT 模型旨在用于计算资源受限的环境。它们可以按照与原始 BERT 模型相同的方式进行微调。然而,它们在知识蒸馏的场景中最为有效,其中微调标签由更大、更准确的教师模型生成。
我们的目标是为计算资源较少的机构开展研究提供支持,并鼓励社区探索除了增加模型容量之外的创新方向。
您可以从 官方 BERT Github 页面 或通过 HuggingFace 从以下链接下载这 24 个 BERT 小型模型:
| H=128 | H=256 | H=512 | H=768 | |
|---|---|---|---|---|
| L=2 | [2/128 (BERT-Tiny)][2_128] | [2/256][2_256] | [2/512][2_512] | [2/768][2_768] |
| L=4 | [4/128][4_128] | [4/256 (BERT-Mini)][4_256] | [4/512 (BERT-Small)][4_512] | [4/768][4_768] |
| L=6 | [6/128][6_128] | [6/256][6_256] | [6/512][6_512] | [6/768][6_768] |
| L=8 | [8/128][8_128] | [8/256][8_256] | [8/512 (BERT-Medium)][8_512] | [8/768][8_768] |
| L=10 | [10/128][10_128] | [10/256][10_256] | [10/512][10_512] | [10/768][10_768] |
| L=12 | [12/128][12_128] | [12/256][12_256] | [12/512][12_512] | [12/768 (BERT-Base)][12_768] |
请注意,此版本中包含的 BERT-Base 模型仅为完整性考虑;它是在与原始模型相同的机制下重新训练的。
以下是在测试集上相应的 GLUE 分数:
| 模型 | Score | CoLA | SST-2 | MRPC | STS-B | QQP | MNLI-m | MNLI-mm | QNLI(v2) | RTE | WNLI | AX |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| BERT-Tiny | 64.2 | 0.0 | 83.2 | 81.1/71.1 | 74.3/73.6 | 62.2/83.4 | 70.2 | 70.3 | 81.5 | 57.2 | 62.3 | 21.0 |
| BERT-Mini | 65.8 | 0.0 | 85.9 | 81.1/71.8 | 75.4/73.3 | 66.4/86.2 | 74.8 | 74.3 | 84.1 | 57.9 | 62.3 | 26.1 |
| BERT-Small | 71.2 | 27.8 | 89.7 | 83.4/76.2 | 78.8/77.0 | 68.1/87.0 | 77.6 | 77.0 | 86.4 | 61.8 | 62.3 | 28.6 |
| BERT-Medium | 73.5 | 38.0 | 89.6 | 86.6/81.6 | 80.4/78.4 | 69.6/87.9 | 80.0 | 79.1 | 87.7 | 62.2 | 62.3 | 30.5 |
对于每个任务,我们从以下列表中选择了最佳的微调超参数,并训练了 4 个 epoch:
如果您使用这些模型,请引用以下论文:
@article{turc2019,
title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models},
author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
journal={arXiv preprint arXiv:1908.08962v2 },
year={2019}
}