BERT 微型模型

这里是 24 个 BERT 模型的集合，相关参考见于论文《Well-Read Students Learn Better: On the Importance of Pre-training Compact Models》（仅英语，不区分大小写，使用 WordPiece 掩码训练）。

我们已证明，标准的 BERT 方案（包括模型架构和训练目标）在除 BERT-Base 和 BERT-Large 之外的多种模型规模上均有效。较小的 BERT 模型旨在用于计算资源受限的环境。它们可以采用与原始 BERT 模型相同的方式进行微调。不过，在知识蒸馏场景下，它们能发挥最大效用——此时微调标签由更大、更精确的教师模型生成。

我们的目标是为计算资源较少的机构开展研究提供支持，并鼓励社区探索除增加模型容量之外的创新方向。

您可以通过 BERT 官方 Github 页面或下方 HuggingFace 链接下载这 24 个 BERT 微型模型：

	H=128	H=256	H=512	H=768
L=2	[2/128 (BERT-Tiny)][2_128]	[2/256][2_256]	[2/512][2_512]	[2/768][2_768]
L=4	[4/128][4_128]	[4/256 (BERT-Mini)][4_256]	[4/512 (BERT-Small)][4_512]	[4/768][4_768]
L=6	[6/128][6_128]	[6/256][6_256]	[6/512][6_512]	[6/768][6_768]
L=8	[8/128][8_128]	[8/256][8_256]	[8/512 (BERT-Medium)][8_512]	[8/768][8_768]
L=10	[10/128][10_128]	[10/256][10_256]	[10/512][10_512]	[10/768][10_768]
L=12	[12/128][12_128]	[12/256][12_256]	[12/512][12_512]	[12/768 (BERT-Base)][12_768]

请注意，本版本中包含的 BERT-Base 模型仅为完整性考虑；它是在与原始模型相同的训练机制下重新训练的。

以下是在测试集上相应的 GLUE 分数：

模型	总分	CoLA	SST-2	MRPC	STS-B	QQP	MNLI-m	MNLI-mm	QNLI(v2)	RTE	WNLI	AX
BERT-Tiny	64.2	0.0	83.2	81.1/71.1	74.3/73.6	62.2/83.4	70.2	70.3	81.5	57.2	62.3	21.0
BERT-Mini	65.8	0.0	85.9	81.1/71.8	75.4/73.3	66.4/86.2	74.8	74.3	84.1	57.9	62.3	26.1
BERT-Small	71.2	27.8	89.7	83.4/76.2	78.8/77.0	68.1/87.0	77.6	77.0	86.4	61.8	62.3	28.6
BERT-Medium	73.5	38.0	89.6	86.6/81.6	80.4/78.4	69.6/87.9	80.0	79.1	87.7	62.2	62.3	30.5

对于每个任务，我们从以下列表中选择最佳的微调超参数，并训练 4 个 epoch：

批大小：8、16、32、64、128
学习率：3e-4、1e-4、5e-5、3e-5

如果您使用这些模型，请引用以下论文：

@article{turc2019,
  title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models},
  author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
  journal={arXiv preprint arXiv:1908.08962v2 },
  year={2019}
}