HuggingFace镜像/bert_uncased_L-12_H-768_A-12
模型介绍文件和版本分析
下载使用量0

BERT 微型模型

这里是 24 个 BERT 模型的集合,相关参考见于论文《Well-Read Students Learn Better: On the Importance of Pre-training Compact Models》(仅英语,不区分大小写,使用 WordPiece 掩码训练)。

我们已证明,标准的 BERT 方案(包括模型架构和训练目标)在除 BERT-Base 和 BERT-Large 之外的多种模型规模上均有效。较小的 BERT 模型旨在用于计算资源受限的环境。它们可以采用与原始 BERT 模型相同的方式进行微调。不过,在知识蒸馏场景下,它们能发挥最大效用——此时微调标签由更大、更精确的教师模型生成。

我们的目标是为计算资源较少的机构开展研究提供支持,并鼓励社区探索除增加模型容量之外的创新方向。

您可以通过 BERT 官方 Github 页面 或下方 HuggingFace 链接下载这 24 个 BERT 微型模型:

H=128H=256H=512H=768
L=2[2/128 (BERT-Tiny)][2_128][2/256][2_256][2/512][2_512][2/768][2_768]
L=4[4/128][4_128][4/256 (BERT-Mini)][4_256][4/512 (BERT-Small)][4_512][4/768][4_768]
L=6[6/128][6_128][6/256][6_256][6/512][6_512][6/768][6_768]
L=8[8/128][8_128][8/256][8_256][8/512 (BERT-Medium)][8_512][8/768][8_768]
L=10[10/128][10_128][10/256][10_256][10/512][10_512][10/768][10_768]
L=12[12/128][12_128][12/256][12_256][12/512][12_512][12/768 (BERT-Base)][12_768]

请注意,本版本中包含的 BERT-Base 模型仅为完整性考虑;它是在与原始模型相同的训练机制下重新训练的。

以下是在测试集上相应的 GLUE 分数:

模型总分CoLASST-2MRPCSTS-BQQPMNLI-mMNLI-mmQNLI(v2)RTEWNLIAX
BERT-Tiny64.20.083.281.1/71.174.3/73.662.2/83.470.270.381.557.262.321.0
BERT-Mini65.80.085.981.1/71.875.4/73.366.4/86.274.874.384.157.962.326.1
BERT-Small71.227.889.783.4/76.278.8/77.068.1/87.077.677.086.461.862.328.6
BERT-Medium73.538.089.686.6/81.680.4/78.469.6/87.980.079.187.762.262.330.5

对于每个任务,我们从以下列表中选择最佳的微调超参数,并训练 4 个 epoch:

  • 批大小:8、16、32、64、128
  • 学习率:3e-4、1e-4、5e-5、3e-5

如果您使用这些模型,请引用以下论文:

@article{turc2019,
  title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models},
  author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
  journal={arXiv preprint arXiv:1908.08962v2 },
  year={2019}
}