Distilbert 是在预训练阶段通过知识蒸馏创建的,它将 BERT 模型的规模减小了 40%,同时保留了 97% 的语言理解能力。与 Bert 及其他任何基于 Bert 的模型相比,它体积更小,速度更快。