DeBERTa利用解耦注意力机制和增强的掩码解码器对BERT和RoBERTa模型进行了改进。凭借这两项改进,在80GB的训练数据下,DeBERTa在大多数自然语言理解(NLU)任务上的表现均优于RoBERTa。
在DeBERTa V3中,我们通过采用ELECTRA风格的预训练方法并结合梯度解耦嵌入共享技术,进一步提升了DeBERTa的效率。与DeBERTa相比,我们的V3版本在下游任务上的模型性能得到了显著提升。您可以从我们的论文中找到有关新模型的更多技术细节。
有关更多实现细节和更新,请查看官方仓库。
DeBERTa V3基础模型包含12层,隐藏层大小为768。其骨干网络参数仅为8600万,词汇表包含128K个 token,这使得嵌入层引入了9800万参数。该模型使用与DeBERTa V2相同的160GB数据进行训练。
我们展示了在SQuAD 2.0和MNLI任务上的开发集结果。
| 模型 | 词汇表大小(K) | 骨干网络参数数量(M) | SQuAD 2.0(F1/EM) | MNLI-m/mm(准确率) |
|---|---|---|---|---|
| RoBERTa-base | 50 | 86 | 83.7/80.5 | 87.6/- |
| XLNet-base | 32 | 92 | -/80.2 | 86.8/- |
| ELECTRA-base | 30 | 86 | -/80.5 | 88.8/ |
| DeBERTa-base | 50 | 100 | 86.2/83.1 | 88.8/88.5 |
| DeBERTa-v3-base | 128 | 86 | 88.4/85.4 | 90.6/90.7 |
| DeBERTa-v3-base + SiFT | 128 | 86 | -/- | 91.0/- |
我们展示了在SQuAD 1.1/2.0和MNLI任务上的开发集结果。
如果您发现DeBERTa对您的工作有所帮助,请引用以下论文:
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}