HuggingFace镜像/deberta-base
模型介绍文件和版本分析

DeBERTa:基于解耦注意力机制的解码增强型BERT

DeBERTa 采用解耦注意力机制和增强型掩码解码器,对BERT和RoBERTa模型进行了改进。在80GB训练数据的支持下,它在大多数自然语言理解(NLU)任务上的表现均优于BERT和RoBERTa。

更多详细信息和更新,请查阅官方代码库。

在NLU任务上的微调

我们展示了在SQuAD 1.1/2.0和MNLI任务上的开发集结果。

模型SQuAD 1.1SQuAD 2.0MNLI-m
RoBERTa-base91.5/84.683.7/80.587.6
XLNet-Large-/--/80.286.8
DeBERTa-base93.1/87.286.2/83.188.8

引用

如果您发现DeBERTa对您的工作有所帮助,请引用以下论文:

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}
下载使用量0