deberta_v2_xlarge:可用于自然语言理解任务，如文本填充、问答及GLUE基准测试等。该项目是DeBERTa V2 xlarge模型，含24层、1536隐藏大小，9亿参数，经160GB数据训练，支持NPU，在多项NLU任务上性能优于BERT等模型。【此简介由AI生成】

DeBERTa：具备解耦注意力机制的解码增强型BERT

DeBERTa 通过解耦注意力机制和增强掩码解码器对 BERT 和 RoBERTa 模型进行了改进。在 80GB 训练数据的支持下，它在大多数自然语言理解（NLU）任务上的表现均优于 BERT 和 RoBERTa。

更多详细信息和更新，请查看官方仓库。

本模型为 DeBERTa V2 xlarge，包含 24 层，隐藏层大小为 1536。总参数数量为 9 亿，训练所用原始数据量为 160GB。

修改内容

修改了 pipeline_tag 和框架信息
增加了 NPU 支持

在 NLU 任务上的微调

我们展示了在 SQuAD 1.1/2.0 以及多个 GLUE 基准任务上的开发集结果。

模型	SQuAD 1.1	SQuAD 2.0	MNLI-m/mm	SST-2	QNLI	CoLA	RTE	MRPC	QQP	STS-B
	F1/EM	F1/EM	Acc	Acc	Acc	MCC	Acc	Acc/F1	Acc/F1	P/S
BERT-Large	90.9/84.1	81.8/79.0	86.6/-	93.2	92.3	60.6	70.4	88.0/-	91.3/-	90.0/-
RoBERTa-Large	94.6/88.9	89.4/86.5	90.2/-	96.4	93.9	68.0	86.6	90.9/-	92.2/-	92.4/-
XLNet-Large	95.1/89.7	90.6/87.9	90.8/-	97.0	94.9	69.0	85.9	90.8/-	92.3/-	92.5/-
DeBERTa-Large	95.5/90.1	90.7/88.0	91.3/91.1	96.5	95.3	69.5	91.0	92.6/94.6	92.3/-	92.8/92.5
DeBERTa-XLarge	-/-	-/-	91.5/91.2	97.0	-	-	93.1	92.1/94.3	-	92.9/92.7
DeBERTa-V2-XLarge	95.8/90.8	91.4/88.9	91.7/91.6	97.5	95.8	71.1	93.9	92.0/94.2	92.3/89.8	92.9/92.9
DeBERTa-V2-XXLarge	96.1/91.4	92.2/89.7	91.7/91.9	97.2	96.0	72.0	93.5	93.1/94.9	92.7/90.3	93.2/93.1

引用

如果您发现 DeBERTa 对您的工作有所帮助，请引用以下论文：

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}