HuggingFace镜像/deberta-v2-xlarge
模型介绍文件和版本分析
下载使用量0

DeBERTa:具备解耦注意力机制的解码增强型BERT

DeBERTa通过解耦注意力机制和增强的掩码解码器对BERT和RoBERTa模型进行了改进。在80GB训练数据的支持下,它在大多数自然语言理解(NLU)任务上的表现均优于BERT和RoBERTa。

更多详细信息和更新,请查阅官方代码库。

本模型为DeBERTa V2 xlarge,包含24层,隐藏层大小为1536。总参数量达9亿,且使用160GB原始数据进行训练。

在NLU任务上的微调

我们展示了在SQuAD 1.1/2.0以及多个GLUE基准任务上的开发集结果。

模型SQuAD 1.1SQuAD 2.0MNLI-m/mmSST-2QNLICoLARTEMRPCQQPSTS-B
F1/EMF1/EMAccAccAccMCCAccAcc/F1Acc/F1P/S
BERT-Large90.9/84.181.8/79.086.6/-93.292.360.670.488.0/-91.3/-90.0/-
RoBERTa-Large94.6/88.989.4/86.590.2/-96.493.968.086.690.9/-92.2/-92.4/-
XLNet-Large95.1/89.790.6/87.990.8/-97.094.969.085.990.8/-92.3/-92.5/-
[DeBERTa-Large]195.5/90.190.7/88.091.3/91.196.595.369.591.092.6/94.692.3/-92.8/92.5
[DeBERTa-XLarge]1-/--/-91.5/91.297.0--93.192.1/94.3-92.9/92.7
[DeBERTa-V2-XLarge]195.8/90.891.4/88.991.7/91.697.595.871.193.992.0/94.292.3/89.892.9/92.9
[DeBERTa-V2-XXLarge]1,296.1/91.492.2/89.791.7/91.997.296.072.093.593.1/94.992.7/90.393.2/93.1

备注

  • 1 遵循RoBERTa的做法,对于RTE、MRPC、STS-B任务,我们基于[DeBERTa-Large-MNLI]、[DeBERTa-XLarge-MNLI]、[DeBERTa-V2-XLarge-MNLI]、[DeBERTa-V2-XXLarge-MNLI]进行微调。当从MNLI微调模型开始时,SST-2/QQP/QNLI/SQuADv2的结果也会略有提升,但对于这4个任务,我们仅报告从预训练基础模型微调得到的数值。
  • 2 若要使用**[HF transformers]** 尝试XXLarge模型,您需要指定**--sharded_ddp**参数。
cd transformers/examples/text-classification/
export TASK_NAME=mrpc
python -m torch.distributed.launch --nproc_per_node=8 run_glue.py   --model_name_or_path microsoft/deberta-v2-xxlarge   \\\\
--task_name $TASK_NAME   --do_train   --do_eval   --max_seq_length 128   --per_device_train_batch_size 4   \\\\
--learning_rate 3e-6   --num_train_epochs 3   --output_dir /tmp/$TASK_NAME/ --overwrite_output_dir --sharded_ddp --fp16

引用

如果您发现 DeBERTa 对您的工作有所帮助,请引用以下论文:

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}