HuggingFace镜像/deberta_v2_xlarge
模型介绍文件和版本分析
下载使用量0

DeBERTa:具备解耦注意力机制的解码增强型BERT

DeBERTa 通过解耦注意力机制和增强掩码解码器对 BERT 和 RoBERTa 模型进行了改进。在 80GB 训练数据的支持下,它在大多数自然语言理解(NLU)任务上的表现均优于 BERT 和 RoBERTa。

更多详细信息和更新,请查看 官方仓库。

本模型为 DeBERTa V2 xlarge,包含 24 层,隐藏层大小为 1536。总参数数量为 9 亿,训练所用原始数据量为 160GB。

修改内容

  • 修改了 pipeline_tag 和框架信息
  • 增加了 NPU 支持

在 NLU 任务上的微调

我们展示了在 SQuAD 1.1/2.0 以及多个 GLUE 基准任务上的开发集结果。

模型SQuAD 1.1SQuAD 2.0MNLI-m/mmSST-2QNLICoLARTEMRPCQQPSTS-B
F1/EMF1/EMAccAccAccMCCAccAcc/F1Acc/F1P/S
BERT-Large90.9/84.181.8/79.086.6/-93.292.360.670.488.0/-91.3/-90.0/-
RoBERTa-Large94.6/88.989.4/86.590.2/-96.493.968.086.690.9/-92.2/-92.4/-
XLNet-Large95.1/89.790.6/87.990.8/-97.094.969.085.990.8/-92.3/-92.5/-
DeBERTa-Large95.5/90.190.7/88.091.3/91.196.595.369.591.092.6/94.692.3/-92.8/92.5
DeBERTa-XLarge-/--/-91.5/91.297.0--93.192.1/94.3-92.9/92.7
DeBERTa-V2-XLarge95.8/90.891.4/88.991.7/91.697.595.871.193.992.0/94.292.3/89.892.9/92.9
DeBERTa-V2-XXLarge96.1/91.492.2/89.791.7/91.997.296.072.093.593.1/94.992.7/90.393.2/93.1

引用

如果您发现 DeBERTa 对您的工作有所帮助,请引用以下论文:

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}