deberta_v3_base:可用于自然语言理解任务的模型训练与微调，支持SQuAD、MNLI等任务。基于PyTorch-NPU，集成DeBERTaV3_base模型，具备NPU支持，提升下游任务性能。【此简介由AI生成】

DeBERTaV3：通过ELECTRA风格预训练与梯度解耦嵌入共享改进DeBERTa

DeBERTa利用解耦注意力机制和增强的掩码解码器对BERT和RoBERTa模型进行了改进。凭借这两项改进，在80GB的训练数据下，DeBERTa在大多数自然语言理解（NLU）任务上的表现均优于RoBERTa。

在DeBERTa V3中，我们通过采用ELECTRA风格的预训练方法并结合梯度解耦嵌入共享技术，进一步提升了DeBERTa的效率。与DeBERTa相比，我们的V3版本在下游任务上的模型性能得到了显著提升。您可以从我们的论文中找到有关新模型的更多技术细节。

有关更多实现细节和更新，请查看官方仓库。

DeBERTa V3基础模型包含12层，隐藏层大小为768。其骨干网络参数仅为8600万，词汇表包含128K个 token，这使得嵌入层引入了9800万参数。该模型使用与DeBERTa V2相同的160GB数据进行训练。

修改

修改pipeline_tag和frameworks
添加npu支持

在NLU任务上的微调

我们展示了在SQuAD 2.0和MNLI任务上的开发集结果。

模型	词汇表大小(K)	骨干网络参数数量(M)	SQuAD 2.0(F1/EM)	MNLI-m/mm(准确率)
RoBERTa-base	50	86	83.7/80.5	87.6/-
XLNet-base	32	92	-/80.2	86.8/-
ELECTRA-base	30	86	-/80.5	88.8/
DeBERTa-base	50	100	86.2/83.1	88.8/88.5
DeBERTa-v3-base	128	86	88.4/85.4	90.6/90.7
DeBERTa-v3-base + SiFT	128	86	-/-	91.0/-

我们展示了在SQuAD 1.1/2.0和MNLI任务上的开发集结果。

引用

如果您发现DeBERTa对您的工作有所帮助，请引用以下论文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}