HuggingFace镜像/mdeberta-v3-base-kor-further
模型介绍文件和版本分析
下载使用量0

mDeBERTa-v3-base-kor-further

💡 以下项目由毕马威韩国创新中心(KPMG Lighthouse Korea)开展。
毕马威韩国创新中心正致力于通过前沿技术的NLP/视觉AI建模,解决金融领域的各类问题。 https://kpmgkr.notion.site/

DeBERTa是什么?

  • [DeBERTa]通过应用“解耦注意力机制(Disentangled Attention)”与“增强掩码解码器(Enhanced Mask Decoder)”,能够有效地学习单词的位置信息。凭借这一理念,DeBERTa不同于BERT、RoBERTa等模型中使用的绝对位置嵌入方式,而是将单词的相对位置信息表示为可学习的向量来训练模型。其结果是,与BERT、RoBERTa相比,DeBERTa展现出了更优异的性能。
  • [DeBERTa-v3]版本中,采用了ELECTRA风格的预训练方法,将旧版本使用的掩码语言模型(MLM, Masked Language Model)替换为替换 token 检测任务(RTD, Replaced Token Detection),并应用了梯度解耦嵌入共享(Gradient-Disentangled Embedding Sharing)技术,从而提升了模型训练的效率。
  • 为了利用DeBERTa的架构来学习丰富的韩语数据,mDeBERTa-v3-base-kor-further是在微软发布的mDeBERTa-v3-base基础上,使用约40GB的韩语数据进行额外预训练得到的语言模型。

如何使用

  • 环境要求
    pip install transformers
    pip install sentencepiece
  • 推理
    import torch
    import torch_npu
    from transformers import AutoModel, AutoTokenizer
    
    device = torch.device('npu:0')
    model = AutoModel.from_pretrained("./").to(device)
    tokenizer = AutoTokenizer.from_pretrained("./")
    sample = 'hello'
    inputs = tokenizer(sample, return_tensors='pt', padding=True, truncation=True, max_length=128).to(device)
    result = model(**inputs)
    print(result)

预训练模型

  • 模型架构与微软发布的mdeberta-v3-base保持一致。

    词汇量(千)主干网络参数(百万)隐藏层大小层数说明
    mdeberta-v3-base-kor-further(与mdeberta-v3-base相同)2508676812250K 新SPM词汇

额外预训练详情(MLM任务)

  • mDeBERTa-v3-base-kor-further是在microsoft/mDeBERTa-v3-base的基础上,针对约40GB的韩语数据,通过MLM任务进行额外预训练得到的。

    最大长度学习率批大小训练步数预热步数
    mdeberta-v3-base-kor-further5122e-585M50k

数据集

  • 모두의 말뭉치(报纸、口语、书面语)、韩语维基百科、国民请愿等约40GB的韩语数据集用于额外的预训练。
    • 训练集:1000万行,50亿个标记
    • 验证集:200万行,10亿个标记
    • 参考)原mDeBERTa-v3与XLM-R一样,使用[cc-100数据集]进行训练,其中韩语数据集大小为54GB。

在NLU任务上的微调 - 基础模型

模型大小NSMC(准确率)Naver NER(F1值)PAWS(准确率)KorNLI(准确率)KorSTS(斯皮尔曼相关系数)问题对(准确率)KorQuaD(开发集)(精确匹配/ F1值)Korean-Hate-Speech(开发集)(F1值)
XLM-Roberta-Base1.03G89.0386.6582.8080.2378.4593.8064.70 / 88.9464.06
mdeberta-base534M90.0187.4385.5580.4182.6594.0665.48 / 89.7462.91
mdeberta-base-kor-further(我们的模型)534M90.5287.8785.8580.6581.9094.9866.07 / 90.3568.16

KPMG Lighthouse KR

引用

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}