HuggingFace镜像/mdeberta-v3-base-kor-further

mDeBERTa-v3-base-kor-further

💡 以下项目由毕马威韩国创新中心（KPMG Lighthouse Korea）开展。
毕马威韩国创新中心正致力于通过前沿技术的NLP/视觉AI建模，解决金融领域的各类问题。 https://kpmgkr.notion.site/

DeBERTa是什么？

[DeBERTa]通过应用“解耦注意力机制（Disentangled Attention）”与“增强掩码解码器（Enhanced Mask Decoder）”，能够有效地学习单词的位置信息。凭借这一理念，DeBERTa不同于BERT、RoBERTa等模型中使用的绝对位置嵌入方式，而是将单词的相对位置信息表示为可学习的向量来训练模型。其结果是，与BERT、RoBERTa相比，DeBERTa展现出了更优异的性能。
[DeBERTa-v3]版本中，采用了ELECTRA风格的预训练方法，将旧版本使用的掩码语言模型（MLM, Masked Language Model）替换为替换 token 检测任务（RTD, Replaced Token Detection），并应用了梯度解耦嵌入共享（Gradient-Disentangled Embedding Sharing）技术，从而提升了模型训练的效率。
为了利用DeBERTa的架构来学习丰富的韩语数据，mDeBERTa-v3-base-kor-further是在微软发布的mDeBERTa-v3-base基础上，使用约40GB的韩语数据进行额外预训练得到的语言模型。

如何使用

环境要求

pip install transformers
pip install sentencepiece

推理

import torch
import torch_npu
from transformers import AutoModel, AutoTokenizer

device = torch.device('npu:0')
model = AutoModel.from_pretrained("./").to(device)
tokenizer = AutoTokenizer.from_pretrained("./")
sample = 'hello'
inputs = tokenizer(sample, return_tensors='pt', padding=True, truncation=True, max_length=128).to(device)
result = model(**inputs)
print(result)

预训练模型

模型架构与微软发布的mdeberta-v3-base保持一致。

词汇量(千) 主干网络参数(百万) 隐藏层大小层数说明
mdeberta-v3-base-kor-further（与mdeberta-v3-base相同） 250 86 768 12 250K 新SPM词汇

	词汇量(千)	主干网络参数(百万)	隐藏层大小	层数	说明
mdeberta-v3-base-kor-further（与mdeberta-v3-base相同）	250	86	768	12	250K 新SPM词汇

额外预训练详情（MLM任务）

mDeBERTa-v3-base-kor-further是在microsoft/mDeBERTa-v3-base的基础上，针对约40GB的韩语数据，通过MLM任务进行额外预训练得到的。

最大长度学习率批大小训练步数预热步数
mdeberta-v3-base-kor-further 512 2e-5 8 5M 50k

	最大长度	学习率	批大小	训练步数	预热步数
mdeberta-v3-base-kor-further	512	2e-5	8	5M	50k

数据集

모두의 말뭉치（报纸、口语、书面语）、韩语维基百科、国民请愿等约40GB的韩语数据集用于额外的预训练。
- 训练集：1000万行，50亿个标记
- 验证集：200万行，10亿个标记
- 参考）原mDeBERTa-v3与XLM-R一样，使用[cc-100数据集]进行训练，其中韩语数据集大小为54GB。

在NLU任务上的微调 - 基础模型

模型	大小	NSMC（准确率）	Naver NER（F1值）	PAWS（准确率）	KorNLI（准确率）	KorSTS（斯皮尔曼相关系数）	问题对（准确率）	KorQuaD（开发集）（精确匹配/ F1值）	Korean-Hate-Speech（开发集）（F1值）
XLM-Roberta-Base	1.03G	89.03	86.65	82.80	80.23	78.45	93.80	64.70 / 88.94	64.06
mdeberta-base	534M	90.01	87.43	85.55	80.41	82.65	94.06	65.48 / 89.74	62.91
mdeberta-base-kor-further（我们的模型）	534M	90.52	87.87	85.85	80.65	81.90	94.98	66.07 / 90.35	68.16

KPMG Lighthouse KR

引用

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}

mDeBERTa-v3-base-kor-further

💡 以下项目由毕马威韩国创新中心（KPMG Lighthouse Korea）开展。
毕马威韩国创新中心正致力于通过前沿技术的NLP/视觉AI建模，解决金融领域的各类问题。 https://kpmgkr.notion.site/

DeBERTa是什么？

[DeBERTa]通过应用“解耦注意力机制（Disentangled Attention）”与“增强掩码解码器（Enhanced Mask Decoder）”，能够有效地学习单词的位置信息。凭借这一理念，DeBERTa不同于BERT、RoBERTa等模型中使用的绝对位置嵌入方式，而是将单词的相对位置信息表示为可学习的向量来训练模型。其结果是，与BERT、RoBERTa相比，DeBERTa展现出了更优异的性能。
[DeBERTa-v3]版本中，采用了ELECTRA风格的预训练方法，将旧版本使用的掩码语言模型（MLM, Masked Language Model）替换为替换 token 检测任务（RTD, Replaced Token Detection），并应用了梯度解耦嵌入共享（Gradient-Disentangled Embedding Sharing）技术，从而提升了模型训练的效率。
为了利用DeBERTa的架构来学习丰富的韩语数据，mDeBERTa-v3-base-kor-further是在微软发布的mDeBERTa-v3-base基础上，使用约40GB的韩语数据进行额外预训练得到的语言模型。

如何使用

环境要求

pip install transformers
pip install sentencepiece

推理

import torch
import torch_npu
from transformers import AutoModel, AutoTokenizer

device = torch.device('npu:0')
model = AutoModel.from_pretrained("./").to(device)
tokenizer = AutoTokenizer.from_pretrained("./")
sample = 'hello'
inputs = tokenizer(sample, return_tensors='pt', padding=True, truncation=True, max_length=128).to(device)
result = model(**inputs)
print(result)

预训练模型

模型架构与微软发布的mdeberta-v3-base保持一致。

词汇量(千) 主干网络参数(百万) 隐藏层大小层数说明
mdeberta-v3-base-kor-further（与mdeberta-v3-base相同） 250 86 768 12 250K 新SPM词汇

	词汇量(千)	主干网络参数(百万)	隐藏层大小	层数	说明
mdeberta-v3-base-kor-further（与mdeberta-v3-base相同）	250	86	768	12	250K 新SPM词汇

额外预训练详情（MLM任务）

mDeBERTa-v3-base-kor-further是在microsoft/mDeBERTa-v3-base的基础上，针对约40GB的韩语数据，通过MLM任务进行额外预训练得到的。

最大长度学习率批大小训练步数预热步数
mdeberta-v3-base-kor-further 512 2e-5 8 5M 50k

	最大长度	学习率	批大小	训练步数	预热步数
mdeberta-v3-base-kor-further	512	2e-5	8	5M	50k

数据集

모두의 말뭉치（报纸、口语、书面语）、韩语维基百科、国民请愿等约40GB的韩语数据集用于额外的预训练。
- 训练集：1000万行，50亿个标记
- 验证集：200万行，10亿个标记
- 参考）原mDeBERTa-v3与XLM-R一样，使用[cc-100数据集]进行训练，其中韩语数据集大小为54GB。

在NLU任务上的微调 - 基础模型

模型	大小	NSMC（准确率）	Naver NER（F1值）	PAWS（准确率）	KorNLI（准确率）	KorSTS（斯皮尔曼相关系数）	问题对（准确率）	KorQuaD（开发集）（精确匹配/ F1值）	Korean-Hate-Speech（开发集）（F1值）
XLM-Roberta-Base	1.03G	89.03	86.65	82.80	80.23	78.45	93.80	64.70 / 88.94	64.06
mdeberta-base	534M	90.01	87.43	85.55	80.41	82.65	94.06	65.48 / 89.74	62.91
mdeberta-base-kor-further（我们的模型）	534M	90.52	87.87	85.85	80.65	81.90	94.98	66.07 / 90.35	68.16

KPMG Lighthouse KR

引用

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}