善于处理NLU任务,采用全词掩码的,中文版的0.97亿参数DeBERTa-v2-Base。
擅长解决自然语言理解(NLU)任务,采用全词掩码(Whole Word Masking)技术,是具有9700万参数的中文DeBERTa-v2-Base模型。
| 需求 Demand | 任务 Task | 系列 Series | 模型 Model | 参数 Parameter | 额外 Extra |
|---|---|---|---|---|---|
| 通用 General | 自然语言理解 NLU | 二郎神 Erlangshen | DeBERTa-v2 | 97M | 中文 Chinese |
为了得到一个中文版的DeBERTa-v2-Base(97M),我们用悟道语料库(180G版本)进行预训练。我们在MLM中使用了全词掩码(wwm)的方式。具体地,我们在预训练阶段中使用了封神框架大概花费了24张A100约7天。
为了获得中文版的DeBERTa-v2-Base(97M),我们使用悟道语料库(180G版本)对其进行预训练。在掩码语言模型(MLM)训练中,我们采用了全词掩码(WWM)方法。具体而言,预训练阶段使用封神框架,在24张A100显卡上大约花费了7天时间。
使用
from transformers import AutoModelForMaskedLM, AutoTokenizer, FillMaskPipeline
from openmind_hub import snapshot_download
import torch
import argparse
def parse_args():
parser = argparse.ArgumentParser()
parser.add_argument(
"--model_name_or_path",
type=str,
help="",
default="Jinan_AICC/Erlangshen-DeBERTa-v2-97M-Chinese",
)
args = parser.parse_args()
return args
args = parse_args()
if args.model_name_or_path:
modelname = args.model_name_or_path
else:
modelname = snapshot_download(
"Jinan_AICC/Erlangshen-DeBERTa-v2-97M-Chinese",
revision="main",
ignore_patterns=["*.h5", "*.ot", "*.msgpack"],
)
tokenizer=AutoTokenizer.from_pretrained(modelname, use_fast=False)
model=AutoModelForMaskedLM.from_pretrained(modelname)
text = '生活的真谛是[MASK]。'
fillmask_pipe = FillMaskPipeline(model, tokenizer, device=0)
print(fillmask_pipe(text, top_k=10))