这是一个文本生成(自回归)模型,基于英语 GPT-2(小型),使用 Huggingface transformers 和 fastai 框架构建。
采用逐步解冻层的方式进行微调。对于低资源语言而言,这是一种比从头训练更高效、更具可持续性的替代方案。
本项目借鉴了 Thomas Dehaene(ML6)创建荷兰语 GPT2 的研究成果:https://colab.research.google.com/drive/1Y31tjMkB8TqKKFlZ5OJ9fcMp3p8suvs4?usp=sharing
from openmind import pipeline
model = "SY_AICC/gpt2-finetuned-greek-small"
generator = pipeline(
'text-generation',
device=0,
model=f'{model}',
tokenizer=f'{model}')
text = "Μια φορά κι έναν καιρό"
print("\\\\
".join([x.get("generated_text") for x in generator(
text,
max_length=len(text.split(" "))+15,
do_sample=True,
top_k=50,
repetition_penalty = 1.2,
add_special_tokens=False,
num_return_sequences=5,
temperature=0.95,
top_p=0.95)]))
我们使用了一个小型(约5GB)样本,该样本来自基于CC100、Wikimatrix、Tatoeba、Books、SETIMES和GlobalVoices的综合希腊语语料库。更大的语料库有望提供更好的结果(T0D0)。
本研究工作得到了希腊研究与创新基金会(HFRI)的支持,通过HFRI博士奖学金项目(奖学金编号:50,第二轮申请)提供资助。
本项目基于Thomas Dehaene(ML6)的研究成果:https://blog.ml6.eu/dutch-gpt2-autoregressive-language-modelling-on-a-budget-cff3942dd020