希腊语（el）GPT2 模型 - 小型

已推出在 5 倍数据量上训练的新版本（推荐使用），获取地址：https://modelers.cn/models/SY_AICC/gpt2-finetuned-greek-small

由希腊陆军学院（SSE）与克里特技术大学（TUC）联合开发

语言：el
许可证：apache-2.0
数据集：约 5GB 的希腊语语料库
模型：GPT2（12 层，768 隐藏维度，12 头注意力机制，1.17 亿参数。基于 OpenAI GPT-2 英语模型，针对希腊语进行微调）
预处理：分词 + BPE 切分

模型说明

这是一个文本生成（自回归）模型，基于英语 GPT-2（小型），使用 Huggingface transformers 和 fastai 框架构建。

采用逐步解冻层的方式进行微调。对于低资源语言而言，这是一种比从头训练更高效、更具可持续性的替代方案。

本项目借鉴了 Thomas Dehaene（ML6）创建荷兰语 GPT2 的研究成果：https://colab.research.google.com/drive/1Y31tjMkB8TqKKFlZ5OJ9fcMp3p8suvs4?usp=sharing

使用方法

from openmind import pipeline
model = "SY_AICC/gpt2-finetuned-greek-small"
generator = pipeline(
    'text-generation',
    device=0,
    model=f'{model}',
    tokenizer=f'{model}')
    
text = "Μια φορά κι έναν καιρό"
print("\\\\
".join([x.get("generated_text") for x in generator(
    text,
    max_length=len(text.split(" "))+15,
    do_sample=True,
    top_k=50,
    repetition_penalty = 1.2,
    add_special_tokens=False,
    num_return_sequences=5,
    temperature=0.95,
    top_p=0.95)]))

训练数据

我们使用了一个小型（约5GB）样本，该样本来自基于CC100、Wikimatrix、Tatoeba、Books、SETIMES和GlobalVoices的综合希腊语语料库。更大的语料库有望提供更好的结果（T0D0）。

致谢

本研究工作得到了希腊研究与创新基金会（HFRI）的支持，通过HFRI博士奖学金项目（奖学金编号：50，第二轮申请）提供资助。

本项目基于Thomas Dehaene（ML6）的研究成果：https://blog.ml6.eu/dutch-gpt2-autoregressive-language-modelling-on-a-budget-cff3942dd020

希腊语（el）GPT2 模型 - 小型

由希腊陆军学院（SSE）与克里特技术大学（TUC）联合开发

语言：el

许可证：apache-2.0

数据集：约 5GB 的希腊语语料库

模型：GPT2（12 层，768 隐藏维度，12 头注意力机制，1.17 亿参数。基于 OpenAI GPT-2 英语模型，针对希腊语进行微调）

预处理：分词 + BPE 切分