HuggingFace镜像/gpt2-finetuned-greek-small
模型介绍文件和版本分析
下载使用量0

希腊语(el)GPT2 模型 - 小型

已推出在 5 倍数据量上训练的新版本(推荐使用),获取地址:https://modelers.cn/models/SY_AICC/gpt2-finetuned-greek-small

由希腊陆军学院(SSE)与克里特技术大学(TUC)联合开发

  • 语言:el
  • 许可证:apache-2.0
  • 数据集:约 5GB 的希腊语语料库
  • 模型:GPT2(12 层,768 隐藏维度,12 头注意力机制,1.17 亿参数。基于 OpenAI GPT-2 英语模型,针对希腊语进行微调)
  • 预处理:分词 + BPE 切分

模型说明

这是一个文本生成(自回归)模型,基于英语 GPT-2(小型),使用 Huggingface transformers 和 fastai 框架构建。

采用逐步解冻层的方式进行微调。对于低资源语言而言,这是一种比从头训练更高效、更具可持续性的替代方案。

本项目借鉴了 Thomas Dehaene(ML6)创建荷兰语 GPT2 的研究成果:https://colab.research.google.com/drive/1Y31tjMkB8TqKKFlZ5OJ9fcMp3p8suvs4?usp=sharing

使用方法

from openmind import pipeline
model = "SY_AICC/gpt2-finetuned-greek-small"
generator = pipeline(
    'text-generation',
    device=0,
    model=f'{model}',
    tokenizer=f'{model}')
    
text = "Μια φορά κι έναν καιρό"
print("\\\\
".join([x.get("generated_text") for x in generator(
    text,
    max_length=len(text.split(" "))+15,
    do_sample=True,
    top_k=50,
    repetition_penalty = 1.2,
    add_special_tokens=False,
    num_return_sequences=5,
    temperature=0.95,
    top_p=0.95)]))
    

训练数据

我们使用了一个小型(约5GB)样本,该样本来自基于CC100、Wikimatrix、Tatoeba、Books、SETIMES和GlobalVoices的综合希腊语语料库。更大的语料库有望提供更好的结果(T0D0)。

致谢

本研究工作得到了希腊研究与创新基金会(HFRI)的支持,通过HFRI博士奖学金项目(奖学金编号:50,第二轮申请)提供资助。

本项目基于Thomas Dehaene(ML6)的研究成果:https://blog.ml6.eu/dutch-gpt2-autoregressive-language-modelling-on-a-budget-cff3942dd020