HuggingFace镜像/gpt3-finnish-small
模型介绍文件和版本分析
下载使用量0

适用于芬兰语的生成式预训练Transformer,拥有18600万参数。

TurkuNLP芬兰语GPT-3模型是一个预训练的单语GPT风格语言模型系列,基于BLOOM架构构建。请注意,这些模型是纯语言模型,这意味着它们未针对对话或回答问题进行指令微调。

这些模型旨在用作基础模型,例如可通过指令微调来充当现代聊天模型。

所有模型均经过3000亿个标记的训练。

参数

模型层数维度头数参数
Small1276812186M
Medium24102416437M
Large24153616881M
XL242064241.5B
”3B”322560322.8B
”8B”324096327.5B
"13B"4051204013.3B

数据集

我们使用了多种芬兰语资源的组合。

  • 芬兰互联网解析库 https://turkunlp.org/finnish_nlp.html mC4多语言海量数据集
  • 芬兰语维基百科 https://fi.wikipedia.org/wiki
  • 国家图书馆ePub“epub”馆藏
  • 国家图书馆“lehdet”馆藏
  • Suomi24 2001-2020年Suomi 24语料库 http://urn.fi/urn:nbn:fi:lb-2021101527
  • Reddit r/Suomi帖子和评论 https://www.reddit.com/r/Suomi
  • STT芬兰通讯社档案1992-2018 http://urn.fi/urn:nbn:fi:lb-2019041501
  • Yle芬兰新闻档案2011-2018 http://urn.fi/urn:nbn:fi:lb-2017070501
  • Yle芬兰新闻档案2019-2020 http://urn.fi/urn:nbn:fi:lb-2021050401
  • Yle新闻档案简易芬兰语2011-2018 http://urn.fi/urn:nbn:fi:lb-2019050901
  • Yle新闻档案简易芬兰语2019-2020 http://urn.fi/urn:nbn:fi:lb-2021050701
  • ROOTS 待办事项

采样比例

数据集字符数比例权重权重比例
Parsebank35.0B16.9%1.522.7%
mC4-Fi46.3B22.4%1.020.0%
CC-Fi79.6B38.5%1.034.4%
Fiwiki0.8B0.4%3.01.0%
Lönnrot0.8B0.4%3.01.0%
Yle1.6B0.8%2.01.4%
STT2.2B1.1%2.01.9%
ePub13.5B6.5%1.05.8%
Lehdet5.8B2.8%1.02.5%
Suomi2420.6B9.9%1.08.9%
Reddit-Fi0.7B0.4%1.00.3%
总计207.0B100.0%不适用100.0%

更多文档和论文即将发布。