适用于芬兰语的生成式预训练Transformer,拥有18600万参数。
TurkuNLP芬兰语GPT-3模型是一个预训练的单语GPT风格语言模型系列,基于BLOOM架构构建。请注意,这些模型是纯语言模型,这意味着它们未针对对话或回答问题进行指令微调。
这些模型旨在用作基础模型,例如可通过指令微调来充当现代聊天模型。
所有模型均经过3000亿个标记的训练。
参数
| 模型 | 层数 | 维度 | 头数 | 参数 |
|---|---|---|---|---|
| Small | 12 | 768 | 12 | 186M |
| Medium | 24 | 1024 | 16 | 437M |
| Large | 24 | 1536 | 16 | 881M |
| XL | 24 | 2064 | 24 | 1.5B |
| ”3B” | 32 | 2560 | 32 | 2.8B |
| ”8B” | 32 | 4096 | 32 | 7.5B |
| "13B" | 40 | 5120 | 40 | 13.3B |
数据集
我们使用了多种芬兰语资源的组合。
采样比例
| 数据集 | 字符数 | 比例 | 权重 | 权重比例 |
|---|---|---|---|---|
| Parsebank | 35.0B | 16.9% | 1.5 | 22.7% |
| mC4-Fi | 46.3B | 22.4% | 1.0 | 20.0% |
| CC-Fi | 79.6B | 38.5% | 1.0 | 34.4% |
| Fiwiki | 0.8B | 0.4% | 3.0 | 1.0% |
| Lönnrot | 0.8B | 0.4% | 3.0 | 1.0% |
| Yle | 1.6B | 0.8% | 2.0 | 1.4% |
| STT | 2.2B | 1.1% | 2.0 | 1.9% |
| ePub | 13.5B | 6.5% | 1.0 | 5.8% |
| Lehdet | 5.8B | 2.8% | 1.0 | 2.5% |
| Suomi24 | 20.6B | 9.9% | 1.0 | 8.9% |
| Reddit-Fi | 0.7B | 0.4% | 1.0 | 0.3% |
| 总计 | 207.0B | 100.0% | 不适用 | 100.0% |
更多文档和论文即将发布。