GPorTuguese-2(葡萄牙语GPT-2 small)是一款基于GPT-2 small模型的葡萄牙语最先进语言模型。
它使用迁移学习和微调技术在葡萄牙语维基百科上进行了一天多的训练。 这是一个概念验证,证明在资源有限的情况下,也有可能获得任何语言的最先进语言模型。
它是通过fastai v2深度学习框架中封装的openmind库,基于英文预训练GPT-2 small进行微调得到的。所有fastai v2微调技术均已采用。
该模型现已在Hugging Face上线。如需更多信息或有相关请求,请访问“比从头训练更快——使用Hugging Face和fastai v2在任何语言中微调英文GPT-2(葡萄牙语实际案例)”。
| 模型 | 参数数量 | 模型文件(pt/tf) | 架构 | 训练/验证数据(文本) |
|---|---|---|---|---|
gpt2-small-portuguese | 1.24亿 | 487M / 475M | GPT-2 small | 葡萄牙语维基百科(1.28 GB / 0.32 GB) |
在一天多一点的时间内,我们获得了3.17的损失值、37.99%的准确率和23.76的困惑度(详见下方验证结果表)。
| 经过...轮次后 | 损失值 | 准确率(%) | 困惑度 | 每轮次时间 | 累计时间 |
|---|---|---|---|---|---|
| 0 | 9.95 | 9.90 | 20950.94 | 00:00:00 | 00:00:00 |
| 1 | 3.64 | 32.52 | 38.12 | 5:48:31 | 5:48:31 |
| 2 | 3.30 | 36.29 | 27.16 | 5:38:18 | 11:26:49 |
| 3 | 3.21 | 37.46 | 24.71 | 6:20:51 | 17:47:40 |
| 4 | 3.19 | 37.74 | 24.21 | 6:06:29 | 23:54:09 |
| 5 | 3.17 | 37.99 | 23.76 | 6:16:22 | 30:10:31 |
注:信息从 Model: gpt2 >> GPT-2 复制/粘贴而来
基于英语语言、采用因果语言建模(CLM)目标进行预训练的模型。该模型最初于 此页面(2019 年 2 月 14 日)发布。
免责声明:发布 GPT-2 的团队也为其模型编写了一份 模型卡片。本模型卡片中的部分内容由 Hugging Face 团队撰写,旨在补充他们提供的信息并给出具体的偏见示例。
注:信息从 Model: gpt2 >> Model description 复制/粘贴而来
GPT-2 是一个基于 Transformer 的模型,它在一个非常大的英语语料库上以自监督的方式进行了预训练。这意味着它仅在原始文本上进行预训练,无需人类以任何方式对其进行标注(这也是它能够利用大量公开可用数据的原因),并通过自动流程从这些文本中生成输入和标签。更准确地说,它被训练用于预测句子中的下一个词。
更具体地说,输入是特定长度的连续文本序列,目标是相同的序列,但向右移动一个标记(词或词的一部分)。该模型在内部使用掩码机制,以确保对标记 i 的预测仅使用来自 1 到 i 的输入,而不使用未来的标记。
通过这种方式,模型学习到英语语言的内部表示,然后可用于提取对下游任务有用的特征。然而,该模型最擅长的还是其预训练的目标,即根据提示生成文本。
以下代码使用 PyTorch。
from openmind import pipeline, is_torch_npu_available
from openmind_hub import snapshot_download
if is_torch_npu_available():
device = "npu:0"
else:
device = "cpu"
generator = pipeline(
'text-generation',
model="SY_AICC/gpt2-small-portuguese",
device=device
)
output = generator(
"Quem era Jim Henson? Jim Henson era um",
max_length=30,
num_return_sequences=1
)
print(f">>>output={output}", flush=True)本模型的训练数据来源于葡萄牙语维基百科。我们知道其中包含大量未经筛选的互联网内容,这些内容远非中立。正如OpenAI团队在其模型卡片中所指出的:
由于像GPT-2这样的大规模语言模型无法区分事实与虚构,我们不支持那些要求生成文本必须真实的使用场景。此外,像GPT-2这样的语言模型会反映其训练数据中固有的偏见,因此我们不建议将它们部署到与人类交互的系统中,除非部署者首先针对预期使用场景进行相关偏见研究。我们发现774M和1.5B版本在性别、种族和宗教偏见探测方面没有统计学上的显著差异,这意味着所有版本的GPT-2在涉及对人类属性敏感的偏见使用场景时,都应保持相似程度的谨慎。
Portuguese GPT-2 small由Pierre GUILLOU训练和评估。这项工作得益于AI Lab(巴西利亚大学)提供的GPU计算能力(NVIDIA V100 32 Go GPU)。作为该实验室的自然语言处理(NLP)副研究员,我也得到了实验室主任Fabricio Ataides Braz教授和Nilton Correia da Silva教授在NLP战略制定方面的指导与参与。
如果您使用了我们的研究成果,请引用:
@inproceedings{pierre2020gpt2smallportuguese,
title={GPorTuguese-2 (Portuguese GPT-2 small): a Language Model for Portuguese text generation (and more NLP tasks...)},
author={Pierre Guillou},
year={2020}
}