模型说明: GPT-2 Medium 是 GPT-2 的 3.55 亿参数版本,这是一个由 OpenAI 创建并发布的基于 Transformer 的语言模型。该模型是在英语语言上使用因果语言建模(CLM)目标进行预训练的模型。
使用以下代码开始使用模型。您可以直接通过文本生成管道使用此模型。由于生成过程依赖一定的随机性,我们设置了一个种子以确保结果可复现:
python3 examples/inference.py --model_name_or_path=./这种偏见也会影响该模型的所有微调版本。用户(包括直接用户和下游用户)应了解该模型的风险、偏见和局限性。
OpenAI 团队希望在尽可能大的语料库上训练此模型。为构建该语料库,他们从 Reddit 上获得至少 3 个 karma 的出站链接中抓取了所有网页。请注意,此数据集中已移除所有维基百科页面,因此该模型未在维基百科的任何部分上进行训练。生成的数据集(称为 WebText)包含 40GB 文本,但尚未公开发布。你可以在此处找到 WebText 中存在的前 1000 个域名列表。
该模型在一个非常大的英语数据语料库上以自监督的方式进行预训练。这意味着它仅在原始文本上进行预训练,无需人工以任何方式对其进行标记(这也是它能够使用大量公开可用数据的原因),并通过自动过程从这些文本中生成输入和标签。更准确地说,它被训练来猜测句子中的下一个单词。
更具体地说,输入是特定长度的连续文本序列,目标是向右移动一个标记(单词或单词片段)的相同序列。该模型在内部使用掩码机制,以确保对标记 i 的预测仅使用来自 1 到 i 的输入,而不使用未来的标记。
通过这种方式,模型学习英语语言的内部表示,然后可用于提取对下游任务有用的特征。
文本使用字节级版本的字节对编码(BPE)(针对 unicode 字符)进行分词,词汇表大小为 50,257。输入是 1024 个连续标记的序列。
以下评估信息摘自相关论文。
模型作者在相关论文中写道:
由于我们的模型在字节级别运行,不需要有损的预处理或分词,因此我们可以在任何语言模型基准上对其进行评估。语言建模数据集的结果通常以平均负对数概率的缩放或指数化版本的形式报告,该平均负对数概率针对每个标准预测单元(通常是字符、字节或单词)。我们通过计算 WebText 语言模型对数据集的对数概率并除以标准单元的数量来评估相同的量。对于许多这些数据集,WebText 语言模型将在显著的分布外进行测试,必须预测经过严格标准化的文本、分词伪影(如断开的标点符号和缩写)、打乱的句子,甚至是在 WebText 中极为罕见的字符串
——在 400 亿字节中仅出现 26 次。我们报告我们的主要结果……使用可逆的去分词器,这些去分词器尽可能多地去除这些分词/预处理伪影。由于这些去分词器是可逆的,我们仍然可以计算数据集的对数概率,并且它们可以被视为一种简单形式的领域适应。
该模型在不进行任何微调(零样本)的情况下取得了以下结果:
| Dataset | LAMBADA | LAMBADA | CBT-CN | CBT-NE | WikiText2 | PTB | enwiki8 | text8 | WikiText103 | 1BW |
|---|---|---|---|---|---|---|---|---|---|---|
| (metric) | (PPL) | (ACC) | (ACC) | (ACC) | (PPL) | (PPL) | (BPB) | (BPC) | (PPL) | (PPL) |
| 15.60 | 55.48 | 92.35 | 87.1 | 22.76 | 47.33 | 1.01 | 1.06 | 26.37 | 55.72 |
可使用 Lacoste et al. (2019) 中提出的 机器学习影响计算器 来估算碳排放量。
有关建模架构、目标、计算基础设施和训练细节的详细信息,请参见 相关论文。
@article{radford2019language,
title={Language models are unsupervised multitask learners},
author={Radford, Alec and Wu, Jeffrey and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya and others},
journal={OpenAI blog},
volume={1},
number={8},
pages={9},
year={2019}
}本模型卡片由 Hugging Face 团队编写。