模型描述: GPT-2 Medium 是 GPT-2 的 355M 参数 版本,这是一款由 OpenAI 创建并发布的基于 Transformer 的语言模型。该模型是在英语语言上使用因果语言建模(CLM)目标进行预训练的模型。
使用以下代码开始使用模型。您可以直接通过文本生成流水线使用此模型。
以下是在 PyTorch 中使用此模型获取给定文本特征的方法:
from openmind import pipeline, is_torch_npu_available
from openmind_hub import snapshot_download
if is_torch_npu_available():
device = "npu:0"
else:
device = "cpu"
generator = pipeline(
'text-generation',
model="SY_AICC/gpt2-medium",
device=device
)
output = generator(
"Hello, I'm a language model,",
max_length=30,
num_return_sequences=1
)
print(f">>>output={output}", flush=True)OpenAI 在其 关于 GPT-2 的模型卡片 中写道:
这些模型的主要目标用户是人工智能研究人员和从业者。
我们主要设想研究人员将使用这些语言模型来更好地理解大规模生成式语言模型的行为、能力、偏差和局限性。
OpenAI 在其 关于 GPT-2 的模型卡片 中写道:
我们认为以下是一些可能的次要使用场景:
- 写作辅助:语法辅助、自动补全(针对普通散文或代码)
- 创意写作与艺术:探索创意性虚构文本的生成;辅助诗歌及其他文学艺术形式的创作。
- 娱乐:游戏开发、聊天机器人以及趣味内容生成。
OpenAI 在其 关于 GPT-2 的模型卡片 中写道:
由于像 GPT-2 这样的大规模语言模型无法区分事实与虚构,我们不支持那些要求生成文本必须真实的使用场景。
此外,像 GPT-2 这样的语言模型会反映其训练数据中固有的偏差,因此我们不建议将它们部署到与人类交互的系统中,除非部署者首先针对预期使用场景进行相关偏差研究。我们发现 774M 和 1.5B 版本在性别、种族和宗教偏差探测方面没有统计学上的显著差异,这意味着所有版本的 GPT-2 在涉及对人类属性敏感的偏差使用场景时,都应保持相似程度的谨慎。
内容警告:读者应注意本节包含令人不安、冒犯性的内容,并可能传播历史和当前的刻板印象。
已有大量研究探讨了语言模型的偏差和公平性问题(例如,参见 Sheng et al. (2021) 和 Bender et al. (2021))。
用于训练此模型的数据尚未作为可浏览的数据集发布。我们知道其中包含大量来自互联网的未经过滤的内容,这些内容远非中立。模型生成的预测可能包含针对受保护群体、身份特征以及敏感的社会和职业群体的令人不安且有害的刻板印象。
OpenAI 团队希望在尽可能大的语料库上训练此模型。为构建该语料库,他们从 Reddit 上获得至少 3 个 karma 的出站链接中抓取了所有网页。请注意,此数据集中已移除所有维基百科页面,因此该模型未在维基百科的任何部分上进行训练。生成的数据集(称为 WebText)包含 40GB 文本,但尚未公开发布。
该模型在一个非常大的英语语料库上以自监督的方式进行预训练。这意味着它仅在原始文本上进行预训练,无需人工以任何方式对其进行标记(这也是它能够使用大量公开可用数据的原因),并通过自动过程从这些文本中生成输入和标签。更准确地说,它被训练来猜测句子中的下一个单词。
更具体地说,输入是特定长度的连续文本序列,目标是向右移动一个 token(单词或单词片段)的相同序列。模型内部使用掩码机制,以确保对 token i 的预测仅使用来自 1 到 i 的输入,而不使用未来的 token。
通过这种方式,模型学习英语语言的内部表示,然后可用于提取对下游任务有用的特征。
文本使用字节级版本的字节对编码(BPE)(针对 unicode 字符)进行分词,词汇表大小为 50,257。输入是 1024 个连续 token 的序列。
模型作者写道:
由于我们的模型在字节级别运行,不需要有损的预处理或分词,因此我们可以在任何语言模型基准上对其进行评估。语言建模数据集上的结果通常以平均负对数概率(针对每个规范预测单元——通常是字符、字节或单词)的缩放或指数形式的量来报告。我们通过计算 WebText 语言模型对数据集的对数概率并除以规范单元的数量来评估相同的量。对于许多这些数据集,WebText 语言模型将在显著的分布外进行测试,必须预测严格标准化的文本、分词伪影(如断开的标点符号和缩写)、打乱的句子,甚至在 WebText 中极为罕见的字符串
<UNK>——在 400 亿字节中仅出现 26 次。我们报告我们的主要结果……使用可逆的去分词器,尽可能多地去除这些分词/预处理伪影。由于这些去分词器是可逆的,我们仍然可以计算数据集的对数概率,并且它们可以被视为一种简单形式的领域适应。
该模型在不进行任何微调(零样本)的情况下取得了以下结果:
| 数据集 | LAMBADA | LAMBADA | CBT-CN | CBT-NE | WikiText2 | PTB | enwiki8 | text8 | WikiText103 | 1BW |
|---|---|---|---|---|---|---|---|---|---|---|
| (指标) | (PPL) | (ACC) | (ACC) | (ACC) | (PPL) | (PPL) | (BPB) | (BPC) | (PPL) | (PPL) |
| 15.60 | 55.48 | 92.35 | 87.1 | 22.76 | 47.33 | 1.01 | 1.06 | 26.37 | 55.72 |
可使用机器学习影响计算器估算碳排放。
@article{radford2019language,
title={Language models are unsupervised multitask learners},
author={Radford, Alec and Wu, Jeffrey and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya and others},
journal={OpenAI blog},
volume={1},
number={8},
pages={9},
year={2019}
}