GPT-J 6B-Janeway 是基于 EleutherAI 的 GPT-J 6B 模型进行微调得到的模型。
修改示例并添加 npu 支持;
训练数据包含约 2210 本电子书,主要为科幻和奇幻类型。该数据集基于 GPT-Neo-2.7B-Picard 所使用的同一数据集,并增加了 20% 不同类型的数据。
数据集的部分内容已使用以下文本作为前缀:[Genre: <genre1>,<genre2>]
您可以直接通过文本生成流水线使用此模型。以下示例每次运行时都会生成不同的序列:
from openmind import is_torch_npu_available, pipeline
import torch
if is_torch_npu_available():
device = "npu:0"
elif torch.cuda.is_available():
device = "cuda:0"
else:
device = "cpu"
generator = pipeline('text-generation', model='SY_AICC/GPT-J-6B-Janeway',device=device)
generator("Welcome Captain Janeway, I apologize for the delay.", do_sample=True, min_length=50)GPT-J 的核心功能是接收一段文本并预测下一个 token。尽管语言模型被广泛用于其他任务,但在这方面仍存在许多未知因素。在向 GPT-J 提示时,重要的是要记住,从统计学角度看最可能的下一个 token 往往并非能生成最“准确”文本的 token。切勿依赖 GPT-J 生成事实准确的输出。
GPT-J 是在 Pile 数据集上训练的,该数据集已知包含亵渎性、猥亵性以及其他刺激性语言。根据使用场景的不同,GPT-J 可能会生成社会不可接受的文本。有关 Pile 数据集中偏差的更详细分析,请参见 Pile 论文的第 5 节和第 6 节。
与所有语言模型一样,很难预先预测 GPT-J 会如何响应特定提示,且冒犯性内容可能会毫无征兆地出现。我们建议在发布输出内容之前,由人工进行筛选或过滤,以审查不良内容并提高结果质量。
该模型使用以下模型作为基础:
@misc{gpt-j,
author = {Wang, Ben and Komatsuzaki, Aran},
title = {{GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model}},
howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
year = 2021,
month = May
}本项目的顺利完成离不开 Google 通过 TPU Research Cloud 慷慨提供的计算资源,同时也感谢 Cloud TPU 团队提供的 Cloud TPU VM Alpha 版早期访问权限。