GPT-J 6B - Janeway

模型说明

GPT-J 6B-Janeway 是基于 EleutherAI 的 GPT-J 6B 模型进行微调得到的模型。

修改内容

修改示例并添加 npu 支持；

训练数据

训练数据包含约 2210 本电子书，主要为科幻和奇幻类型。该数据集基于 GPT-Neo-2.7B-Picard 所使用的同一数据集，并增加了 20% 不同类型的数据。数据集的部分内容已使用以下文本作为前缀：[Genre: <genre1>,<genre2>]

使用方法

您可以直接通过文本生成流水线使用此模型。以下示例每次运行时都会生成不同的序列：

from openmind import is_torch_npu_available, pipeline
import torch
if is_torch_npu_available():
    device = "npu:0"
elif torch.cuda.is_available():
    device = "cuda:0"
else:
    device = "cpu"
generator = pipeline('text-generation', model='SY_AICC/GPT-J-6B-Janeway',device=device)
generator("Welcome Captain Janeway, I apologize for the delay.", do_sample=True, min_length=50)

局限性与偏差

GPT-J 的核心功能是接收一段文本并预测下一个 token。尽管语言模型被广泛用于其他任务，但在这方面仍存在许多未知因素。在向 GPT-J 提示时，重要的是要记住，从统计学角度看最可能的下一个 token 往往并非能生成最“准确”文本的 token。切勿依赖 GPT-J 生成事实准确的输出。

GPT-J 是在 Pile 数据集上训练的，该数据集已知包含亵渎性、猥亵性以及其他刺激性语言。根据使用场景的不同，GPT-J 可能会生成社会不可接受的文本。有关 Pile 数据集中偏差的更详细分析，请参见 Pile 论文的第 5 节和第 6 节。

与所有语言模型一样，很难预先预测 GPT-J 会如何响应特定提示，且冒犯性内容可能会毫无征兆地出现。我们建议在发布输出内容之前，由人工进行筛选或过滤，以审查不良内容并提高结果质量。

BibTeX 条目和引用信息

该模型使用以下模型作为基础：

@misc{gpt-j,
  author = {Wang, Ben and Komatsuzaki, Aran},
  title = {{GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model}},
  howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
  year = 2021,
  month = May
}

致谢

本项目的顺利完成离不开 Google 通过 TPU Research Cloud 慷慨提供的计算资源，同时也感谢 Cloud TPU 团队提供的 Cloud TPU VM Alpha 版早期访问权限。