GPT-J 6B - Shinen

模型说明

GPT-J 6B-Shinen 是基于 EleutherAI 的 GPT-J 6B 模型进行微调得到的模型。与 GPT-Neo-2.7-Horni 相比，该模型的性内容要多得多。 警告：本模型不适用于未成年人。该模型会输出限制级内容。

修改

修改示例并添加 NPU 支持；

训练数据

训练数据包含来自 sexstories.com 的用户生成故事。所有故事均通过以下方式进行标记：

[Theme: <theme1>, <theme2> ,<theme3>]
<Story goes here>

使用方法

您可以直接通过文本生成管道使用此模型。以下示例每次运行时都会生成不同的序列：

from openmind import pipeline, is_torch_npu_available
import torch
if is_torch_npu_available():
    device = "npu:0"
elif torch.cuda.is_available():
    device = "cuda:0"
else:
    device = "cpu"
generator = pipeline('text-generation', model='SY_AICC/GPT-J-6B-Shinen', device=device)
output = generator("She was staring at me", do_sample=True, min_length=50)

局限性与偏差

GPT-J 的核心功能是接收一段文本并预测下一个标记。尽管语言模型被广泛用于此类任务之外的其他场景，但这项技术仍存在诸多未知因素。在向 GPT-J 输入提示时，务必记住，从统计学角度看最可能出现的下一个标记，往往并非能生成最“准确”文本的标记。切勿依赖 GPT-J 生成事实性准确的输出。

GPT-J 是在 Pile 数据集上训练的，该数据集已知包含亵渎性、低俗及其他刺激性语言。根据具体使用场景，GPT-J 可能会生成社会难以接受的文本。有关 Pile 数据集中偏差的更详细分析，请参见《Pile 论文》的第 5 节和第 6 节（https://arxiv.org/abs/2101.00027）。

与所有语言模型一样，很难预先预测 GPT-J 对特定提示的反应，且可能会在毫无预警的情况下出现冒犯性内容。我们建议在发布输出内容之前，由人工进行筛选或审核，以过滤不良内容并提升结果质量。

BibTeX 条目和引用信息

该模型使用以下模型作为基础：

@misc{gpt-j,
  author = {Wang, Ben and Komatsuzaki, Aran},
  title = {{GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model}},
  howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
  year = 2021,
  month = May
}

致谢

本项目的顺利完成离不开 Google 通过 TPU Research Cloud 慷慨提供的计算资源，同时也感谢 Cloud TPU 团队提供 Cloud TPU VM Alpha 版本的早期访问权限。