HuggingFace镜像/llm-jp-13b-instruct-full-jaster-v1.0
模型介绍文件和版本分析
下载使用量0

llm-jp-13b-instruct-full-jaster-v1.0

本仓库提供由日本发起的合作项目LLM-jp所开发的大型语言模型。

模型变体
指令模型
llm-jp-13b-instruct-full-jaster-v1.0
llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-full-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-jaster-v1.0
llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-dolly-oasst-v1.0
预训练模型
llm-jp-13b-v1.0
llm-jp-1.3b-v1.0
检查点格式:Hugging Face Transformers(Megatron-DeepSpeed 格式模型可在此处获取)

所需库及其版本

  • torch>=2.0.0
  • transformers>=4.34.0
  • tokenizers>=0.14.0
  • accelerate==0.23.0

使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
text = text + "### 回答:"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

模型详情

  • 模型类型:基于Transformer的语言模型
  • 总处理 tokens:3000亿
模型参数规模层数隐藏层大小注意力头数上下文长度
13b model130亿405120402048
1.3b model13亿242048162048

训练过程

  • 预训练:

    • 硬件:96张A100 40GB GPU(mdx cluster)
    • 软件:Megatron-DeepSpeed
  • 指令微调:

    • 硬件:8张A100 40GB GPU(mdx cluster)
    • 软件:TRL、PEFT和DeepSpeed

分词器

本模型的分词器基于huggingface/tokenizers的Unigram字节回退模型构建。 词汇表条目由llm-jp-tokenizer v2.1 (50k)转换而来。 有关词汇表构建过程的详细信息,请参考llm-ja-tokenizer的README.md。

  • 模型:采用Unigram字节回退模型的Hugging Face Fast Tokenizer,要求tokenizers>=0.14.0
  • 训练算法:SentencePiece Unigram字节回退算法
  • 训练数据:模型预训练数据集的一个子集
  • 词汇表大小:50,570(日语、英语和源代码的混合词汇表)

数据集

预训练

模型的预训练采用了以下数据集的混合数据。

语言数据集Tokens数量
日语Wikipedia15亿
mC41360亿
英语Wikipedia50亿
The Pile1350亿
代码The Stack100亿

预训练通过10折非重叠数据持续进行,每折数据包含约270-280亿tokens。 我们使用与10折数据相同来源的数据集额外获取了270亿tokens的(潜在)高质量数据,完成了最终的预训练。

指令微调

模型已在以下数据集上进行了微调。

语言数据集描述
日语jaster基于现有日语NLP数据集自动转换的数据
databricks-dolly-15k由LLM-jp团队使用DeepL翻译的版本
OpenAssistant Conversations Dataset由LLM-jp团队使用DeepL翻译的版本

评估

您可以在该排行榜上查看多个LLM的评估结果。我们使用llm-jp-eval进行评估。

风险与局限性

此处发布的模型仍处于我们研发的早期阶段,尚未经过调整以确保输出符合人类意图和安全考量。

问题咨询

llm-jp(at)nii.ac.jp

许可证

Apache License, Version 2.0

模型卡片作者

姓名按字母顺序排列。

Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.