llm-jp-13b-instruct-full-jaster-v1.0

本仓库提供由日本发起的合作项目LLM-jp所开发的大型语言模型。

模型变体
指令模型
llm-jp-13b-instruct-full-jaster-v1.0
llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-full-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-jaster-v1.0
llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-dolly-oasst-v1.0


预训练模型
llm-jp-13b-v1.0
llm-jp-1.3b-v1.0
检查点格式：Hugging Face Transformers（Megatron-DeepSpeed 格式模型可在此处获取）

所需库及其版本

torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0

使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
text = text + "### 回答："
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

模型详情

模型类型：基于Transformer的语言模型
总处理 tokens：3000亿

模型	参数规模	层数	隐藏层大小	注意力头数	上下文长度
13b model	130亿	40	5120	40	2048
1.3b model	13亿	24	2048	16	2048

训练过程

预训练：
- 硬件：96张A100 40GB GPU（mdx cluster）
- 软件：Megatron-DeepSpeed
指令微调：
- 硬件：8张A100 40GB GPU（mdx cluster）
- 软件：TRL、PEFT和DeepSpeed

分词器

本模型的分词器基于huggingface/tokenizers的Unigram字节回退模型构建。词汇表条目由llm-jp-tokenizer v2.1 (50k)转换而来。有关词汇表构建过程的详细信息，请参考llm-ja-tokenizer的README.md。

模型：采用Unigram字节回退模型的Hugging Face Fast Tokenizer，要求tokenizers>=0.14.0
训练算法：SentencePiece Unigram字节回退算法
训练数据：模型预训练数据集的一个子集
词汇表大小：50,570（日语、英语和源代码的混合词汇表）

数据集

预训练

模型的预训练采用了以下数据集的混合数据。

语言	数据集	Tokens数量
日语	Wikipedia	15亿
	mC4	1360亿
英语	Wikipedia	50亿
	The Pile	1350亿
代码	The Stack	100亿

预训练通过10折非重叠数据持续进行，每折数据包含约270-280亿tokens。我们使用与10折数据相同来源的数据集额外获取了270亿tokens的（潜在）高质量数据，完成了最终的预训练。

指令微调

模型已在以下数据集上进行了微调。

语言	数据集	描述
日语	jaster	基于现有日语NLP数据集自动转换的数据
	databricks-dolly-15k	由LLM-jp团队使用DeepL翻译的版本
	OpenAssistant Conversations Dataset	由LLM-jp团队使用DeepL翻译的版本

评估

您可以在该排行榜上查看多个LLM的评估结果。我们使用llm-jp-eval进行评估。

风险与局限性

此处发布的模型仍处于我们研发的早期阶段，尚未经过调整以确保输出符合人类意图和安全考量。

问题咨询

llm-jp(at)nii.ac.jp

许可证

Apache License, Version 2.0

模型卡片作者

姓名按字母顺序排列。

Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.

模型变体

指令模型

llm-jp-13b-instruct-full-jaster-v1.0

llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0

llm-jp-13b-instruct-full-dolly-oasst-v1.0

llm-jp-13b-instruct-lora-jaster-v1.0

llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0

llm-jp-13b-instruct-lora-dolly-oasst-v1.0

预训练模型

llm-jp-13b-v1.0

llm-jp-1.3b-v1.0

检查点格式：Hugging Face Transformers（Megatron-DeepSpeed 格式模型可在此处获取）

使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
text = text + "### 回答："
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

模型

参数规模

层数

隐藏层大小

注意力头数

上下文长度

13b model

130亿

5120

2048

1.3b model

13亿

2048

分词器

模型：采用Unigram字节回退模型的Hugging Face Fast Tokenizer，要求tokenizers>=0.14.0

训练算法：SentencePiece Unigram字节回退算法

训练数据：模型预训练数据集的一个子集

词汇表大小：50,570（日语、英语和源代码的混合词汇表）

数据集

预训练

模型的预训练采用了以下数据集的混合数据。

语言	数据集	Tokens数量
日语	Wikipedia	15亿
	mC4	1360亿
英语	Wikipedia	50亿
	The Pile	1350亿
代码	The Stack	100亿

指令微调

模型已在以下数据集上进行了微调。

语言	数据集	描述
日语	jaster	基于现有日语NLP数据集自动转换的数据
	databricks-dolly-15k	由LLM-jp团队使用DeepL翻译的版本
	OpenAssistant Conversations Dataset	由LLM-jp团队使用DeepL翻译的版本