llm-jp-1.3b-v1.0

本仓库提供由日本发起的合作项目LLM-jp所开发的大型语言模型。

模型变体
指令模型
llm-jp-13b-instruct-full-jaster-v1.0
llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-full-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-jaster-v1.0
llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-dolly-oasst-v1.0


预训练模型
llm-jp-13b-v1.0
llm-jp-1.3b-v1.0
检查点格式：Hugging Face Transformers（Megatron-DeepSpeed 格式模型可在此处获取）

所需库及其版本

torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0

使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-1.3b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-1.3b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=20,
        do_sample=True,
        top_p=0.90,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

模型详情

模型类型：基于 Transformer 的语言模型
总处理 tokens：3000 亿

模型	参数规模	层数	隐藏层大小	注意力头数	上下文长度
13b model	130 亿	40	5120	40	2048
1.3b model	13 亿	24	2048	16	2048

训练

预训练：
- 硬件：96 张 A100 40GB GPU（mdx cluster）
- 软件：Megatron-DeepSpeed
指令微调：
- 硬件：8 张 A100 40GB GPU（mdx cluster）
- 软件：TRL、PEFT 和 DeepSpeed

分词器

本模型的分词器基于 huggingface/tokenizers 的 Unigram 字节回退模型。词汇表条目由 llm-jp-tokenizer v2.1 (50k) 转换而来。有关词汇构建过程的详细信息，请参阅 llm-ja-tokenizer 的 README.md。

模型：采用 Unigram 字节回退模型的 Hugging Face 快速分词器，要求 tokenizers>=0.14.0
训练算法：SentencePiece Unigram 字节回退
训练数据：模型预训练数据集的一个子集
词汇表大小：50,570（日语、英语和源代码的混合词汇）

数据集

预训练

模型使用以下数据集的混合数据进行预训练。

语言	数据集	Tokens
日语	Wikipedia	15 亿
	mC4	1360 亿
英语	Wikipedia	50 亿
	The Pile	1350 亿
代码	The Stack	100 亿

预训练使用 10 折非重叠数据持续进行，每折数据包含约 270-280 亿 tokens。我们使用从上述 10 折数据所用的相同源数据集中获取的额外（可能）高质量的 270 亿 tokens 数据完成了预训练。

指令微调

模型已在以下数据集上进行了微调。

语言	数据集	描述
日语	jaster	基于现有日语NLP数据集自动转换得到的数据
	databricks-dolly-15k	由LLM-jp项目使用DeepL翻译的版本
	OpenAssistant Conversations Dataset	由LLM-jp项目使用DeepL翻译的版本

评估

您可以在该排行榜上查看多个LLM的评估结果。我们使用llm-jp-eval进行评估。

风险与限制

此处发布的模型仍处于我们研发的早期阶段，尚未针对确保输出符合人类意图和安全考量进行调整。

问题反馈

llm-jp(at)nii.ac.jp

许可证

Apache License, Version 2.0

模型卡片作者

姓名按字母顺序排列。

Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.

模型变体

指令模型

llm-jp-13b-instruct-full-jaster-v1.0

llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0

llm-jp-13b-instruct-full-dolly-oasst-v1.0

llm-jp-13b-instruct-lora-jaster-v1.0

llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0

llm-jp-13b-instruct-lora-dolly-oasst-v1.0

预训练模型

llm-jp-13b-v1.0

llm-jp-1.3b-v1.0

检查点格式：Hugging Face Transformers（Megatron-DeepSpeed 格式模型可在此处获取）

使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-1.3b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-1.3b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=20,
        do_sample=True,
        top_p=0.90,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

模型

参数规模

层数

隐藏层大小

注意力头数

上下文长度

13b model

130 亿

5120

2048

1.3b model

13 亿

2048

分词器

模型：采用 Unigram 字节回退模型的 Hugging Face 快速分词器，要求 tokenizers>=0.14.0

训练算法：SentencePiece Unigram 字节回退

训练数据：模型预训练数据集的一个子集

词汇表大小：50,570（日语、英语和源代码的混合词汇）

数据集

预训练

模型使用以下数据集的混合数据进行预训练。

语言	数据集	Tokens
日语	Wikipedia	15 亿
	mC4	1360 亿
英语	Wikipedia	50 亿
	The Pile	1350 亿
代码	The Stack	100 亿

指令微调

模型已在以下数据集上进行了微调。

语言	数据集	描述
日语	jaster	基于现有日语NLP数据集自动转换得到的数据
	databricks-dolly-15k	由LLM-jp项目使用DeepL翻译的版本
	OpenAssistant Conversations Dataset	由LLM-jp项目使用DeepL翻译的版本