本仓库提供由日本发起的合作项目 LLM-jp 开发的大型语言模型。
| 预训练模型 |
| llm-jp-13b-v2.0 |
检查点格式:Hugging Face Transformers
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v2.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v2.0", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
repetition_penalty=1.05,
)[0]
print(tokenizer.decode(output))| 模型 | 参数规模 | 层数 | 隐藏层大小 | 注意力头数 | 上下文长度 |
|---|---|---|---|---|---|
| 13b model | 130 亿 | 40 | 5120 | 40 | 4096 |
预训练:
指令微调:
本模型的分词器基于 huggingface/tokenizers 的 Unigram 字节回退模型构建。
词汇表条目由 llm-jp-tokenizer v2.2 (100k: code20K_en40K_ja60K.ver2.2) 转换而来。
有关词汇构建过程的详细信息,请参考 llm-ja-tokenizer 的 README.md(单纯的 SentencePiece 训练无法复现我们的词汇表)。
模型使用以下数据集的混合数据进行预训练。
| 语言 | 数据集 | Tokens 数量 |
|---|---|---|
| 日语 | Wikipedia | 14 亿 |
| Common Crawl | 1307 亿 | |
| 英语 | Wikipedia | 47 亿 |
| The Pile | 1103 亿 | |
| 代码 | The Stack | 87 亿 |
模型已在以下数据集上进行了微调。
| 语言 | 数据集 | 描述 |
|---|---|---|
| 日语 | ichikara-instruction-004-001 | 人工构建的日语指令数据集 |
| answer-carefully-001 | 人工构建的专注于LLM安全性的日语指令数据集 | |
| databricks-dolly-15k-ja | 使用DeepL将databricks-dolly-15k翻译成日语的版本 | |
| oasst1-21k-ja | 使用DeepL将oasst1的一个子集翻译成日语的版本 | |
| oasst2-33k-ja | 使用DeepL将oasst2的一个子集翻译成日语的版本 | |
| 英语 | databricks-dolly-15k | - |
| oasst1-21k-en | oasst1的一个子集 | |
| oasst2-33k-en | oasst2的一个子集 |
您可以在该排行榜上查看多个LLM的评估结果。我们使用llm-jp-eval(v1.3.0)进行评估。
此外,我们还使用了LLM作为评判者的框架,Japanese Vicuna QA Benchmark和Japanese MT Bench,来进行评估。 有关详细信息,请参考我们的技术博客(日语)。
此处发布的模型仍处于我们研发的早期阶段,尚未经过调整以确保输出符合人类意图和安全考量。
llm-jp(at)nii.ac.jp
姓名按字母顺序排列。
Namgi Han、Tatsuya Hiraoka、Hirokazu Kiyomaru、Takashi Kodama 及 Hiroshi Matsuda。