本仓库提供由日本发起的合作项目LLM-jp所开发的大型语言模型。
| 预训练模型 |
| llm-jp-13b-v1.0 |
| llm-jp-1.3b-v1.0 |
| 检查点格式:Hugging Face Transformers(Megatron-DeepSpeed 格式模型可在此处获取) |
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
text = text + "### 回答:"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
output = model.generate(
tokenized_input,
max_new_tokens=100,
do_sample=True,
top_p=0.95,
temperature=0.7,
)[0]
print(tokenizer.decode(output))| 模型 | 参数规模 | 层数 | 隐藏层大小 | 注意力头数 | 上下文长度 |
|---|---|---|---|---|---|
| 13b model | 130亿 | 40 | 5120 | 40 | 2048 |
| 1.3b model | 13亿 | 24 | 2048 | 16 | 2048 |
预训练:
指令微调:
本模型的分词器基于huggingface/tokenizers的Unigram字节回退模型构建。
词汇表条目由llm-jp-tokenizer v2.1 (50k)转换而来。
有关词汇表构建过程的详细信息,请参考llm-ja-tokenizer的README.md。
tokenizers>=0.14.0模型的预训练采用了以下数据集的混合数据。
预训练通过10折非重叠数据持续进行,每折数据包含约270-280亿tokens。 我们使用与10折数据相同来源的数据集额外获取了270亿tokens的(潜在)高质量数据,完成了最终的预训练。
模型已在以下数据集上进行了微调。
| 语言 | 数据集 | 描述 |
|---|---|---|
| 日语 | jaster | 基于现有日语NLP数据集自动转换的数据 |
| databricks-dolly-15k | 由LLM-jp团队使用DeepL翻译的版本 | |
| OpenAssistant Conversations Dataset | 由LLM-jp团队使用DeepL翻译的版本 |
您可以在该排行榜上查看多个LLM的评估结果。我们使用llm-jp-eval进行评估。
此处发布的模型仍处于我们研发的早期阶段,尚未经过调整以确保输出符合人类意图和安全考量。
llm-jp(at)nii.ac.jp
姓名按字母顺序排列。
Hirokazu Kiyomaru, Hiroshi Matsuda, Jun Suzuki, Namgi Han, Saku Sugawara, Shota Sasaki, Shuhei Kurita, Taishi Nakamura, Takumi Okamoto.