HuggingFace镜像/llm-jp-13b-v2.0
模型介绍文件和版本分析
下载使用量0

llm-jp-13b-v2.0

本仓库提供由日本发起的合作项目 LLM-jp 开发的大型语言模型。

模型变体
指令模型
llm-jp-13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0
llm-jp-13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0
llm-jp-13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0
预训练模型
llm-jp-13b-v2.0

检查点格式:Hugging Face Transformers

所需库及其版本

  • torch>=2.3.0
  • transformers>=4.40.1
  • tokenizers>=0.19.1
  • accelerate>=0.29.3
  • flash-attn>=2.5.8

使用方法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v2.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v2.0", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

模型详情

  • 模型类型:基于 Transformer 的语言模型
  • 总处理 tokens:2560 亿
模型参数规模层数隐藏层大小注意力头数上下文长度
13b model130 亿405120404096

训练信息

  • 预训练:

    • 硬件:128 张 A100 40GB GPU(mdx cluster)
    • 软件:Megatron-LM
  • 指令微调:

    • 硬件:8 张 A100 40GB GPU(mdx cluster)
    • 软件:TRL 和 DeepSpeed

分词器

本模型的分词器基于 huggingface/tokenizers 的 Unigram 字节回退模型构建。 词汇表条目由 llm-jp-tokenizer v2.2 (100k: code20K_en40K_ja60K.ver2.2) 转换而来。 有关词汇构建过程的详细信息,请参考 llm-ja-tokenizer 的 README.md(单纯的 SentencePiece 训练无法复现我们的词汇表)。

  • 模型:采用 Unigram 字节回退模型的 Hugging Face 快速分词器
  • 训练算法:合并通过 SentencePiece Unigram 字节回退模型构建的代码/英语/日语词汇表,并使用 EM 算法重新估计分数
  • 训练数据:模型预训练数据集的一个子集
  • 词汇表大小:96,867(日语、英语和源代码的混合词汇表)
    • 由于向上取整为 256 的倍数,预训练模型中实际的词汇表大小为 97,024

数据集

预训练

模型使用以下数据集的混合数据进行预训练。

语言数据集Tokens 数量
日语Wikipedia14 亿
Common Crawl1307 亿
英语Wikipedia47 亿
The Pile1103 亿
代码The Stack87 亿

指令微调

模型已在以下数据集上进行了微调。

语言数据集描述
日语ichikara-instruction-004-001人工构建的日语指令数据集
answer-carefully-001人工构建的专注于LLM安全性的日语指令数据集
databricks-dolly-15k-ja使用DeepL将databricks-dolly-15k翻译成日语的版本
oasst1-21k-ja使用DeepL将oasst1的一个子集翻译成日语的版本
oasst2-33k-ja使用DeepL将oasst2的一个子集翻译成日语的版本
英语databricks-dolly-15k-
oasst1-21k-enoasst1的一个子集
oasst2-33k-enoasst2的一个子集

评估

您可以在该排行榜上查看多个LLM的评估结果。我们使用llm-jp-eval(v1.3.0)进行评估。

此外,我们还使用了LLM作为评判者的框架,Japanese Vicuna QA Benchmark和Japanese MT Bench,来进行评估。 有关详细信息,请参考我们的技术博客(日语)。

风险与局限性

此处发布的模型仍处于我们研发的早期阶段,尚未经过调整以确保输出符合人类意图和安全考量。

问题咨询方式

llm-jp(at)nii.ac.jp

许可协议

Apache License, Version 2.0

模型卡片作者

姓名按字母顺序排列。

Namgi Han、Tatsuya Hiraoka、Hirokazu Kiyomaru、Takashi Kodama 及 Hiroshi Matsuda。