HuggingFace镜像/baichuan2_7b_base
模型介绍文件和版本分析
下载使用量0

百川2

🦉GitHub | 💬微信
百川API支持搜索增强和192K长窗口,新增百川搜索增强知识库、限时免费!
🚀 百川大模型在线对话平台 已正式向公众开放 🎉

修改说明/Modification

修改了快速开始的示例代码。/ Modify the example code section.

目录/Table of Contents

  • 📖 模型介绍/Introduction
  • ⚙️ 快速开始/Quick Start
  • 📊 Benchmark评估/Benchmark Evaluation
  • 📜 声明与协议/Terms and Conditions

模型介绍/Introduction

Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化,所有版本不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。具体发布版本和下载见下表:

Baichuan 2 是由百川智能(https://www.baichuan-ai.com/)推出的新一代开源大语言模型。 它在包含 2.6 万亿 tokens 的高质量语料上进行训练,在同尺寸模型中,于权威的中文和英文基准测试中均取得了最佳性能。 本次发布涵盖 7B 和 13B 两种参数规模的 Base 模型与 Chat 模型,并提供 Chat 模型的 4bits 量化版本。 所有版本均完全开放给学术研究使用,开发者在通过邮件申请(mailto:opensource@baichuan-inc.com)获得官方商用许可后,也可免费将其用于商业应用。 具体发布版本及下载链接如下表所示:

Base ModelChat Model4bits Quantized Chat Model
7BBaichuan2-7B-BaseBaichuan2-7B-ChatBaichuan2-7B-Chat-4bits
13BBaichuan2-13B-BaseBaichuan2-13B-ChatBaichuan2-13B-Chat-4bits

Benchmark 结果/Benchmark Evaluation

我们在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文权威数据集上对模型进行了广泛测试,更多详细测评结果可查看GitHub。

我们已在六个领域的中英文权威数据集上对该模型进行了广泛测试,具体包括:通用、法律、医疗、数学、代码以及多语言翻译。更多详细评估结果,请参阅GitHub。

7B 模型结果

C-EvalMMLUCMMLUGaokaoAGIEvalBBH
5-shot5-shot5-shot5-shot5-shot3-shot
GPT-468.4083.9370.3366.1563.2775.12
GPT-3.5 Turbo51.1068.5454.0647.0746.1361.59
LLaMA-7B27.1035.1026.7527.8128.1732.38
LLaMA2-7B28.9045.7331.3825.9726.5339.16
MPT-7B27.1527.9326.0026.5424.8335.20
Falcon-7B24.2326.0325.6624.2424.1028.77
ChatGLM2-6B50.2045.9049.0049.4445.2831.65
Baichuan-7B42.8042.3044.0236.3434.4432.48
Baichuan2-7B-Base54.0054.1657.0747.4742.7341.56

13B模型结果

C-EvalMMLUCMMLU高考AGIEvalBBH
5-shot5-shot5-shot5-shot5-shot3-shot
GPT-468.4083.9370.3366.1563.2775.12
GPT-3.5 Turbo51.1068.5454.0647.0746.1361.59
LLaMA-13B28.5046.3031.1528.2328.2237.89
LLaMA2-13B35.8055.0937.9930.8332.2946.98
Vicuna-13B32.8052.0036.2830.1131.5543.04
Chinese-Alpaca-Plus-13B38.8043.9033.4334.7835.4628.94
XVERSE-13B53.7055.2158.4444.6942.5438.06
Baichuan-13B-Base52.4051.6055.3049.6943.2043.01
Baichuan2-13B-Base58.1059.1761.9754.3348.1748.78

训练过程模型/Training Dynamics

除了训练了2.6万亿Tokens的Baichuan2-7B-Base模型,我们还提供了在此之前的另外11个中间过程的模型(分别对应训练了约0.2 ~ 2.4万亿Tokens)供社区研究使用(训练过程checkpoint下载)。下图给出了这些checkpoints在C-Eval、MMLU、CMMLU三个基准测试上的效果变化:

In addition to the Baichuan2-7B-Base model trained on 2.6 trillion tokens, we also offer 11 additional intermediate-stage models for community research, corresponding to training on approximately 0.2 to 2.4 trillion tokens each (Intermediate Checkpoints Download). The graph below shows the performance changes of these checkpoints on three benchmarks: C-Eval, MMLU, and CMMLU.

checkpoint

声明与协议/Terms and Conditions

声明

我们在此声明,我们的开发团队并未基于 Baichuan 2 模型开发任何应用,无论是在 iOS、Android、网页或任何其他平台。我们强烈呼吁所有使用者,不要利用 Baichuan 2 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将 Baichuan 2 模型用于未经适当安全审查和备案的互联网服务。我们希望所有的使用者都能遵守这个原则,确保科技的发展能在规范和合法的环境下进行。

我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用 Baichuan 2 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。

我们在此声明,我们的团队并未基于 Baichuan 2 模型开发任何应用,无论是 iOS、Android、网页还是任何其他平台。我们强烈呼吁所有用户不要利用 Baichuan 2 模型从事任何危害国家/社会安全或违法的活动。此外,我们也要求用户不要将 Baichuan 2 模型用于未经适当安全审查和备案的互联网服务。我们希望所有用户都能遵守这一原则,确保科技在规范、合法的环境中发展。

我们已尽最大努力确保模型训练过程中所用数据的合规性。然而,尽管我们付出了巨大努力,由于模型和数据的复杂性,仍可能存在一些不可预见的问题。因此,若因使用 Baichuan 2 开源模型而引发任何问题,包括但不限于数据安全问题、舆论风险,或因模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们均不承担任何责任。

协议

社区使用 Baichuan 2 模型需要遵循 Apache 2.0 和《Baichuan 2 模型社区许可协议》。Baichuan 2 模型支持商业用途,如果您计划将 Baichuan 2 模型或其衍生品用于商业目的,请您确认您的主体符合以下情况:

  1. 您或您的关联方的服务或产品的日均用户活跃量(DAU)低于100万。
  2. 您或您的关联方不是软件服务提供商、云服务提供商。
  3. 您或您的关联方不存在将授予您的商用许可,未经百川许可二次授权给其他第三方的可能。

在符合以上条件的前提下,您需要通过以下联系邮箱 opensource@baichuan-inc.com ,提交《Baichuan 2 模型社区许可协议》要求的申请材料。审核通过后,百川将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。

社区使用 Baichuan 2 模型需遵守 Apache 2.0 协议及 《Baichuan 2 模型社区许可协议》。Baichuan 2 模型支持商业用途,若您计划将 Baichuan 2 模型或其衍生品用于商业目的,请确保您的主体满足以下条件:

  1. 您或您关联方的服务或产品的日均活跃用户数(DAU)低于 100 万。
  2. 您及您的关联方均非软件服务提供商或云服务提供商。
  3. 您及您的关联方不存在将已获授的商用许可未经百川许可而二次授权给其他第三方的可能。

在满足上述条件的前提下,您需通过以下联系邮箱 opensource@baichuan-inc.com 提交《Baichuan 2 模型社区许可协议》要求的申请材料。审核通过后,百川将授予您一项非排他性、全球性、不可转让、不可再许可且可撤销的商业版权许可。

快速开始/Quick Start

微调

数据集准备

当前提供belle_chat_ramdon数据集的预处理和微调样例,数据集下载链接如下:

  • belle_chat_ramdon_10k

执行belle_preprocess.py,进行数据预处理、Mindrecord数据生成,将带有prompt模板的数据转换为mindrecord格式。

# 脚本路径:examples/dataset/belle_preprocess.py
python examples/dataset/belle_preprocess.py \
--input_glob /{path}/belle_chat_ramdon_10k.json \
--output_file /{path}/belle_512.mindrecord \
--seq_length 512

# 参数说明
input_glob: 输入数据集路径
model_file: 词表文件路径
output_file: 输出数据集的路径和名称
seq_length: 生成数据集的序列长度

训练

cd examples
bash msrun.sh "finetune.py --train_dataset /{path}/belle_512.mindrecord"

推理

cd examples
python inference.py