许可证:其他 任务:
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,并提供了 Chat 版本的 4bits 量化,所有版本不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。具体发布版本和下载见下表:
Baichuan 2 是由百川智能(https://www.baichuan-ai.com/)推出的新一代开源大语言模型。该模型基于 2.6 万亿 tokens 的高质量语料进行训练,在同尺寸的权威中英文基准测试中均取得了最佳性能。本次发布包括 7B 和 13B 两种参数规模的 Base 模型与 Chat 模型,并提供了 Chat 模型的 4bits 量化版本。所有版本均完全开放给学术研究使用,开发者只需通过邮件申请(mailto:opensource@baichuan-inc.com)获得官方商用许可,即可免费将其用于商业应用。具体发布版本及下载链接如下表所示:
| Base Model | Chat Model | 4bits Quantized Chat Model | |
|---|---|---|---|
| 7B | [Baichuan2-7B-Base] | [Baichuan2-7B-Chat] | [Baichuan2-7B-Chat-4bits] |
| 13B | [Baichuan2-13B-Base] | [Baichuan2-13B-Chat] | [Baichuan2-13B-Chat-4bits] |
在Baichuan2系列模型中,我们为了加快推理速度使用了Pytorch2.0加入的新功能F.scaled_dot_product_attention,因此模型需要在Pytorch2.0环境下运行。
在 Baichuan 2 系列模型中,我们采用了 PyTorch 2.0 新增的 F.scaled_dot_product_attention 功能以提升推理速度,因此模型需在 PyTorch 2.0 环境下运行。
import torch
from openmind_hub import snapshot_download
from openmind import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("JiangSuAscend/Baichuan2-13B-Base", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("JiangSuAscend/Baichuan2-13B-Base", device_map="auto", trust_remote_code=True)
inputs = tokenizer('登鹳雀楼->王之涣\n夜雨寄北->', return_tensors='pt')
inputs = inputs.to('cuda:0')
pred = model.generate(**inputs, max_new_tokens=64, repetition_penalty=1.1)
print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))我们在[通用]、[法律]、[医疗]、[数学]、[代码]和[多语言翻译]六个领域的中英文权威数据集上对模型进行了广泛测试。
| C-Eval | MMLU | CMMLU | Gaokao | AGIEval | BBH | |
|---|---|---|---|---|---|---|
| 5-shot | 5-shot | 5-shot | 5-shot | 5-shot | 3-shot | |
| GPT-4 | 68.40 | 83.93 | 70.33 | 66.15 | 63.27 | 75.12 |
| GPT-3.5 Turbo | 51.10 | 68.54 | 54.06 | 47.07 | 46.13 | 61.59 |
| LLaMA-7B | 27.10 | 35.10 | 26.75 | 27.81 | 28.17 | 32.38 |
| LLaMA2-7B | 28.90 | 45.73 | 31.38 | 25.97 | 26.53 | 39.16 |
| MPT-7B | 27.15 | 27.93 | 26.00 | 26.54 | 24.83 | 35.20 |
| Falcon-7B | 24.23 | 26.03 | 25.66 | 24.24 | 24.10 | 28.77 |
| ChatGLM2-6B | 50.20 | 45.90 | 49.00 | 49.44 | 45.28 | 31.65 |
| [Baichuan-7B] | 42.80 | 42.30 | 44.02 | 36.34 | 34.44 | 32.48 |
| [Baichuan2-7B-Base] | 54.00 | 54.16 | 57.07 | 47.47 | 42.73 | 41.56 |
| C-Eval | MMLU | CMMLU | Gaokao | AGIEval | BBH | |
|---|---|---|---|---|---|---|
| 5-shot | 5-shot | 5-shot | 5-shot | 5-shot | 3-shot | |
| GPT-4 | 68.40 | 83.93 | 70.33 | 66.15 | 63.27 | 75.12 |
| GPT-3.5 Turbo | 51.10 | 68.54 | 54.06 | 47.07 | 46.13 | 61.59 |
| LLaMA-13B | 28.50 | 46.30 | 31.15 | 28.23 | 28.22 | 37.89 |
| LLaMA2-13B | 35.80 | 55.09 | 37.99 | 30.83 | 32.29 | 46.98 |
| Vicuna-13B | 32.80 | 52.00 | 36.28 | 30.11 | 31.55 | 43.04 |
| Chinese-Alpaca-Plus-13B | 38.80 | 43.90 | 33.43 | 34.78 | 35.46 | 28.94 |
| XVERSE-13B | 53.70 | 55.21 | 58.44 | 44.69 | 42.54 | 38.06 |
| [Baichuan-13B-Base] | 52.40 | 51.60 | 55.30 | 49.69 | 43.20 | 43.01 |
| [Baichuan2-13B-Base] | 58.10 | 59.17 | 61.97 | 54.33 | 48.17 | 48.78 |
除了训练了 2.6 万亿 Tokens 的 [Baichuan2-7B-Base]模型,我们还提供了在此之前的另外 11 个中间过程的模型(分别对应训练了约 0.2 ~ 2.4 万亿 Tokens)供社区研究使用([训练过程checkpoint下载])。下图给出了这些 checkpoints 在 C-Eval、MMLU、CMMLU 三个 benchmark 上的效果变化:
除了在 2.6 万亿 Tokens 上训练的 [Baichuan2-7B-Base] 模型外,我们还提供了另外 11 个中间阶段模型供社区研究使用,每个模型分别对应约 0.2 至 2.4 万亿 Tokens 的训练量([Intermediate Checkpoints Download])。下图展示了这些检查点在 C-Eval、MMLU 和 CMMLU 三个基准测试上的性能变化。
我们在此声明,我们的开发团队并未基于 Baichuan 2 模型开发任何应用,无论是在 iOS、Android、网页或任何其他平台。我们强烈呼吁所有使用者,不要利用 Baichuan 2 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将 Baichuan 2 模型用于未经适当安全审查和备案的互联网服务。我们希望所有的使用者都能遵守这个原则,确保科技的发展能在规范和合法的环境下进行。
我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用 Baichuan 2 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
我们在此声明,我们的开发团队尚未基于 Baichuan 2 模型开发任何应用程序,无论是在 iOS、Android、网页还是任何其他平台上。我们强烈呼吁所有用户不要利用 Baichuan 2 模型从事任何危害国家/社会安全或违法的活动。此外,我们也要求用户不要将 Baichuan 2 模型用于未经适当安全审查和备案的互联网服务。我们希望所有用户都能遵守这一原则,确保科技发展在规范合法的环境中进行。
我们已尽最大努力确保模型训练过程中所用数据的合规性。然而,尽管我们付出了巨大努力,但由于模型和数据的复杂性,仍可能存在一些不可预见的问题。因此,若因使用 Baichuan 2 开源模型而引发任何问题,包括但不限于数据安全问题、舆论风险,或因模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
社区使用 Baichuan 2 模型需要遵循 [Apache 2.0]和[《Baichuan 2 模型社区许可协议》]。Baichuan 2 模型支持商业用途,如果您计划将 Baichuan 2 模型或其衍生品用于商业目的,请您确认您的主体符合以下情况:
在符合以上条件的前提下,您需要通过以下联系邮箱 opensource@baichuan-inc.com ,提交《Baichuan 2 模型社区许可协议》要求的申请材料。审核通过后,百川将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。
社区使用 Baichuan 2 模型需遵守 [Apache 2.0] 和 [《Baichuan 2 模型社区许可协议》]。Baichuan 2 模型支持商业用途,若您计划将 Baichuan 2 模型或其衍生品用于商业目的,请确保您的实体满足以下条件:
满足上述条件后,您需通过以下联系邮箱 opensource@baichuan-inc.com 提交《Baichuan 2 模型社区许可协议》要求的申请材料。审核通过后,百川将授予您一项非排他性、全球性、不可转让、不可再许可且可撤销的商业版权许可。