Baichuan 2

百川API支持搜索增强和192K长窗口，新增百川搜索增强知识库、限时免费！
🚀 百川大模型在线对话平台已正式向公众开放 🎉

修改说明（Modification）

在原始README上修改示例代码部分。 Modify the example code.

目录/Table of Contents

📖 模型介绍/Introduction
⚙️ 快速开始/Quick Start
📊 Benchmark评估/Benchmark Evaluation
📜 声明与协议/Terms and Conditions

模型介绍/Introduction

Baichuan 2 是百川智能推出的新一代开源大语言模型，采用 2.6 万亿 Tokens 的高质量语料训练，在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本，并提供了 Chat 版本的 4bits 量化，所有版本不仅对学术研究完全开放，开发者也仅需邮件申请并获得官方商用许可后，即可以免费商用。 Baichuan 2 是由百川智能推出的新一代开源大语言模型。该模型基于 2.6 万亿 Tokens 的高质量语料进行训练，在权威的中英文基准测试中均取得了同尺寸模型的最佳性能。本次发布涵盖 7B 和 13B 两种参数规模的 Base 与 Chat 版本，并提供 Chat 版本的 4bits 量化方案。所有版本不仅完全开放给学术研究使用，开发者在通过邮件申请获得官方商用许可后，亦能免费将其用于商业用途。

快速开始/Quick Start

在Baichuan2系列模型中，我们为了加快推理速度使用了Pytorch2.0加入的新功能F.scaled_dot_product_attention，因此模型需要在Pytorch2.0环境下运行。

在 Baichuan 2 系列模型中，我们采用了 PyTorch 2.0 新增的 F.scaled_dot_product_attention 功能以提升推理速度，故模型需在 PyTorch 2.0 环境下运行。

import torch
from openmind import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("PyTorch-NPU/baichuan2_7b_base", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("PyTorch-NPU/baichuan2_7b_base", device_map="npu:0", trust_remote_code=True)
inputs = tokenizer('登鹳雀楼->王之涣\n夜雨寄北->', return_tensors='pt')
inputs = inputs.to(model.device)
pred = model.generate(**inputs, max_new_tokens=64, repetition_penalty=1.1)
print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))

Benchmark 结果/Benchmark Evaluation

我们在通用、法律、医疗、数学、代码和多语言翻译六个领域的中英文权威数据集上对模型进行了广泛测试，更多详细测评结果可查看GitHub。

我们已在六个领域的中英文权威数据集上对该模型进行了广泛测试，包括通用、法律、医疗、数学、代码及多语言翻译。更多详细评估结果，请参阅GitHub。

7B Model Results

	C-Eval	MMLU	CMMLU	Gaokao	AGIEval	BBH
	5-shot	5-shot	5-shot	5-shot	5-shot	3-shot
GPT-4	68.40	83.93	70.33	66.15	63.27	75.12
GPT-3.5 Turbo	51.10	68.54	54.06	47.07	46.13	61.59
LLaMA-7B	27.10	35.10	26.75	27.81	28.17	32.38
LLaMA2-7B	28.90	45.73	31.38	25.97	26.53	39.16
MPT-7B	27.15	27.93	26.00	26.54	24.83	35.20
Falcon-7B	24.23	26.03	25.66	24.24	24.10	28.77
ChatGLM2-6B	50.20	45.90	49.00	49.44	45.28	31.65
Baichuan-7B	42.80	42.30	44.02	36.34	34.44	32.48
Baichuan2-7B-Base	54.00	54.16	57.07	47.47	42.73	41.56

13B 模型结果

	C-Eval	MMLU	CMMLU	Gaokao	AGIEval	BBH
	5-shot	5-shot	5-shot	5-shot	5-shot	3-shot
GPT-4	68.40	83.93	70.33	66.15	63.27	75.12
GPT-3.5 Turbo	51.10	68.54	54.06	47.07	46.13	61.59
LLaMA-13B	28.50	46.30	31.15	28.23	28.22	37.89
LLaMA2-13B	35.80	55.09	37.99	30.83	32.29	46.98
Vicuna-13B	32.80	52.00	36.28	30.11	31.55	43.04
Chinese-Alpaca-Plus-13B	38.80	43.90	33.43	34.78	35.46	28.94
XVERSE-13B	53.70	55.21	58.44	44.69	42.54	38.06
Baichuan-13B-Base	52.40	51.60	55.30	49.69	43.20	43.01
Baichuan2-13B-Base	58.10	59.17	61.97	54.33	48.17	48.78

声明与协议/Terms and Conditions

声明

我们在此声明，我们的开发团队并未基于 Baichuan 2 模型开发任何应用，无论是在 iOS、Android、网页或任何其他平台。我们强烈呼吁所有使用者，不要利用 Baichuan 2 模型进行任何危害国家社会安全或违法的活动。另外，我们也要求使用者不要将 Baichuan 2 模型用于未经适当安全审查和备案的互联网服务。我们希望所有的使用者都能遵守这个原则，确保科技的发展能在规范和合法的环境下进行。

我们已经尽我们所能，来确保模型训练过程中使用的数据的合规性。然而，尽管我们已经做出了巨大的努力，但由于模型和数据的复杂性，仍有可能存在一些无法预见的问题。因此，如果由于使用 Baichuan 2 开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。

我们在此声明，我们的开发团队并未基于 Baichuan 2 模型开发任何应用，无论是在 iOS、Android、网页或任何其他平台。我们强烈呼吁所有使用者不要利用 Baichuan 2 模型进行任何危害国家/社会安全或违法的活动。另外，我们也要求使用者不要将 Baichuan 2 模型用于未经适当安全审查和备案的互联网服务。我们希望所有的使用者都能遵守这个原则，确保科技的发展能在规范和合法的环境下进行。

协议

社区使用 Baichuan 2 模型需要遵循 Apache 2.0 和《Baichuan 2 模型社区许可协议》。Baichuan 2 模型支持商业用途，如果您计划将 Baichuan 2 模型或其衍生品用于商业目的，请您确认您的主体符合以下情况：

您或您的关联方的服务或产品的日均用户活跃量（DAU）低于100万。
您或您的关联方不是软件服务提供商、云服务提供商。
您或您的关联方不存在将授予您的商用许可，未经百川许可二次授权给其他第三方的可能。

在符合以上条件的前提下，您需要通过以下联系邮箱 opensource@baichuan-inc.com ，提交《Baichuan 2 模型社区许可协议》要求的申请材料。审核通过后，百川将特此授予您一个非排他性、全球性、不可转让、不可再许可、可撤销的商用版权许可。

社区使用 Baichuan 2 模型需遵守 Apache 2.0 协议以及《Baichuan 2 模型社区许可协议》。Baichuan 2 模型支持商业用途，若您计划将 Baichuan 2 模型或其衍生产品用于商业目的，请确保您的实体满足以下条件：

您或您关联方的服务或产品的日均活跃用户数（DAU）低于100万。
您及您的关联方均非软件服务提供商或云服务提供商。
您或您的关联方不得在未经百川许可的情况下，将授予您的商用许可二次授权给其他第三方。

满足上述条件后，您需通过以下联系邮箱 opensource@baichuan-inc.com 提交《Baichuan 2 模型社区许可协议》要求的申请材料。审核通过后，百川将授予您一项非排他性、全球性、不可转让、不可再许可且可撤销的商业版权许可。