HuggingFace镜像/llama2_7b
模型介绍文件和版本分析
下载使用量0

Llama 2

Llama 2 是一系列预训练和微调的生成式文本模型,参数规模从 70 亿到 700 亿不等。本仓库为 70 亿参数预训练模型,已转换为 Hugging Face Transformers 格式。其他模型链接可在底部索引中找到。

模型详情

注:本模型的使用受 Meta 许可协议约束。如需下载模型权重和分词器,请访问网站并接受我们的许可协议,然后再在此处申请访问。

Meta 开发并公开发布了 Llama 2 系列大型语言模型(LLMs),这是一系列预训练和微调的生成式文本模型,参数规模从 70 亿到 700 亿不等。我们的微调 LLM 称为 Llama-2-Chat,针对对话用例进行了优化。在我们测试的大多数基准上,Llama-2-Chat 模型的性能优于开源聊天模型,并且在我们对有用性和安全性的人工评估中,其表现与 ChatGPT 和 PaLM 等一些流行的闭源模型相当。

模型开发者 Meta

模型变体 Llama 2 有多种参数规模 — 70 亿、130 亿和 700 亿 — 以及预训练和微调的变体。

输入 模型仅输入文本。

输出 模型仅生成文本。

模型架构 Llama 2 是一种自回归语言模型,采用优化的 transformer 架构。微调版本使用监督微调(SFT)和人类反馈强化学习(RLHF)来对齐人类对有用性和安全性的偏好。

训练数据参数内容长度GQA标记数学习率
Llama 2新的公开可用在线数据混合70 亿4k✗2.0T3.0 x 10-4
Llama 2新的公开可用在线数据混合130 亿4k✗2.0T3.0 x 10-4
Llama 2新的公开可用在线数据混合700 亿4k✔2.0T1.5 x 10-4

Llama 2 模型系列。 标记数仅指预训练数据。所有模型均以 400 万标记的全局批次大小进行训练。更大的模型(700 亿参数)使用分组查询注意力(GQA)以提高推理可扩展性。

模型日期 Llama 2 的训练时间为 2023 年 1 月至 2023 年 7 月。

状态 这是一个在离线数据集上训练的静态模型。随着我们利用社区反馈改进模型安全性,未来将发布微调模型的更新版本。

许可协议 自定义商业许可协议可在以下网址获取:https://ai.meta.com/resources/models-and-libraries/llama-downloads/

研究论文 "Llama-2: Open Foundation and Fine-tuned Chat Models"

预期用途

预期使用场景 Llama 2 旨在用于英语的商业和研究用途。调优模型适用于类助手聊天场景,而预训练模型可适配多种自然语言生成任务。

为使聊天版本获得预期功能和性能,需遵循特定格式,包括 INST 和 <<SYS>> 标签、BOS 和 EOS 令牌,以及其间的空格和换行(建议对输入调用 strip() 以避免双空格)。详情请参见我们在 GitHub 上的参考代码:chat_completion。

超出范围的用途 以任何违反适用法律法规(包括贸易合规法律)的方式使用。在英语以外的语言中使用。以任何其他被 Llama 2 的可接受使用政策和许可协议所禁止的方式使用。

硬件和软件

训练要素 我们使用了自定义训练库、Meta 的 Research Super Cluster 以及生产集群进行预训练。微调、标注和评估也在第三方云服务器上进行。

碳足迹 预训练在 A100-80GB 类型硬件(TDP 为 350-400W)上累计使用了 330 万 GPU 小时的计算资源。估计总排放量为 539 吨二氧化碳当量,其中 100% 通过 Meta 的可持续发展计划抵消。

时间(GPU 小时)功耗(W)碳排放(吨 CO2当量)
Llama 2 7B18432040031.22
Llama 2 13B36864040062.44
Llama 2 70B1720320400291.42
总计3311616539.00

预训练期间的 CO2 排放量。 时间:训练每个模型所需的总 GPU 时间。功耗:所用 GPU 设备的峰值功率容量,并已根据电源使用效率进行调整。100% 的排放量通过 Meta 的可持续发展计划直接抵消,并且由于我们公开发布这些模型,其他人无需承担预训练成本。

训练数据

概述 Llama 2 的预训练基于 2 万亿 tokens 的公开可用来源数据。微调数据包括公开可用的指令数据集,以及超过一百万条新的人工标注示例。预训练和微调数据集均不包含 Meta 用户数据。

数据时效性 预训练数据的截止日期为 2022 年 9 月,但部分微调数据更新,最晚至 2023 年 7 月。

评估结果

在本节中,我们报告了 Llama 1 和 Llama 2 模型在标准学术基准上的结果。所有评估均使用我们内部的评估库进行。

模型大小代码常识推理世界知识阅读理解数学MMLUBBHAGI Eval
Llama 17B14.160.846.258.56.9535.130.323.9
Llama 113B18.966.152.662.310.946.937.033.9
Llama 133B26.070.058.467.621.457.839.841.7
Llama 165B30.770.760.568.630.863.443.547.6
Llama 27B16.863.948.961.314.645.332.629.3
Llama 213B24.566.955.465.828.754.839.439.1
Llama 270B37.571.963.669.435.268.951.254.2

在分组学术基准上的整体表现。 代码: 我们报告了模型在 HumanEval 和 MBPP 上的平均 pass@1 分数。常识推理: 我们报告了 PIQA、SIQA、HellaSwag、WinoGrande、ARC easy 与 challenge、OpenBookQA 和 CommonsenseQA 的平均值。对于 CommonSenseQA,我们报告 7-shot 结果;对于所有其他基准,报告 0-shot 结果。世界知识: 我们评估了在 NaturalQuestions 和 TriviaQA 上的 5-shot 表现,并报告其平均值。阅读理解: 对于阅读理解,我们报告在 SQuAD、QuAC 和 BoolQ 上的 0-shot 平均值。数学: 我们报告了 GSM8K(8 shot)和 MATH(4 shot)基准的 top 1 平均值。

TruthfulQAToxigen
Llama 17B27.4223.00
Llama 113B41.7423.08
Llama 133B44.1922.57
Llama 165B48.7121.77
Llama 27B33.2921.25
Llama 213B41.8626.10
Llama 270B50.1824.60

预训练 LLM 在自动安全基准上的评估。 对于 TruthfulQA,我们展示既真实又信息丰富的生成内容所占百分比(越高越好)。对于 ToxiGen,我们展示有毒生成内容所占百分比(越低越好)。

TruthfulQAToxigen
Llama-2-Chat7B57.040.00
Llama-2-Chat13B62.180.00
Llama-2-Chat70B64.140.01

微调 LLM 在不同安全数据集上的评估。 指标定义同上。

伦理考量与局限性

Llama 2 是一项新技术,其使用过程中存在风险。迄今为止,相关测试均以英语进行,且尚未覆盖,也无法覆盖所有场景。基于这些原因,与所有大型语言模型(LLMs)一样,Llama 2 的潜在输出无法提前预测,在某些情况下,该模型可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此,在部署任何基于 Llama 2 的应用程序之前,开发人员应针对其特定的模型应用场景进行安全测试和调优。

详情请参见《负责任使用指南》,网址为 https://ai.meta.com/llama/responsible-use-guide/

问题报告

如发现任何软件“漏洞”或模型的其他问题,请通过以下方式之一进行报告:

  • 报告模型问题:github.com/facebookresearch/llama
  • 报告模型生成的有问题内容:developers.facebook.com/llama_output_feedback
  • 报告漏洞和安全问题:facebook.com/whitehat/info

Llama 模型索引

模型Llama2Llama2-hfLlama2-chatLlama2-chat-hf
7B链接链接链接链接
13B链接链接链接链接
70B链接链接链接链接