Llama-3 8B Gradient Instruct 1048k

加入我们的自定义代理和长上下文（262k-1M+）等待列表：https://forms.gle/L6TDY7dozx8TuoUv7

Gradient 将您的数据整合，部署自主助手，助力您业务中的关键操作。如果您希望构建自定义 AI 模型或代理，请发送电子邮件至 contact@gradient.ai。更多信息请参阅我们的自定义 LLM 和 AI 系统的端到端开发服务

此模型将 LLama-3 8B 的上下文长度从 8k 扩展至 > 1040K，由 Gradient 开发，并得到 Crusoe Energy 的计算支持。它展示了 SOTA LLM 可以通过适当调整 RoPE theta 以最小化训练在长上下文上进行操作的能力。我们在这一阶段训练了 830M 个 token，总共训练了 1.4B 个 token，这仅占 Llama-3 原始预训练数据的 < 0.01%。

更新（5/3）：我们进一步微调了模型，以增强其助手般的聊天能力。

更新后的 NIAH 结果：

RULER 评估：

我们的模型在检索和问答任务中仅次于 GPT-4 和 Yi
它是总体排名前 7 的最小参数模型

方法：

以 meta-llama/Meta-Llama-3-8B-Instruct 为基础
使用 NTK-aware 插值 [1] 初始化 RoPE theta 的最佳调度，随后进行经验性的 RoPE theta 优化
类似 Large World Model [2] 的渐进式训练，逐步增加上下文长度（详见下文）

基础设施：

我们在 EasyContext Blockwise RingAttention 库 [3] 的基础上构建，以可扩展且高效地在 Crusoe Energy 高性能 L40S 集群上训练长达 1048k 个 token 的上下文。

值得注意的是，我们在 Ring Attention 之上叠加了并行处理，并采用了自定义网络拓扑，以更好地利用大型 GPU 集群，应对设备间传递大量 KV 块时的网络瓶颈。这使我们的模型训练速度提升了 33 倍（参见下表中 524k 和 1048k 与 65k 和 262k 的对比）。

数据：

对于训练数据，我们通过增强 SlimPajama 生成长上下文。我们还基于 UltraChat [4] 对聊天数据集进行了微调，采用了与 [2] 类似的数据增强方法。

渐进式训练详情：

	65K	262K	524k	1048k
初始化自	LLaMA-3 8B	65K	262K	524k
序列长度 2^N	16	18	19	20
RoPE theta	15.3 M	207.1 M	1.06B	2.80B
批量大小	1	1	16	8
梯度累积步数	32	16	1	1
步数	30	24	50	50
总 Token 数	62914560	100663296	419430400	838860800
学习率	2.00E-05	2.00E-05	2.00E-05	2.00E-05
GPU 数量	8	32	512	512
GPU 类型	NVIDIA L40S	NVIDIA L40S	NVIDIA L40S	NVIDIA L40S
训练时间（分钟）	202	555	61	87

评估：

image/png

EVAL_MAX_CONTEXT_LENGTH=1040200
EVAL_MIN_CONTEXT_LENGTH=100
EVAL_CONTEXT_INTERVAL=86675
EVAL_DEPTH_INTERVAL=0.2
EVAL_RND_NUMBER_DIGITS=8

HAYSTACK1:
    EVAL_GENERATOR_TOKENS=25

HAYSTACK2:
    EVAL_CONTEXT_INTERVAL=173350
    EVAL_GENERATOR_TOKENS=150000

HAYSTACK3:
    EVAL_GENERATOR_TOKENS=925000

所有未在Haystack 1和3中展示的盒子均100%准确。Haystacks 1、2和3的详细信息可参见此博客文章。

量化模型:

GGUF by Crusoe。请注意，您需要添加128009作为llama.cpp的特殊标记。
MLX-4bit
Ollama
vLLM docker镜像，推荐通过--max-model-len 32768加载
若您对托管版本感兴趣，请通过下方邮件联系我们。

Gradient AI团队

https://gradient.ai/

Gradient正在加速各行业的AI转型。我们的AI Foundry整合您的数据，部署自主助手，助力您业务中的关键运营。

联系我们

发送邮件至contact@gradient.ai

引用:

@misc{gradientlongcontextllama3,
  title={Llama 3 Gradient: A series of long context models},
  author={Leonid Pekelis and Michael Feil and Forrest Moret and Mark Huang and Tiffany Peng},
  year={2024},
  url = {https://gradient.ai/blog/scaling-rotational-embeddings-for-long-context-language-models},
  doi = { 10.57967/hf/3372 },
}

参考文献

[1] Peng, Bowen, 等人。"Yarn: 大型语言模型的上下文窗口扩展。" arXiv预印本 arXiv:2309.00071 (2023).

[2] Liu, Hao, 等人。"RingAttention 在百万长度视频与语言上的世界模型。" arXiv预印本 arXiv:2402.08268 (2024).

[3] https://github.com/jzhang38/EasyContext

[4] Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, 和 Bowen Zhou。通过扩展高质量指导性对话增强聊天语言模型。arXiv预印本 arXiv:2305.14233, 2023.

基础模型

模型详情

Meta 开发并发布了 Meta Llama 3 系列大型语言模型 (LLMs)，这是一组包含 8B 和 70B 规模的预训练和指令微调生成文本模型。Llama 3 指令微调模型针对对话用例进行了优化，并在常见的行业基准测试中优于许多现有的开源聊天模型。此外，在开发这些模型时，我们非常注重优化有用性和安全性。

模型开发者 Meta

变体 Llama 3 有两种规模 — 8B 和 70B 参数 — 分别有预训练和指令微调版本。

输入模型仅接受文本输入。

输出模型仅生成文本和代码。

模型架构 Llama 3 是一种自回归语言模型，采用优化的 Transformer 架构。微调版本通过监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 来与人类对有用性和安全性的偏好对齐。

	训练数据	参数	上下文长度	GQA	Token 数量	知识截止
Llama 3	公开可用在线数据的新组合。	8B	8k	是	15T+	2023年3月
Llama 3	公开可用在线数据的新组合。	70B	8k	是	15T+	2023年12月

Llama 3 系列模型。Token 数量仅指预训练数据。8B 和 70B 版本均使用分组查询注意力 (GQA) 以提高推理的可扩展性。

模型发布日期 2024年4月18日。

状态这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型安全性，未来将发布微调模型的更新版本。

许可证 可在以下网址获取自定义商业许可证：https://llama.meta.com/llama3/license

如何发送关于模型的疑问或评论有关如何提供模型反馈或评论的说明，请参见模型 README。有关生成参数的技术信息以及如何在应用程序中使用 Llama 3 的配方，请访问此处。

预期用途

预期用例 Llama 3 适用于英语的商业和研究用途。指令微调模型适用于类似助手的聊天，而预训练模型可以适应各种自然语言生成任务。

超出范围 以任何违反适用法律或法规（包括贸易合规法律）的方式使用。以任何违反可接受使用政策和 Llama 3 社区许可证的方式使用。以英语以外的语言使用。

**注意：开发者可以在遵守 Llama 3 社区许可证和可接受使用政策的前提下，对 Llama 3 模型进行英语以外语言的微调。

如何使用

本仓库包含两个版本的 Meta-Llama-3-8B-Instruct，分别适用于 transformers 和原始的 llama3 代码库。

使用 transformers

您可以使用 Transformers 的 pipeline 抽象进行对话推理，或者通过利用 Auto 类与 generate() 函数。以下是两者的示例。

Transformers pipeline

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
		messages, 
		tokenize=False, 
		add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

自回归语言模型自动模型

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

与 `llama3` 配合使用

请按照仓库中的说明进行操作。

要下载原始检查点，请参考以下利用 huggingface-cli 的示例命令：

huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct

对于 Hugging Face 的支持，我们推荐使用 transformers 库或是 TGI，但类似的命令也适用。

硬件与软件

训练因素 我们采用了定制的训练库、Meta的研究超级集群以及生产级集群进行预训练。微调、注解和评估则在第三方云端计算平台执行。

碳足迹 - 预训练 利用了总计770万小时的GPU计算时间，硬件类型为H100-80GB（热设计功率700瓦）。估算的总排放量为2290吨二氧化碳当量，这些排放的100%已通过Meta的可持续发展计划进行了抵消。

	时间 (GPU小时)	功率消耗 (W)	碳排放 (tCO2eq)
Llama 3 8B	130万	700	390
Llama 3 70B	640万	700	1900
总计	770万	-	2290

预训练期间的CO2排放：时间为每个模型训练所需的总GPU时间；功率消耗根据所用GPU设备的峰值功率容量调整以考虑能效比。100%的排放已被Meta的可持续性项目直接抵消，由于我们公开发布这些模型，因此无需其他人承担预训练成本。

训练数据

概览 Llama 3使用了超过15万亿个从公共来源获取的令牌进行预训练。微调数据包括公开的指令数据集以及超过1000万个经过人工标注的例子。无论是预训练还是微调数据集都不包含Meta用户数据。

数据新鲜度 预训练数据的截止日期分别为：7B模型为2023年3月，而70B模型为2023年12月。

基准测试

本节报告Llama 3模型在标准自动基准测试上的结果。所有评价均使用我们的内部评估库。详细方法论见此处。

基础预训练模型

分类	基准	Llama 3 8B	Llama2 7B	Llama2 13B	Llama 3 70B	Llama2 70B
通用	MMLU (5-shot)	66.6	45.7	53.8	79.5	69.7
	AGIEval Eng(3-5shot)	45.9	28.8	38.7	63.0	54.8
	CommonSenseQA (7-shot)	72.6	57.6	67.6	83.8	78.7
	Winogrande (5-shot)	76.1	73.3	75.4	83.1	81.8
	BIG-Bench Hard(3-shot,CoT)	61.1	38.1	47.0	81.3	65.7
	ARC-Challenge (25-shot)	78.6	53.7	67.6	93.0	85.3
知识推理	TriviaQA-Wiki (5-shot)	78.5	72.1	79.6	89.7	87.5
阅读理解	SQuAD (1-shot)	76.4	72.2	72.1	85.6	82.6
	QuAC (1-shot,F1)	44.4	39.6	44.9	51.1	49.4
	BoolQ (0-shot)	75.7	65.5	66.9	79.0	73.1
	DROP (3-shot,F1)	58.4	37.9	49.8	79.7	70.2

指令微调模型

基准	Llama 3 8B	Llama 2 7B	Llama 2 13B	Llama 3 70B	Llama 2 70B
MMLU (5-shot)	68.4	34.1	47.8	82.0	52.9
GPQA (0-shot)	34.2	21.7	22.3	39.5	21.0
HumanEval (0-shot)	62.2	7.9	14.0	81.7	25.6
GSM-8K (8-shot,CoT)	79.6	25.7	77.4	93.0	57.5
MATH (4-shot,CoT)	30.0	3.8	6.7	50.4	11.6

责任与安全

我们认为AI的开放方式能够带来更好的、更安全的产品，更快的创新以及更大的总体市场。我们致力于负责任的人工智能开发，并采取了一系列措施来限制误用和伤害，同时支持开源社区。

基础模型是广泛能力的技术，旨在用于多样化应用。它们并未出厂即符合所有应用场景的安全级别要求，因为这些需求自然会因不同应用而异。

相反，负责任的LLM部署需要在整个应用程序开发过程中实施一系列安全最佳实践，从模型预训练到微调，再到构建包含防护措施的系统，以具体针对用例和受众调整安全性需求。

随着Llama 3的发布，我们更新了《负责任使用指南》，概述了开发者实现其应用中模型和系统层面安全性所需采取的步骤和最佳实践。我们还提供了包括Meta Llama Guard 2和Code Shield在内的安全工具套件。这些工具被证明能大幅降低LLM系统的残留风险，同时保持高度的有用性。我们鼓励开发者按需调整并部署这些防护措施，并提供了一个参考实现作为起点。

Llama 3指导版

正如《负责任使用指南》所述，在模型的帮助性和一致性之间存在一定的权衡是不可避免的。开发者应根据特定用例和受众审慎考虑帮助性和一致性的利弊。在使用Llama模型时，开发者应注意剩余的风险，并根据需要利用额外的安全工具达到适合自身用例的安全标准。

安全性
对于我们的指令微调模型，我们进行了广泛的红队演练，进行了对抗性评估，并实施了安全性缓解措施以降低残余风险。尽管如此，如同所有大型语言模型一样，可能会存在一定残余风险，建议开发者在其用例背景下评估这些风险。同时，我们正与社区合作，使人工智能安全基准标准变得透明、严格且可解释。

拒绝响应
除了残余风险外，我们特别重视模型对良性提示的拒绝响应。过度拒绝不仅可能影响用户体验，在某些情况下甚至有害。我们听取了开发者的反馈，改进了微调过程，确保Llama 3相比Llama 2显著减少了错误地拒绝回答提示的可能性。

我们建立了内部基准并开发了减缓措施来限制错误拒绝，使Llama 3成为迄今为止最有益的模型。

负责任的发布

除了上述负责任使用的考量之外，我们遵循了一项严格流程，在做出发布决定前采取额外措施防止滥用和关键风险。

滥用
访问或使用Llama 3即表示您同意接受《可接受使用政策》。该政策的最新版本可在https://llama.meta.com/llama3/use-policy/处找到。

关键风险
CBRNE（化学、生物、辐射、核及高爆炸药）

我们对该领域模型的安全性进行了两方面评估：

模型训练过程中迭代测试，评估涉及CBRNE威胁等相关回复的安全性及其它对抗性风险。
吸纳外部CBRNE专家进行提升测试，评估模型准确提供专家知识的能力，并减少潜在CBRNE滥用的障碍，参照仅使用网络搜索（不使用模型）所能达到的水平。

网络安全

我们使用Meta的网络安全评估套件CyberSecEval对Llama 3进行了评估，衡量了Llama 3作为编码助手时提出不安全代码的倾向，以及Llama 3在接到协助进行网络攻击的请求时的顺从性。这里的攻击定义基于行业标准的MITRE ATT&CK网络攻击本体。在我们的不安全编码和网络攻击协助测试中，Llama 3的表现与同等编码能力的模型相当或更为安全。

儿童安全

儿童安全风险评估由专家团队进行，旨在评估模型产生可能导致儿童安全风险输出的能力，并通过微调提供必要的风险缓解措施。我们利用这些专家红队测试，通过Llama 3模型开发扩展了评估基准的覆盖范围。对于Llama 3，我们采用基于目标的方法进行了深入的评估，以评估模型在多个攻击向量上的风险。我们还与内容专家合作，进行了红队测试，评估可能违反规定的内容，同时考虑到市场特定的细微差别或经验。

社区

生成式AI的安全性需要专业知识和工具，我们相信开放社区的力量能够加速其进步。我们是AI联盟、AI伙伴关系和MLCommons等开放联盟的活跃成员，积极参与安全标准化和透明度的贡献。我们鼓励社区采用MLCommons概念验证评估等分类法，以促进安全性和内容评估的协作和透明度。我们的Purple Llama工具已开源供社区使用，并在包括云服务提供商在内的生态系统合作伙伴中广泛分发。我们鼓励社区对我们的Github仓库做出贡献。

最后，我们设立了一系列资源，包括输出报告机制和漏洞赏金计划，以借助社区的力量持续改进Llama技术。

伦理考量与局限性

Llama 3的核心价值观是开放性、包容性和有用性。它旨在服务于所有人，并适用于广泛的使用场景。因此，它被设计为能够被来自不同背景、经验和视角的人们所访问。Llama 3尊重所有用户的尊严和自主权，特别是在促进创新和进步的自由思想和表达方面。

然而，Llama 3是一项新技术，与任何新技术一样，其使用存在风险。迄今为止的测试仅限于英语，并未覆盖所有场景。因此，与所有大型语言模型一样，Llama 3的潜在输出无法提前预测，模型在某些情况下可能会产生不准确、有偏见或其他令人反感的回应。因此，在部署任何Llama 3模型应用之前，开发者应进行针对其特定应用的安全测试和调优。如《负责任使用指南》所述，我们建议将Purple Llama解决方案融入您的工作流程，特别是Llama Guard，它提供了一个基础模型，用于过滤输入和输出提示，以在模型级别安全的基础上增加系统级别的安全性。

请参阅《负责任使用指南》，网址为http://llama.meta.com/responsible-use-guide

引用说明

@article{llama3modelcard,

title={Llama 3 Model Card},

author={AI@Meta},

year={2024},

url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}

}

贡献者

Aaditya Singh; Aaron Grattafiori; Abhimanyu Dubey; Abhinav Jauhri; Abhinav Pandey; Abhishek Kadian; Adam Kelsey; Adi Gangidi; Ahmad Al-Dahle; Ahuva Goldstand; Aiesha Letman; Ajay Menon; Akhil Mathur; Alan Schelten; Alex Vaughan; Amy Yang; Andrei Lupu; Andres Alvarado; Andrew Gallagher; Andrew Gu; Andrew Ho; Andrew Poulton; Andrew Ryan; Angela Fan; Ankit Ramchandani; Anthony Hartshorn; Archi Mitra; Archie Sravankumar; Artem Korenev; Arun Rao; Ashley Gabriel; Ashwin Bharambe; Assaf Eisenman; Aston Zhang; Aurelien Rodriguez; Austen Gregerson; Ava Spataru; Baptiste Roziere; Ben Maurer; Benjamin Leonhardi; Bernie Huang; Bhargavi Paranjape; Bing Liu; Binh Tang; Bobbie Chern; Brani Stojkovic; Brian Fuller; Catalina Mejia Arenas; Chao Zhou; Charlotte Caucheteux; Chaya Nayak; Ching-Hsiang Chu; Chloe Bi; Chris Cai; Chris Cox; Chris Marra; Chris McConnell; Christian Keller; Christoph Feichtenhofer; Christophe Touret; Chunyang Wu; Corinne Wong; Cristian Canton Ferrer; Damien Allonsius; Daniel Kreymer; Daniel Haziza; Daniel Li; Danielle Pintz; Danny Livshits; Danny Wyatt; David Adkins; David Esiobu; David Xu; Davide Testuggine; Delia David; Devi Parikh; Dhruv Choudhary; Dhruv Mahajan; Diana Liskovich; Diego Garcia-Olano; Diego Perino; Dieuwke Hupkes; Dingkang Wang; Dustin Holland; Egor Lakomkin; Elina Lobanova; Xiaoqing Ellen Tan; Emily Dinan; Eric Smith; Erik Brinkman; Esteban Arcaute; Filip Radenovic; Firat Ozgenel; Francesco Caggioni; Frank Seide; Frank Zhang; Gabriel Synnaeve; Gabriella Schwarz; Gabrielle Lee; Gada Badeer; Georgia Anderson; Graeme Nail; Gregoire Mialon; Guan Pang; Guillem Cucurell; Hailey Nguyen; Hannah Korevaar; Hannah Wang; Haroun Habeeb; Harrison Rudolph; Henry Aspegren; Hu Xu; Hugo Touvron; Iga Kozlowska; Igor Molybog; Igor Tufanov; Iliyan Zarov; Imanol Arrieta Ibarra; Irina-Elena Veliche; Isabel Kloumann; Ishan Misra; Ivan Evtimov; Jacob Xu; Jade Copet; Jake Weissman; Jan Geffert; Jana Vranes; Japhet Asher; Jason Park; Jay Mahadeokar; Jean-Baptiste Gaya; Jeet Shah; Jelmer van der Linde; Jennifer Chan; Jenny Hong; Jenya Lee; Jeremy Fu; Jeremy Teboul; Jianfeng Chi; Jianyu Huang; Jie Wang; Jiecao Yu; Joanna Bitton; Joe Spisak; Joelle Pineau; Jon Carvill; Jongsoo Park; Joseph Rocca; Joshua Johnstun; Junteng Jia; Kalyan Vasuden Alwala; Kam Hou U; Kate Plawiak; Kartikeya Upasani; Kaushik Veeraraghavan; Ke Li; Kenneth Heafield; Kevin Stone; Khalid El-Arini; Krithika Iyer; Kshitiz Malik; Kuenley Chiu; Kunal Bhalla; Kyle Huang; Lakshya Garg; Lauren Rantala-Yeary; Laurens van der Maaten; Lawrence Chen; Leandro Silva; Lee Bell; Lei Zhang; Liang Tan; Louis Martin; Lovish Madaan; Luca Wehrstedt; Lukas Blecher; Luke de Oliveira; Madeline Muzzi; Madian Khabsa; Manav Avlani; Mannat Singh; Manohar Paluri; Mark Zuckerberg; Marcin Kardas; Martynas Mankus; Mathew Oldham; Mathieu Rita; Matthew Lennie; Maya Pavlova; Meghan Keneally; Melanie Kambadur; Mihir Patel; Mikayel Samvelyan; Mike Clark; Mike Lewis; Min Si; Mitesh Kumar Singh; Mo Metanat; Mona Hassan; Naman Goyal; Narjes Torabi; Nicolas Usunier; Nikolay Bashlykov; Nikolay Bogoychev; Niladri Chatterji; Ning Dong; Oliver Aobo Yang; Olivier Duchenne; Onur Celebi; Parth Parekh; Patrick Alrassy; Paul Saab; Pavan Balaji; Pedro Rittner; Pengchuan Zhang; Pengwei Li; Petar Vasic; Peter Weng; Polina Zvyagina; Prajjwal Bhargava; Pratik Dubal; Praveen Krishnan; Punit Singh Koura; Qing He; Rachel Rodriguez; Ragavan Srinivasan; Rahul Mitra; Ramon Calderer; Raymond Li; Robert Stojnic; Roberta Raileanu; Robin Battey; Rocky Wang; Rohit Girdhar; Rohit Patel; Romain Sauvestre; Ronnie Polidoro; Roshan Sumbaly; Ross Taylor; Ruan Silva; Rui Hou; Rui Wang; Russ Howes; Ruty Rinott; Saghar Hosseini; Sai Jayesh Bondu; Samyak Datta; Sanjay Singh; Sara Chugh; Sargun Dhillon; Satadru Pan; Sean Bell; Sergey Edunov; Shaoliang Nie; Sharan Narang; Sharath Raparthy; Shaun Lindsay; Sheng Feng; Sheng Shen; Shenghao Lin; Shiva Shankar; Shruti Bhosale; Shun Zhang; Simon Vandenhende; Sinong Wang; Seohyun Sonia Kim; Soumya Batra; Sten Sootla; Steve Kehoe; Suchin Gururangan; Sumit Gupta; Sunny Virk; Sydney Borodinsky; Tamar Glaser; Tamar Herman; Tamara Best; Tara Fowler; Thomas Georgiou; Thomas Scialom; Tianhe Li; Todor Mihaylov; Tong Xiao; Ujjwal Karn; Vedanuj Goswami; Vibhor Gupta; Vignesh Ramanathan; Viktor Kerkez; Vinay Satish Kumar; Vincent Gonguet; Vish Vogeti; Vlad Poenaru; Vlad Tiberiu Mihailescu; Vladan Petrovic; Vladimir Ivanov; Wei Li; Weiwei Chu; Wenhan Xiong; Wenyin Fu; Wes Bouaziz; Whitney Meers; Will Constable; Xavier Martinet; Xiaojian Wu; Xinbo Gao; Xinfeng Xie; Xuchao Jia; Yaelle Goldschlag; Yann LeCun; Yashesh Gaur; Yasmine Babaei; Ye Qi; Yenda Li; Yi Wen; Yiwen Song; Youngjin Nam; Yuchen Hao; Yuchen Zhang; Yun Wang; Yuning Mao; Yuzi He; Zacharie Delpierre Coudert; Zachary DeVito; Zahra Hankir; Zhaoduo Wen; Zheng Yan; Zhengxing Chen; Zhenyu Yang; Zoe Papakipos

Llama-3 8B Gradient Instruct 1048k

加入我们的自定义代理和长上下文（262k-1M+）等待列表：https://forms.gle/L6TDY7dozx8TuoUv7

加入我们的 Discord

更新（5/3）：我们进一步微调了模型，以增强其助手般的聊天能力。

更新后的 NIAH 结果：

RULER 评估：

我们的模型在检索和问答任务中仅次于 GPT-4 和 Yi
它是总体排名前 7 的最小参数模型

方法：

以 meta-llama/Meta-Llama-3-8B-Instruct 为基础
使用 NTK-aware 插值 [1] 初始化 RoPE theta 的最佳调度，随后进行经验性的 RoPE theta 优化
类似 Large World Model [2] 的渐进式训练，逐步增加上下文长度（详见下文）

基础设施：

我们在 EasyContext Blockwise RingAttention 库 [3] 的基础上构建，以可扩展且高效地在 Crusoe Energy 高性能 L40S 集群上训练长达 1048k 个 token 的上下文。

数据：

对于训练数据，我们通过增强 SlimPajama 生成长上下文。我们还基于 UltraChat [4] 对聊天数据集进行了微调，采用了与 [2] 类似的数据增强方法。

渐进式训练详情：

	65K	262K	524k	1048k
初始化自	LLaMA-3 8B	65K	262K	524k
序列长度 2^N	16	18	19	20
RoPE theta	15.3 M	207.1 M	1.06B	2.80B
批量大小	1	1	16	8
梯度累积步数	32	16	1	1
步数	30	24	50	50
总 Token 数	62914560	100663296	419430400	838860800
学习率	2.00E-05	2.00E-05	2.00E-05	2.00E-05
GPU 数量	8	32	512	512
GPU 类型	NVIDIA L40S	NVIDIA L40S	NVIDIA L40S	NVIDIA L40S
训练时间（分钟）	202	555	61	87

评估：

image/png

EVAL_MAX_CONTEXT_LENGTH=1040200
EVAL_MIN_CONTEXT_LENGTH=100
EVAL_CONTEXT_INTERVAL=86675
EVAL_DEPTH_INTERVAL=0.2
EVAL_RND_NUMBER_DIGITS=8

HAYSTACK1:
    EVAL_GENERATOR_TOKENS=25

HAYSTACK2:
    EVAL_CONTEXT_INTERVAL=173350
    EVAL_GENERATOR_TOKENS=150000

HAYSTACK3:
    EVAL_GENERATOR_TOKENS=925000

所有未在Haystack 1和3中展示的盒子均100%准确。Haystacks 1、2和3的详细信息可参见此博客文章。

量化模型:

GGUF by Crusoe。请注意，您需要添加128009作为llama.cpp的特殊标记。
MLX-4bit
Ollama
vLLM docker镜像，推荐通过--max-model-len 32768加载
若您对托管版本感兴趣，请通过下方邮件联系我们。

Gradient AI团队

https://gradient.ai/

Gradient正在加速各行业的AI转型。我们的AI Foundry整合您的数据，部署自主助手，助力您业务中的关键运营。

联系我们

发送邮件至contact@gradient.ai

引用:

@misc{gradientlongcontextllama3,
  title={Llama 3 Gradient: A series of long context models},
  author={Leonid Pekelis and Michael Feil and Forrest Moret and Mark Huang and Tiffany Peng},
  year={2024},
  url = {https://gradient.ai/blog/scaling-rotational-embeddings-for-long-context-language-models},
  doi = { 10.57967/hf/3372 },
}

参考文献

[1] Peng, Bowen, 等人。"Yarn: 大型语言模型的上下文窗口扩展。" arXiv预印本 arXiv:2309.00071 (2023).

[2] Liu, Hao, 等人。"RingAttention 在百万长度视频与语言上的世界模型。" arXiv预印本 arXiv:2402.08268 (2024).

[3] https://github.com/jzhang38/EasyContext

基础模型

模型详情

模型开发者 Meta

变体 Llama 3 有两种规模 — 8B 和 70B 参数 — 分别有预训练和指令微调版本。

输入模型仅接受文本输入。

输出模型仅生成文本和代码。

	训练数据	参数	上下文长度	GQA	Token 数量	知识截止
Llama 3	公开可用在线数据的新组合。	8B	8k	是	15T+	2023年3月
Llama 3	公开可用在线数据的新组合。	70B	8k	是	15T+	2023年12月

Llama 3 系列模型。Token 数量仅指预训练数据。8B 和 70B 版本均使用分组查询注意力 (GQA) 以提高推理的可扩展性。

模型发布日期 2024年4月18日。

状态这是一个基于离线数据集训练的静态模型。随着我们根据社区反馈改进模型安全性，未来将发布微调模型的更新版本。

许可证 可在以下网址获取自定义商业许可证：https://llama.meta.com/llama3/license

预期用途

预期用例 Llama 3 适用于英语的商业和研究用途。指令微调模型适用于类似助手的聊天，而预训练模型可以适应各种自然语言生成任务。

**注意：开发者可以在遵守 Llama 3 社区许可证和可接受使用政策的前提下，对 Llama 3 模型进行英语以外语言的微调。

如何使用

本仓库包含两个版本的 Meta-Llama-3-8B-Instruct，分别适用于 transformers 和原始的 llama3 代码库。

使用 transformers

您可以使用 Transformers 的 pipeline 抽象进行对话推理，或者通过利用 Auto 类与 generate() 函数。以下是两者的示例。

Transformers pipeline

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
		messages, 
		tokenize=False, 
		add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

自回归语言模型自动模型

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))

与 `llama3` 配合使用

请按照仓库中的说明进行操作。

要下载原始检查点，请参考以下利用 huggingface-cli 的示例命令：

huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct

对于 Hugging Face 的支持，我们推荐使用 transformers 库或是 TGI，但类似的命令也适用。

硬件与软件

训练因素 我们采用了定制的训练库、Meta的研究超级集群以及生产级集群进行预训练。微调、注解和评估则在第三方云端计算平台执行。

	时间 (GPU小时)	功率消耗 (W)	碳排放 (tCO2eq)
Llama 3 8B	130万	700	390
Llama 3 70B	640万	700	1900
总计	770万	-	2290

训练数据

数据新鲜度 预训练数据的截止日期分别为：7B模型为2023年3月，而70B模型为2023年12月。

基准测试

本节报告Llama 3模型在标准自动基准测试上的结果。所有评价均使用我们的内部评估库。详细方法论见此处。

基础预训练模型

分类	基准	Llama 3 8B	Llama2 7B	Llama2 13B	Llama 3 70B	Llama2 70B
通用	MMLU (5-shot)	66.6	45.7	53.8	79.5	69.7
	AGIEval Eng(3-5shot)	45.9	28.8	38.7	63.0	54.8
	CommonSenseQA (7-shot)	72.6	57.6	67.6	83.8	78.7
	Winogrande (5-shot)	76.1	73.3	75.4	83.1	81.8
	BIG-Bench Hard(3-shot,CoT)	61.1	38.1	47.0	81.3	65.7
	ARC-Challenge (25-shot)	78.6	53.7	67.6	93.0	85.3
知识推理	TriviaQA-Wiki (5-shot)	78.5	72.1	79.6	89.7	87.5
阅读理解	SQuAD (1-shot)	76.4	72.2	72.1	85.6	82.6
	QuAC (1-shot,F1)	44.4	39.6	44.9	51.1	49.4
	BoolQ (0-shot)	75.7	65.5	66.9	79.0	73.1
	DROP (3-shot,F1)	58.4	37.9	49.8	79.7	70.2

指令微调模型

基准	Llama 3 8B	Llama 2 7B	Llama 2 13B	Llama 3 70B	Llama 2 70B
MMLU (5-shot)	68.4	34.1	47.8	82.0	52.9
GPQA (0-shot)	34.2	21.7	22.3	39.5	21.0
HumanEval (0-shot)	62.2	7.9	14.0	81.7	25.6
GSM-8K (8-shot,CoT)	79.6	25.7	77.4	93.0	57.5
MATH (4-shot,CoT)	30.0	3.8	6.7	50.4	11.6

责任与安全

基础模型是广泛能力的技术，旨在用于多样化应用。它们并未出厂即符合所有应用场景的安全级别要求，因为这些需求自然会因不同应用而异。

Llama 3指导版

我们建立了内部基准并开发了减缓措施来限制错误拒绝，使Llama 3成为迄今为止最有益的模型。

负责任的发布

除了上述负责任使用的考量之外，我们遵循了一项严格流程，在做出发布决定前采取额外措施防止滥用和关键风险。

滥用
访问或使用Llama 3即表示您同意接受《可接受使用政策》。该政策的最新版本可在https://llama.meta.com/llama3/use-policy/处找到。

关键风险
CBRNE（化学、生物、辐射、核及高爆炸药）

我们对该领域模型的安全性进行了两方面评估：

模型训练过程中迭代测试，评估涉及CBRNE威胁等相关回复的安全性及其它对抗性风险。
吸纳外部CBRNE专家进行提升测试，评估模型准确提供专家知识的能力，并减少潜在CBRNE滥用的障碍，参照仅使用网络搜索（不使用模型）所能达到的水平。

网络安全

儿童安全

社区

最后，我们设立了一系列资源，包括输出报告机制和漏洞赏金计划，以借助社区的力量持续改进Llama技术。

伦理考量与局限性

请参阅《负责任使用指南》，网址为http://llama.meta.com/responsible-use-guide

引用说明

@article{llama3modelcard,

title={Llama 3 Model Card},

author={AI@Meta},

year={2024},

url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}

}

Llama-3 8B Gradient Instruct 1048k

Gradient AI团队

联系我们

引用:

参考文献

基础模型

模型详情

预期用途

如何使用

使用 transformers

Transformers pipeline

自回归语言模型自动模型

与 llama3 配合使用

硬件与软件

训练数据

基准测试

基础预训练模型

指令微调模型

责任与安全

Llama 3指导版

负责任的发布

网络安全

儿童安全

社区

伦理考量与局限性

引用说明

贡献者

Llama-3 8B Gradient Instruct 1048k

Gradient AI团队

联系我们

引用:

参考文献

基础模型

模型详情

预期用途

如何使用

使用 transformers

Transformers pipeline

自回归语言模型自动模型

与 llama3 配合使用

硬件与软件

训练数据

基准测试

基础预训练模型

指令微调模型

责任与安全

Llama 3指导版

负责任的发布

网络安全

儿童安全

社区

伦理考量与局限性

引用说明

贡献者

与 `llama3` 配合使用

与 `llama3` 配合使用