Meta-Llama-3-8B-Instruct-GGUF:Meta-Llama-3-8B-Instruct-GGUF 是由 NousResearch 提供的开源大语言模型，基于 Meta 最新发布的 Llama 3 架构优化而成。该模型以 GGUF 格式发布，支持高效推理与跨平台部署，具备强大的文本生成与对话能力，适用于研究和商业场景。模型遵循 Meta Llama 3 社区许可协议，要求使用者遵守相关政策和法律法规。轻量化设计兼顾性能与可及性，助力开发者和企业快速集成智能对话功能。【此简介由AI生成】

模型详情

Meta 开发并发布了 Meta Llama 3 系列大语言模型（LLMs），这是一组包含 80 亿和 700 亿参数规模的预训练及指令微调生成式文本模型。Llama 3 指令微调模型针对对话场景进行了优化，在业界常用基准测试中表现优于许多开源聊天模型。此外，在开发这些模型时，我们格外注重优化实用性和安全性。

模型开发方 Meta

版本变体 Llama 3 提供两种参数规模——80 亿和 700 亿参数，包含预训练版和指令微调版。

输入模型仅接受文本输入。

输出模型仅生成文本和代码。

模型架构 Llama 3 采用基于优化 Transformer 架构的自回归语言模型。指令微调版本使用监督微调（SFT）和人类反馈强化学习（RLHF）技术，以符合人类对实用性与安全性的偏好。

	训练数据	参数量	上下文长度	GQA	训练token量	知识截止时间
Llama 3	全新混合公开网络数据	8B	8k	支持	15T+	2023年3月
Llama 3	全新混合公开网络数据	70B	8k	支持	15T+	2023年12月

Llama 3 模型系列：训练token量仅指预训练数据。8B 与 70B 版本均采用分组查询注意力机制（GQA）以提升推理扩展性。

模型发布日期 2024年4月18日

状态此为基于离线数据集训练的静态模型。随着我们通过社区反馈持续提升模型安全性，未来将发布迭代优化的指令微调版本。

许可证 自定义商业许可请参阅：https://llama.meta.com/llama3/license

模型反馈渠道 关于模型的意见反馈指南请查阅模型 README 文档。如需获取生成参数技术细节及应用部署方案，请访问此处。

预期用途

预期使用场景 Llama 3 适用于英语的商业和科研用途。经过指令调优的模型适用于类助手对话场景，而预训练模型可适配多种自然语言生成任务。

非适用范围 任何违反适用法律法规（包括贸易合规法律）的使用方式。任何违反《可接受使用政策》和《Llama 3 社区许可协议》禁止条款的使用行为。英语之外的其他语言使用场景**。

**注：开发者可对 Llama 3 模型进行英语之外语言的微调，但需确保符合《Llama 3 社区许可协议》及《可接受使用政策》要求。

使用方法

本代码库包含两个版本的 Meta-Llama-3-8B-Instruct，分别适用于 transformers 框架和原生 llama3 代码库。

通过 transformers 使用

以下代码片段展示了与 Transformers 的配合使用方法：

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
		messages, 
		tokenize=False, 
		add_generation_prompt=True
)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

与 `llama3` 配合使用

请遵循仓库中的说明进行操作。

要下载原始检查点，请参考以下使用 huggingface-cli 的示例命令：

huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct

对于Hugging Face的支持，我们推荐使用transformers或TGI，但类似的命令同样适用。

硬件与软件

训练要素 我们采用了定制训练库、Meta研究超级集群及生产集群进行预训练。微调、标注与评估工作也在第三方云计算平台上完成。

碳足迹预训练累计消耗 770万GPU小时的计算量，硬件型号为H100-80GB（热设计功耗700W）。预估总排放量为2290吨二氧化碳当量，其中100%已通过Meta可持续发展项目实现碳中和。

	耗时（GPU小时）	功耗（W）	碳排放量（吨CO2当量）
Llama 3 8B	130万	700	390
Llama 3 70B	640万	700	1900
总计	770万		2290

预训练期间的二氧化碳排放。耗时：训练每个模型所需的总GPU时间。功耗：所用GPU设备的峰值功率容量，并根据电源使用效率进行调整。100%的排放量已通过Meta可持续发展项目直接抵消，由于我们公开这些模型，他人无需再承担预训练产生的碳排放成本。

训练数据

概述 Llama 3使用超过15万亿个来自公开来源的token进行预训练。微调数据包含公开可用的指令数据集以及超过1000万个人工标注样本。预训练和微调数据集均未包含Meta用户数据。

数据新鲜度 预训练数据截止时间分别为：7B模型至2023年3月，70B模型至2023年12月。

基准测试

本节报告Llama 3模型在标准自动化基准测试中的结果。所有评估均使用我们内部的评估库，具体方法论详见此处。

基础预训练模型性能对比

类别	基准测试	Llama 3 8B	Llama2 7B	Llama2 13B	Llama 3 70B	Llama2 70B
通用能力	MMLU (5样本)	66.6	45.7	53.8	79.5	69.7
	AGIEval 英语 (3-5样本)	45.9	28.8	38.7	63.0	54.8
	CommonSenseQA (7样本)	72.6	57.6	67.6	83.8	78.7
	Winogrande (5样本)	76.1	73.3	75.4	83.1	81.8
	BIG-Bench Hard (3样本，思维链)	61.1	38.1	47.0	81.3	65.7
	ARC-Challenge (25样本)	78.6	53.7	67.6	93.0	85.3
知识推理	TriviaQA-Wiki (5样本)	78.5	72.1	79.6	89.7	87.5
阅读理解	SQuAD (1样本)	76.4	72.2	72.1	85.6	82.6
	QuAC (1样本，F1值)	44.4	39.6	44.9	51.1	49.4
	BoolQ (零样本)	75.7	65.5	66.9	79.0	73.1
	DROP (3样本，F1值)	58.4	37.9	49.8	79.7	70.2

指令微调模型性能对比

基准测试	Llama 3 8B	Llama 2 7B	Llama 2 13B	Llama 3 70B	Llama 2 70B
MMLU (5-shot)	68.4	34.1	47.8	82.0	52.9
GPQA (0-shot)	34.2	21.7	22.3	39.5	21.0
HumanEval (0-shot)	62.2	7.9	14.0	81.7	25.6
GSM-8K (8-shot, 思维链)	79.6	25.7	77.4	93.0	57.5
MATH (4-shot, 思维链)	30.0	3.8	6.7	50.4	11.6

责任与安全

我们相信采用开放式的AI开发方式能够催生更优质、更安全的产品，加速创新并扩大整体市场规模。我们致力于负责任的人工智能开发，并通过一系列措施来限制滥用和危害，同时支持开源社区的发展。

基础模型是具有广泛能力的技术，旨在满足多样化应用场景的需求。这些模型并非开箱即用地满足所有开发者对于不同用例安全级别的偏好，因为安全需求本质上会因应用场景的不同而有所差异。

相反，负责任的大语言模型应用部署需要通过在整个应用开发过程中实施一系列安全最佳实践来实现，包括模型预训练、微调以及部署由防护机制组成的系统，从而根据具体用例和受众群体量身定制安全需求。

作为Llama 3版本的一部分，我们更新了负责任使用指南，为开发者概述了为其应用实现模型和系统级安全性的步骤与最佳实践。我们还提供了一系列资源，包括Meta Llama Guard 2和代码防护盾等安全防护工具。这些工具已被证明能显著降低大语言模型系统的残余风险，同时保持高水平的实用性。我们鼓励开发者根据自身需求调整并部署这些防护机制，并提供了参考实现以供入门。

Llama 3-Instruct

如负责任使用指南所述，模型的实用性与对齐性之间可能存在不可避免的权衡。开发者应根据具体用例和受众群体，谨慎权衡对齐性与实用性带来的益处。使用Llama模型时，开发者应注意残余风险，并根据需要利用额外的安全工具来达到适用场景所需的安全标准。

安全性

针对我们的指令微调模型，我们开展了广泛的红队测试，进行了对抗性评估，并实施了安全缓解技术以降低残余风险。与任何大语言模型一样，残余风险可能仍然存在，我们建议开发者结合自身使用场景评估这些风险。同时，我们正与社区合作，致力于使AI安全基准标准更加透明、严谨和可解释。

拒绝响应

除了残余风险，我们还高度重视模型对良性提示的过度拒绝问题。过度拒绝不仅会影响用户体验，在某些情境下甚至可能造成危害。我们听取了开发者社区的反馈，改进了微调过程，确保Llama 3相比Llama 2错误拒绝回答提示的概率显著降低。

我们建立了内部基准测试并制定了缓解措施，以限制错误拒绝，使Llama 3成为我们迄今为止最实用的模型。

负责任发布

除了上述负责任使用的考量外，我们遵循严格的流程，要求在发布决策前采取额外措施防范滥用和重大风险。

滥用防范 如果您访问或使用Llama 3，即表示您同意可接受使用政策。该政策的最新版本可在https://llama.meta.com/llama3/use-policy/查看。

重大风险

CBRNE（化学、生物、放射、核及高能爆炸物）

我们对该领域模型安全性进行了双重评估：

在模型训练期间进行迭代测试，评估与CBRNE威胁及其他对抗性风险相关的响应安全性
邀请外部CBRNE专家进行提升测试，通过参照网络搜索（不使用模型）可实现的效果，评估模型准确提供专业知识的能力，并降低潜在CBRNE滥用的门槛

网络安全

我们使用Meta的网络安全评估套件CyberSecEval对Llama 3进行了评估，主要衡量其作为编程助手时生成不安全代码的倾向性，以及响应网络攻击协助请求的倾向性——其中攻击行为根据行业标准MITRE ATT&CK网络攻击本体论进行界定。在不安全代码生成和网络攻击协助测试中，Llama 3的表现与同等编程能力模型处于相同或更安全的水平。

儿童安全

我们组织专家团队进行了儿童安全风险评估，旨在检测模型输出可能引发的儿童安全风险，并通过微调制定必要且恰当的风险缓解措施。在Llama 3模型开发过程中，我们利用这些专家红队测试会话来扩展评估基准的覆盖范围。针对Llama 3，我们采用基于目标的方法开展了新一轮深度评估，从多维度攻击向量研判模型风险。同时与内容专家合作开展红队演练，在考量特定市场差异和用户体验的前提下，评估可能存在的违规内容。

社区生态

生成式AI安全需要专业知识和工具支持，我们坚信开放社区能加速其发展进程。作为AI联盟、PAI（人工智能合作伙伴组织）及MLCommons等开放联盟的活跃成员，我们积极推动安全标准制定和透明度建设。鼓励社区采用MLCommons概念验证评估等分类框架，以促进安全与内容评估领域的协作透明。我们的Purple Llama工具已开源供社区使用，并广泛分发至包括云服务提供商在内的生态合作伙伴。欢迎通过GitHub代码库参与贡献。

最后，我们建立了包括输出反馈机制和漏洞悬赏计划在内的资源体系，期待在社区的帮助下持续优化Llama技术。

道德考量与局限性

Llama 3 的核心价值观是开放、包容和乐于助人。它旨在服务所有人，并适用于广泛的应用场景。因此，它的设计考虑到了跨越不同背景、经验和视角的用户。Llama 3 以用户本身及其需求为出发点，避免不必要的判断或规范性插入，同时认识到即使在某些情况下可能看起来有问题的内容，在其他情况下也可能发挥宝贵的作用。它尊重所有用户的尊严和自主权，特别是在自由思想和表达的价值观念上，这些价值观推动着创新和进步。

但 Llama 3 是一项新技术，与任何新技术一样，使用它也存在风险。迄今为止进行的测试仅限于英语，并未覆盖也不可能覆盖所有场景。因此，与所有大型语言模型一样，Llama 3 的潜在输出无法提前预测，并且在某些情况下，模型可能对用户的提示产生不准确、有偏见或其他令人反感的回应。因此，在部署任何 Llama 3 模型的应用之前，开发人员应进行针对其具体应用的安全测试和调优。如《负责任使用指南》所述，我们建议将 Purple Llama 解决方案纳入您的工作流程，特别是 Llama Guard，它提供了一个基础模型来过滤输入和输出提示，从而在模型级安全之上增加系统级安全。

请参阅《负责任使用指南》，网址为：http://llama.meta.com/responsible-use-guide

引用说明

@article{llama3modelcard,

title={Llama 3 模型卡},

author={AI@Meta},

year={2024},

url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}

}

贡献者名单

Aaditya Singh；Aaron Grattafiori；Abhimanyu Dubey；Abhinav Jauhri；Abhinav Pandey；Abhishek Kadian；Adam Kelsey；Adi Gangidi；Ahmad Al-Dahle；Ahuva Goldstand；Aiesha Letman；Ajay Menon；Akhil Mathur；Alan Schelten；Alex Vaughan；Amy Yang；Andrei Lupu；Andres Alvarado；Andrew Gallagher；Andrew Gu；Andrew Ho；Andrew Poulton；Andrew Ryan；Angela Fan；Ankit Ramchandani；Anthony Hartshorn；Archi Mitra；Archie Sravankumar；Artem Korenev；Arun Rao；Ashley Gabriel；Ashwin Bharambe；Assaf Eisenman；Aston Zhang；Aurelien Rodriguez；Austen Gregerson；Ava Spataru；Baptiste Roziere；Ben Maurer；Benjamin Leonhardi；Bernie Huang；Bhargavi Paranjape；Bing Liu；Binh Tang；Bobbie Chern；Brani Stojkovic；Brian Fuller；Catalina Mejia Arenas；Chao Zhou；Charlotte Caucheteux；Chaya Nayak；Ching-Hsiang Chu；Chloe Bi；Chris Cai；Chris Cox；Chris Marra；Chris McConnell；Christian Keller；Christoph Feichtenhofer；Christophe Touret；Chunyang Wu；Corinne Wong；Cristian Canton Ferrer；Damien Allonsius；Daniel Kreymer；Daniel Haziza；Daniel Li；Danielle Pintz；Danny Livshits；Danny Wyatt；David Adkins；David Esiobu；David Xu；Davide Testuggine；Delia David；Devi Parikh；Dhruv Choudhary；Dhruv Mahajan；Diana Liskovich；Diego Garcia-Olano；Diego Perino；Dieuwke Hupkes；Dingkang Wang；Dustin Holland；Egor Lakomkin；Elina Lobanova；Xiaoqing Ellen Tan；Emily Dinan；Eric Smith；Erik Brinkman；Esteban Arcaute；Filip Radenovic；Firat Ozgenel；Francesco Caggioni；Frank Seide；Frank Zhang；Gabriel Synnaeve；Gabriella Schwarz；Gabrielle Lee；Gada Badeer；Georgia Anderson；Graeme Nail；Gregoire Mialon；Guan Pang；Guillem Cucurell；Hailey Nguyen；Hannah Korevaar；Hannah Wang；Haroun Habeeb；Harrison Rudolph；Henry Aspegren；Hu Xu；Hugo Touvron；Iga Kozlowska；Igor Molybog；Igor Tufanov；Iliyan Zarov；Imanol Arrieta Ibarra；Irina-Elena Veliche；Isabel Kloumann；Ishan Misra；Ivan Evtimov；Jacob Xu；Jade Copet；Jake Weissman；Jan Geffert；Jana Vranes；Japhet Asher；Jason Park；Jay Mahadeokar；Jean-Baptiste Gaya；Jeet Shah；Jelmer van der Linde；Jennifer Chan；Jenny Hong；Jenya Lee；Jeremy Fu；Jeremy Teboul；Jianfeng Chi；Jianyu Huang；Jie Wang；Jiecao Yu；Joanna Bitton；Joe Spisak；Joelle Pineau；Jon Carvill；Jongsoo Park；Joseph Rocca；Joshua Johnstun；Junteng Jia；Kalyan Vasuden Alwala；Kam Hou U；Kate Plawiak；Kartikeya Upasani；Kaushik Veeraraghavan；Ke Li；Kenneth Heafield；Kevin Stone；Khalid El-Arini；Krithika Iyer；Kshitiz Malik；Kuenley Chiu；Kunal Bhalla；Kyle Huang；Lakshya Garg；Lauren Rantala-Yeary；Laurens van der Maaten；Lawrence Chen；Leandro Silva；Lee Bell；Lei Zhang；Liang Tan；Louis Martin；Lovish Madaan；Luca Wehrstedt；Lukas Blecher；Luke de Oliveira；Madeline Muzzi；Madian Khabsa；Manav Avlani；Mannat Singh；Manohar Paluri；Mark Zuckerberg；Marcin Kardas；Martynas Mankus；Mathew Oldham；Mathieu Rita；Matthew Lennie；Maya Pavlova；Meghan Keneally；Melanie Kambadur；Mihir Patel；Mikayel Samvelyan；Mike Clark；Mike Lewis；Min Si；Mitesh Kumar Singh；Mo Metanat；Mona Hassan；Naman Goyal；Narjes Torabi；Nicolas Usunier；Nikolay Bashlykov；Nikolay Bogoychev；Niladri Chatterji；Ning Dong；Oliver Aobo Yang；Olivier Duchenne；Onur Celebi；Parth Parekh；Patrick Alrassy；Paul Saab；Pavan Balaji；Pedro Rittner；Pengchuan Zhang；Pengwei Li；Petar Vasic；Peter Weng；Polina Zvyagina；Prajjwal Bhargava；Pratik Dubal；Praveen Krishnan；Punit Singh Koura；Qing He；Rachel Rodriguez；Ragavan Srinivasan；Rahul Mitra；Ramon Calderer；Raymond Li；Robert Stojnic；Roberta Raileanu；Robin Battey；Rocky Wang；Rohit Girdhar；Rohit Patel；Romain Sauvestre；Ronnie Polidoro；Roshan Sumbaly；Ross Taylor；Ruan Silva；Rui Hou；Rui Wang；Russ Howes；Ruty Rinott；Saghar Hosseini；Sai Jayesh Bondu；Samyak Datta；Sanjay Singh；Sara Chugh；Sargun Dhillon；Satadru Pan；Sean Bell；Sergey Edunov；Shaoliang Nie；Sharan Narang；Sharath Raparthy；Shaun Lindsay；Sheng Feng；Sheng Shen；Shenghao Lin；Shiva Shankar；Shruti Bhosale；Shun Zhang；Simon Vandenhende；Sinong Wang；Seohyun Sonia Kim；Soumya Batra；Sten Sootla；Steve Kehoe；Suchin Gururangan；Sumit Gupta；Sunny Virk；Sydney Borodinsky；Tamar Glaser；Tamar Herman；Tamara Best；Tara Fowler；Thomas Georgiou；Thomas Scialom；Tianhe Li；Todor Mihaylov；Tong Xiao；Ujjwal Karn；Vedanuj Goswami；Vibhor Gupta；Vignesh Ramanathan；Viktor Kerkez；Vinay Satish Kumar；Vincent Gonguet；Vish Vogeti；Vlad Poenaru；Vlad Tiberiu Mihailescu；Vladan Petrovic；Vladimir Ivanov；Wei Li；Weiwei Chu；Wenhan Xiong；Wenyin Fu；Wes Bouaziz；Whitney Meers；Will Constable；Xavier Martinet；Xiaojian Wu；Xinbo Gao；Xinfeng Xie；Xuchao Jia；Yaelle Goldschlag；Yann LeCun；Yashesh Gaur；Yasmine Babaei；Ye Qi；Yenda Li；Yi Wen；Yiwen Song；Youngjin Nam；Yuchen Hao；Yuchen Zhang；Yun Wang；Yuning Mao；Yuzi He；Zacharie Delpierre Coudert；Zachary DeVito；Zahra Hankir；Zhaoduo Wen；Zheng Yan；Zhengxing Chen；Zhenyu Yang；Zoe Papakipos

模型详情

模型开发方 Meta

版本变体 Llama 3 提供两种参数规模——80 亿和 700 亿参数，包含预训练版和指令微调版。

输入模型仅接受文本输入。

输出模型仅生成文本和代码。

	训练数据	参数量	上下文长度	GQA	训练token量	知识截止时间
Llama 3	全新混合公开网络数据	8B	8k	支持	15T+	2023年3月
Llama 3	全新混合公开网络数据	70B	8k	支持	15T+	2023年12月

Llama 3 模型系列：训练token量仅指预训练数据。8B 与 70B 版本均采用分组查询注意力机制（GQA）以提升推理扩展性。

模型发布日期 2024年4月18日

状态此为基于离线数据集训练的静态模型。随着我们通过社区反馈持续提升模型安全性，未来将发布迭代优化的指令微调版本。

许可证 自定义商业许可请参阅：https://llama.meta.com/llama3/license

模型反馈渠道 关于模型的意见反馈指南请查阅模型 README 文档。如需获取生成参数技术细节及应用部署方案，请访问此处。

预期用途

预期使用场景 Llama 3 适用于英语的商业和科研用途。经过指令调优的模型适用于类助手对话场景，而预训练模型可适配多种自然语言生成任务。

**注：开发者可对 Llama 3 模型进行英语之外语言的微调，但需确保符合《Llama 3 社区许可协议》及《可接受使用政策》要求。

使用方法

本代码库包含两个版本的 Meta-Llama-3-8B-Instruct，分别适用于 transformers 框架和原生 llama3 代码库。

通过 transformers 使用

以下代码片段展示了与 Transformers 的配合使用方法：

import transformers
import torch

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
		messages, 
		tokenize=False, 
		add_generation_prompt=True
)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

与 `llama3` 配合使用

请遵循仓库中的说明进行操作。

要下载原始检查点，请参考以下使用 huggingface-cli 的示例命令：

huggingface-cli download meta-llama/Meta-Llama-3-8B-Instruct --include "original/*" --local-dir Meta-Llama-3-8B-Instruct

对于Hugging Face的支持，我们推荐使用transformers或TGI，但类似的命令同样适用。

硬件与软件

训练要素 我们采用了定制训练库、Meta研究超级集群及生产集群进行预训练。微调、标注与评估工作也在第三方云计算平台上完成。

	耗时（GPU小时）	功耗（W）	碳排放量（吨CO2当量）
Llama 3 8B	130万	700	390
Llama 3 70B	640万	700	1900
总计	770万		2290

训练数据

数据新鲜度 预训练数据截止时间分别为：7B模型至2023年3月，70B模型至2023年12月。

基准测试

本节报告Llama 3模型在标准自动化基准测试中的结果。所有评估均使用我们内部的评估库，具体方法论详见此处。

基础预训练模型性能对比

类别	基准测试	Llama 3 8B	Llama2 7B	Llama2 13B	Llama 3 70B	Llama2 70B
通用能力	MMLU (5样本)	66.6	45.7	53.8	79.5	69.7
	AGIEval 英语 (3-5样本)	45.9	28.8	38.7	63.0	54.8
	CommonSenseQA (7样本)	72.6	57.6	67.6	83.8	78.7
	Winogrande (5样本)	76.1	73.3	75.4	83.1	81.8
	BIG-Bench Hard (3样本，思维链)	61.1	38.1	47.0	81.3	65.7
	ARC-Challenge (25样本)	78.6	53.7	67.6	93.0	85.3
知识推理	TriviaQA-Wiki (5样本)	78.5	72.1	79.6	89.7	87.5
阅读理解	SQuAD (1样本)	76.4	72.2	72.1	85.6	82.6
	QuAC (1样本，F1值)	44.4	39.6	44.9	51.1	49.4
	BoolQ (零样本)	75.7	65.5	66.9	79.0	73.1
	DROP (3样本，F1值)	58.4	37.9	49.8	79.7	70.2

指令微调模型性能对比

基准测试	Llama 3 8B	Llama 2 7B	Llama 2 13B	Llama 3 70B	Llama 2 70B
MMLU (5-shot)	68.4	34.1	47.8	82.0	52.9
GPQA (0-shot)	34.2	21.7	22.3	39.5	21.0
HumanEval (0-shot)	62.2	7.9	14.0	81.7	25.6
GSM-8K (8-shot, 思维链)	79.6	25.7	77.4	93.0	57.5
MATH (4-shot, 思维链)	30.0	3.8	6.7	50.4	11.6

责任与安全

Llama 3-Instruct

安全性

拒绝响应

我们建立了内部基准测试并制定了缓解措施，以限制错误拒绝，使Llama 3成为我们迄今为止最实用的模型。

负责任发布

除了上述负责任使用的考量外，我们遵循严格的流程，要求在发布决策前采取额外措施防范滥用和重大风险。

滥用防范 如果您访问或使用Llama 3，即表示您同意可接受使用政策。该政策的最新版本可在https://llama.meta.com/llama3/use-policy/查看。

重大风险

CBRNE（化学、生物、放射、核及高能爆炸物）

我们对该领域模型安全性进行了双重评估：

在模型训练期间进行迭代测试，评估与CBRNE威胁及其他对抗性风险相关的响应安全性
邀请外部CBRNE专家进行提升测试，通过参照网络搜索（不使用模型）可实现的效果，评估模型准确提供专业知识的能力，并降低潜在CBRNE滥用的门槛

网络安全

儿童安全

社区生态

最后，我们建立了包括输出反馈机制和漏洞悬赏计划在内的资源体系，期待在社区的帮助下持续优化Llama技术。

道德考量与局限性

请参阅《负责任使用指南》，网址为：http://llama.meta.com/responsible-use-guide

引用说明

@article{llama3modelcard,

title={Llama 3 模型卡},

author={AI@Meta},

year={2024},

url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}

}

模型详情

预期用途

使用方法

通过 transformers 使用

与 llama3 配合使用

硬件与软件

训练数据

基准测试

基础预训练模型性能对比

指令微调模型性能对比

责任与安全

Llama 3-Instruct

负责任发布

重大风险

网络安全

儿童安全

社区生态

道德考量与局限性

引用说明

贡献者名单

模型详情

预期用途

使用方法

通过 transformers 使用

与 llama3 配合使用

硬件与软件

训练数据

基准测试

基础预训练模型性能对比

指令微调模型性能对比

责任与安全

Llama 3-Instruct

负责任发布

重大风险

网络安全

儿童安全

社区生态

道德考量与局限性

引用说明

贡献者名单

与 `llama3` 配合使用

与 `llama3` 配合使用