HuggingFace镜像/Meta-Llama-3-8B-Instruct
模型介绍文件和版本分析
下载使用量0

模型详情

Meta 开发并发布了 Meta Llama 3 系列大型语言模型(LLMs),这是一组预训练和指令调优的生成式文本模型,提供 80 亿和 700 亿参数两种规模。Llama 3 指令调优模型针对对话场景进行了优化,在常见行业基准测试中表现优于许多现有的开源聊天模型。此外,在开发这些模型时,我们特别注重优化其有用性和安全性。

模型开发者 Meta

模型变体 Llama 3 提供两种参数规模——80 亿和 700 亿,每种规模均包含预训练和指令调优版本。

输入 模型仅输入文本。

输出 模型仅生成文本和代码。

模型架构 Llama 3 是一种自回归语言模型,采用优化的 Transformer 架构。调优版本通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)来对齐人类对有用性和安全性的偏好。

训练数据 参数规模 上下文长度 GQA token 数量 知识截止日期
Llama 3 全新的公开可用在线数据混合体。 8B 8k 是 15T+ 2023 年 3 月
70B 8k 是 2023 年 12 月

Llama 3 模型系列。token 数量仅指预训练数据。80 亿和 700 亿版本均使用分组查询注意力(GQA)以提高推理可扩展性。

模型发布日期 2024 年 4 月 18 日。

状态 这是一个在离线数据集上训练的静态模型。随着我们利用社区反馈改进模型安全性,未来将发布调优模型的更新版本。

许可证 自定义商业许可证可在以下网址获取:https://llama.meta.com/llama3/license

关于模型的问题或意见反馈方式 有关如何提供模型反馈或意见的说明,请参见模型 README。如需有关生成参数的更多技术信息以及如何在应用程序中使用 Llama 3 的方法,请访问 此处。

预期用途

预期使用场景 Llama 3 面向英语的商业和研究用途。指令调优模型适用于类助手聊天场景,预训练模型则可适配多种自然语言生成任务。

超出范围 以任何违反适用法律法规(包括贸易合规法律)的方式使用。以任何其他违反《可接受使用政策》和《Llama 3 社区许可证》的方式使用。使用英语以外的语言**。

注意: 开发者可对 Llama 3 模型进行微调以支持英语以外的语言,前提是其遵守《Llama 3 社区许可证》和《可接受使用政策》。

使用方法

本仓库包含 Meta-Llama-3-8B-Instruct 的两个版本,分别适用于 transformers 和原始 llama3 代码库。

与 transformers 配合使用

以下是与 Transformers 配合使用的代码片段:

python3 examples/inference.py --model_name_or_path=./

硬件与软件

训练要素 我们使用自定义训练库、Meta的Research SuperCluster以及生产集群进行预训练。微调、标注和评估也在第三方云服务器上完成。

碳足迹 预训练在H100-80GB类型硬件(TDP为700W)上累计使用了770万GPU小时的计算资源。估计总排放量为2290吨二氧化碳当量,其中100%通过Meta的可持续发展计划进行了抵消。

时间(GPU小时)功耗(W)碳排放(吨二氧化碳当量)
Llama 3 8B130万700390
Llama 3 70B640万7001900
总计770万2290

预训练期间的二氧化碳排放。时间:训练每个模型所需的总GPU时间。功耗:所用GPU每台设备的峰值功率容量,并已根据电源使用效率进行调整。100%的排放量通过Meta的可持续发展计划直接抵消,并且由于我们公开发布了这些模型,其他人无需再承担预训练成本。

训练数据

概述 Llama 3在超过15万亿个来自公开可用来源的tokens上进行了预训练。微调数据包括公开可用的指令数据集,以及超过1000万个人工标注示例。预训练和微调数据集均不包含Meta用户数据。

数据时效性 预训练数据的截止日期分别为:7B模型为2023年3月,70B模型为2023年12月。

基准测试

在本节中,我们报告Llama 3模型在标准自动基准测试中的结果。所有评估均使用我们的内部评估库。有关方法的详细信息,请参见此处。

基础预训练模型

类别 基准测试 Llama 3 8B Llama2 7B Llama2 13B Llama 3 70B Llama2 70B
通用能力 MMLU(5-shot) 66.6 45.7 53.8 79.5 69.7
AGIEval 英语(3-5 shot) 45.9 28.8 38.7 63.0 54.8
CommonSenseQA(7-shot) 72.6 57.6 67.6 83.8 78.7
Winogrande(5-shot) 76.1 73.3 75.4 83.1 81.8
BIG-Bench Hard(3-shot,CoT) 61.1 38.1 47.0 81.3 65.7
ARC-Challenge(25-shot) 78.6 53.7 67.6 93.0 85.3
知识推理 TriviaQA-Wiki(5-shot) 78.5 72.1 79.6 89.7 87.5
阅读理解 SQuAD(1-shot) 76.4 72.2 72.1 85.6 82.6
QuAC(1-shot,F1) 44.4 39.6 44.9 51.1 49.4
BoolQ(0-shot) 75.7 65.5 66.9 79.0 73.1
DROP(3-shot,F1) 58.4 37.9 49.8 79.7 70.2

指令调优模型

基准测试 Llama 3 8B Llama 2 7B Llama 2 13B Llama 3 70B Llama 2 70B
MMLU(5-shot) 68.4 34.1 47.8 82.0 52.9
GPQA(0-shot) 34.2 21.7 22.3 39.5 21.0
HumanEval(0-shot) 62.2 7.9 14.0 81.7 25.6
GSM-8K(8-shot,CoT) 79.6 25.7 77.4 93.0 57.5
MATH(4-shot,CoT) 30.0 3.8 6.7 50.4 11.6

责任与安全

我们坚信,开放的人工智能发展方式能够催生更优质、更安全的产品,加速创新进程,并拓展整体市场规模。我们致力于负责任地开发人工智能技术,并已采取一系列措施来限制滥用和危害,同时为开源社区提供支持。

基础模型是功能广泛的技术,旨在服务于多样化的应用场景。它们并非开箱即用地满足所有开发者在各种使用场景下对安全级别的偏好,因为这些偏好本质上会因不同应用而异。

相反,负责任的大型语言模型应用部署,需要在这类应用的整个开发过程中实施一系列安全最佳实践,从模型预训练、微调,到部署包含安全防护措施的系统,以针对特定的使用场景和受众定制安全需求。

作为Llama 3发布的一部分,我们更新了《负责任使用指南》,概述了开发者为其应用实现模型和系统级安全的步骤与最佳实践。我们还提供了一系列资源,包括Meta Llama Guard 2和Code Shield等安全防护工具。这些工具已被证明能够大幅降低大型语言模型系统的残余风险,同时保持较高的实用性。我们鼓励开发者根据自身需求调整和部署这些安全防护措施,并提供了参考实现以助您快速上手。

Llama 3-Instruct

如《负责任使用指南》所述,模型的实用性和对齐性之间可能不可避免地存在一定权衡。开发者应审慎判断如何根据其特定的使用场景和受众来平衡对齐性与实用性的益处。开发者在使用Llama模型时应注意残余风险,并根据需要利用额外的安全工具,以达到其使用场景所需的适当安全标准。

安全性

对于我们的指令调优模型,我们进行了广泛的红队演练,执行了对抗性评估,并实施了安全缓解技术,以降低残余风险。与任何大型语言模型一样,残余风险可能仍然存在,因此我们建议开发者在其使用场景中评估这些风险。同时,我们正与社区合作,使人工智能安全基准标准更加透明、严谨和可解释。

拒绝回答

除了残余风险外,我们还高度重视模型对良性提示的拒绝回答问题。过度拒绝不仅会影响用户体验,在某些情况下甚至可能造成危害。我们听取了开发者社区的反馈,并改进了微调过程,确保Llama 3比Llama 2更不容易错误地拒绝回答提示。

我们建立了内部基准,并开发了缓解措施来限制错误拒绝,使Llama 3成为我们迄今为止最实用的模型。

负责任发布

除了上述负责任使用的考虑因素外,我们遵循了严格的流程,要求我们在做出发布决策之前,针对滥用和关键风险采取额外措施。

滥用

如果您访问或使用Llama 3,即表示您同意《可接受使用政策》。该政策的最新版本可在https://llama.meta.com/llama3/use-policy/查阅。

关键风险

CBRNE(化学、生物、放射、核及高当量爆炸物)

我们对模型在该领域的安全性进行了两方面评估:

  • 在模型训练期间进行迭代测试,以评估与CBRNE威胁及其他对抗性风险相关的响应安全性。
  • 邀请外部CBRNE专家进行提升测试,通过参考(不使用模型时)网络搜索所能获得的信息,评估模型准确提供专业知识和减少潜在CBRNE滥用障碍的能力。

儿童安全

我们组建了专家团队开展儿童安全风险评估,旨在评估模型生成可能导致儿童安全风险内容的能力,并通过微调确定必要且适当的风险缓解措施。在Llama 3模型开发过程中,我们借助这些专家红队演练,进一步扩展了评估基准的覆盖范围。针对Llama 3,我们采用基于目标的方法论,开展了新的深度评估,从多个攻击向量对模型风险进行评估。我们还与内容专家合作,开展红队演练,在评估潜在违规内容的同时,兼顾市场特定差异或经验。

社区

生成式AI安全需要专业知识和工具支持,我们相信开放社区的力量能够加速其发展。我们是AI联盟、AI合作伙伴关系及MLCommons等开放联盟的活跃成员,积极推动安全标准化和透明度建设。我们鼓励社区采用MLCommons概念验证评估等分类方法,以促进安全和内容评估方面的协作与透明度。我们的Purple Llama工具已开源供社区使用,并通过包括云服务提供商在内的生态系统合作伙伴广泛分发。我们鼓励社区向我们的Github repository贡献力量。

最后,我们提供了一系列资源,包括output reporting mechanism和bug bounty program,以在社区的帮助下持续改进Llama技术。

伦理考量与局限性

Llama 3的核心价值观是开放、包容和乐于助人。它旨在服务所有人,并适用于广泛的使用场景。因此,其设计力求让来自不同背景、拥有不同经验和观点的人们都能便捷使用。Llama 3以用户当下的状态和需求为出发点,避免插入不必要的评判或规范性内容,同时认识到某些在特定情况下可能看似有问题的内容,在其他情境中也能发挥重要价值。它尊重所有用户的尊严和自主权,尤其珍视推动创新与进步的自由思想和表达价值。

但Llama 3是一项新技术,与任何新技术一样,其使用也伴随着风险。迄今为止的测试均以英语进行,尚未涵盖也无法涵盖所有场景。基于这些原因,与所有LLM一样,Llama 3的潜在输出无法提前预测,在某些情况下,模型可能会对用户提示产生不准确、有偏见或其他令人反感的响应。因此,在部署Llama 3模型的任何应用之前,开发人员应针对其特定应用场景进行定制化的安全测试和调整。如《负责任使用指南》所述,我们建议将Purple Llama解决方案整合到您的工作流程中,特别是Llama Guard,它提供了一个基础模型来过滤输入和输出提示,从而在模型级安全之上增加系统级安全层。

详情请参见《负责任使用指南》,网址:http://llama.meta.com/responsible-use-guide

引用说明

@article{llama3modelcard,

title={Llama 3 Model Card},

author={AI@Meta},

year={2024},

url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}

}

贡献者

Aaditya Singh;Aaron Grattafiori;Abhimanyu Dubey;Abhinav Jauhri;Abhinav Pandey;Abhishek Kadian;Adam Kelsey;Adi Gangidi;Ahmad Al-Dahle;Ahuva Goldstand;Aiesha Letman;Ajay Menon;Akhil Mathur;Alan Schelten;Alex Vaughan;Amy Yang;Andrei Lupu;Andres Alvarado;Andrew Gallagher;Andrew Gu;Andrew Ho;Andrew Poulton;Andrew Ryan;Angela Fan;Ankit Ramchandani;Anthony Hartshorn;Archi Mitra;Archie Sravankumar;Artem Korenev;Arun Rao;Ashley Gabriel;Ashwin Bharambe;Assaf Eisenman;Aston Zhang;Aurelien Rodriguez;Austen Gregerson;Ava Spataru;Baptiste Roziere;Ben Maurer;Benjamin Leonhardi;Bernie Huang;Bhargavi Paranjape;Bing Liu;Binh Tang;Bobbie Chern;Brani Stojkovic;Brian Fuller;Catalina Mejia Arenas;Chao Zhou;Charlotte Caucheteux;Chaya Nayak;Ching-Hsiang Chu;Chloe Bi;Chris Cai;Chris Cox;Chris Marra;Chris McConnell;Christian Keller;Christoph Feichtenhofer;Christophe Touret;Chunyang Wu;Corinne Wong;Cristian Canton Ferrer;Damien Allonsius;Daniel Kreymer;Daniel Haziza;Daniel Li;Danielle Pintz;Danny Livshits;Danny Wyatt;David Adkins;David Esiobu;David Xu;Davide Testuggine;Delia David;Devi Parikh;Dhruv Choudhary;Dhruv Mahajan;Diana Liskovich;Diego Garcia-Olano;Diego Perino;Dieuwke Hupkes;Dingkang Wang;Dustin Holland;Egor Lakomkin;Elina Lobanova;Xiaoqing Ellen Tan;Emily Dinan;Eric Smith;Erik Brinkman;Esteban Arcaute;Filip Radenovic;Firat Ozgenel;Francesco Caggioni;Frank Seide;Frank Zhang;Gabriel Synnaeve;Gabriella Schwarz;Gabrielle Lee;Gada Badeer;Georgia Anderson;Graeme Nail;Gregoire Mialon;Guan Pang;Guillem Cucurell;Hailey Nguyen;Hannah Korevaar;Hannah Wang;Haroun Habeeb;Harrison Rudolph;Henry Aspegren;Hu Xu;Hugo Touvron;Iga Kozlowska;Igor Molybog;Igor Tufanov;Iliyan Zarov;Imanol Arrieta Ibarra;Irina-Elena Veliche;Isabel Kloumann;Ishan Misra;Ivan Evtimov;Jacob Xu;Jade Copet;Jake Weissman;Jan Geffert;Jana Vranes;Japhet Asher;Jason Park;Jay Mahadeokar;Jean-Baptiste Gaya;Jeet Shah;Jelmer van der Linde;Jennifer Chan;Jenny Hong;Jenya Lee;Jeremy Fu;Jeremy Teboul;Jianfeng Chi;Jianyu Huang;Jie Wang;Jiecao Yu;Joanna Bitton;Joe Spisak;Joelle Pineau;Jon Carvill;Jongsoo Park;Joseph Rocca;Joshua Johnstun;Junteng Jia;Kalyan Vasuden Alwala;Kam Hou U;Kate Plawiak;Kartikeya Upasani;Kaushik Veeraraghavan;Ke Li;Kenneth Heafield;Kevin Stone;Khalid El-Arini;Krithika Iyer;Kshitiz Malik;Kuenley Chiu;Kunal Bhalla;Kyle Huang;Lakshya Garg;Lauren Rantala-Yeary;Laurens van der Maaten;Lawrence Chen;Leandro Silva;Lee Bell;Lei Zhang;Liang Tan;Louis Martin;Lovish Madaan;Luca Wehrstedt;Lukas Blecher;Luke de Oliveira;Madeline Muzzi;Madian Khabsa;Manav Avlani;Mannat Singh;Manohar Paluri;Mark Zuckerberg;Marcin Kardas;Martynas Mankus;Mathew Oldham;Mathieu Rita;Matthew Lennie;Maya Pavlova;Meghan Keneally;Melanie Kambadur;Mihir Patel;Mikayel Samvelyan;Mike Clark;Mike Lewis;Min Si;Mitesh Kumar Singh;Mo Metanat;Mona Hassan;Naman Goyal;Narjes Torabi;Nicolas Usunier;Nikolay Bashlykov;Nikolay Bogoychev;Niladri Chatterji;Ning Dong;Oliver Aobo Yang;Olivier Duchenne;Onur Celebi;Parth Parekh;Patrick Alrassy;Paul Saab;Pavan Balaji;Pedro Rittner;Pengchuan Zhang;Pengwei Li;Petar Vasic;Peter Weng;Polina Zvyagina;Prajjwal Bhargava;Pratik Dubal;Praveen Krishnan;Punit Singh Koura;Qing He;Rachel Rodriguez;Ragavan Srinivasan;Rahul Mitra;Ramon Calderer;Raymond Li;Robert Stojnic;Roberta Raileanu;Robin Battey;Rocky Wang;Rohit Girdhar;Rohit Patel;Romain Sauvestre;Ronnie Polidoro;Roshan Sumbaly;Ross Taylor;Ruan Silva;Rui Hou;Rui Wang;Russ Howes;Ruty Rinott;Saghar Hosseini;Sai Jayesh Bondu;Samyak Datta;Sanjay Singh;Sara Chugh;Sargun Dhillon;Satadru Pan;Sean Bell;Sergey Edunov;Shaoliang Nie;Sharan Narang;Sharath Raparthy;Shaun Lindsay;Sheng Feng;Sheng Shen;Shenghao Lin;Shiva Shankar;Shruti Bhosale;Shun Zhang;Simon Vandenhende;Sinong Wang;Seohyun Sonia Kim;Soumya Batra;Sten Sootla;Steve Kehoe;Suchin Gururangan;Sumit Gupta;Sunny Virk;Sydney Borodinsky;Tamar Glaser;Tamar Herman;Tamara Best;Tara Fowler;Thomas Georgiou;Thomas Scialom;Tianhe Li;Todor Mihaylov;Tong Xiao;Ujjwal Karn;Vedanuj Goswami;Vibhor Gupta;Vignesh Ramanathan;Viktor Kerkez;Vinay Satish Kumar;Vincent Gonguet;Vish Vogeti;Vlad Poenaru;Vlad Tiberiu Mihailescu;Vladan Petrovic;Vladimir Ivanov;Wei Li;Weiwei Chu;Wenhan Xiong;Wenyin Fu;Wes Bouaziz;Whitney Meers;Will Constable;Xavier Martinet;Xiaojian Wu;Xinbo Gao;Xinfeng Xie;Xuchao Jia;Yaelle Goldschlag;Yann LeCun;Yashesh Gaur;Yasmine Babaei;Ye Qi;Yenda Li;Yi Wen;Yiwen Song;Youngjin Nam;Yuchen Hao;Yuchen Zhang;Yun Wang;Yuning Mao;Yuzi He;Zacharie Delpierre Coudert;Zachary DeVito;Zahra Hankir;Zhaoduo Wen;Zheng Yan;Zhengxing Chen;Zhenyu Yang;Zoe Papakipos