HuggingFace镜像/Llama-3_1-Nemotron-51B-Instruct

Llama-3_1-Nemotron-51B-instruct

模型概述

Llama-3_1-Nemotron-51B-instruct 模型在准确率与效率之间实现了出色的平衡。效率（吞吐量）直接关系到成本，因此该模型具备极高的“性价比”。我们采用创新的神经架构搜索（NAS）方法，大幅降低了模型的内存占用，不仅能支持更大规模的工作负载，还能在高负载情况下将模型部署在单块 GPU（H100-80GB）上运行。这种 NAS 方法能够在准确率与效率的权衡中选择理想的平衡点。本模型已可投入商业使用。

许可协议

您对本模型的使用受 NVIDIA Open Model License 约束。补充信息：Llama 3.1 Community License Agreement。基于 Llama 构建。

模型开发方式

Llama-3_1-Nemotron-51B-instruct 是一款大型语言模型（LLM），衍生于 Llama-3.1-70B-instruct（又称参考模型）。我们对参考模型进行了分块蒸馏，为每个模块创建了多种变体，以提供不同的质量与计算复杂度权衡方案。随后，我们在这些模块中进行搜索，以构建一个既能满足吞吐量和内存要求（针对单块 H100-80GB GPU 优化），又能最大限度减少质量损失的模型。之后，模型会进行知识蒸馏（KD），重点针对英文单轮及多轮对话场景。 KD 阶段使用了 400 亿 tokens 的数据，这些数据来自 FineWeb、Buzz-V1.2 和 Dolma 三个数据集的混合。

相关链接：NIM、博客和 huggingface

最终得到的模型与人类对话偏好高度对齐。

模型开发者： NVIDIA

模型输入： 仅文本

模型输出： 仅文本

模型日期： Llama-3_1-Nemotron-51B-instruct 的训练时间为 2024 年 8 月至 9 月

数据时效性： 预训练数据的截止时间为 2023 年

蒸馏过程中使用的序列长度： 8192

快速开始

我们的代码要求 transformers 包的版本为 4.44.2 或更高

以下是使用 transformers 的代码片段示例：

import torch
import transformers

model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = transformers.pipeline(
    "text-generation", 
    model=model_id, 
    tokenizer=tokenizer, 
    max_new_tokens=20, 
    **model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))

所需硬件

FP8 推理（推荐）：

1 块 H100-80GB GPU

BF16 推理：

2 块 H100-80GB GPU
2 块 A100-80GB GPU

模型架构

该模型是 Llama-3.1-70B 的衍生版本，采用了神经架构搜索（NAS）技术。NAS 算法产生了非标准且非重复的模块。具体包括以下方面：

可变分组查询注意力（VGQA）——每个模块可以具有不同数量的 KV（键和值）头，范围从 1 到 Llama 通常使用的 8 个。
跳跃注意力——在某些模块中，注意力被完全跳过，或替换为单个线性层。
可变前馈网络（FFN）——不同模块中 FFN 层的扩展/压缩比率不同。

架构类型： Transformer 解码器（自回归语言模型）

软件集成

运行时引擎：

NeMo 24.05

支持的硬件架构兼容性： NVIDIA H100、A100 80GB（BF16 量化）。

[首选/支持的] 操作系统：

Linux

预期用途

Llama-3_1-Nemotron-51B-Instruct 是一个通用聊天模型，旨在用于英语和编程语言。也支持其他非英语语言。

评估结果

按数据集的数据收集方法

自动化

MT-Bench

使用 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 中的精选数据集进行评估 MT-bench - 8.99

MMLU

使用 Measuring Massive Multitask Language Understanding 中介绍的多任务语言理解基准进行评估

MMLU（5 次示例）
80.2%

GSM8K

使用 Training Verifiers to Solve Math Word Problems 中介绍的小学算术 8K（GSM8K）基准进行评估

GSM8K（5 次示例）
91.43%

Winogrande

Winogrande（5 次示例）
84.53%

Arc-C

Arc 挑战（25 次示例）
69.20%

Hellaswag

Hellaswag（10次示例）
85.58%

Truthful QA

TruthfulQA（0次示例）
58.63%%

局限性

该模型的训练数据包含从互联网上抓取的有毒语言、不安全内容和社会偏见。因此，该模型可能会放大这些偏见，并在收到有毒提示时返回有毒响应。即使提示本身不包含任何明确冒犯性内容，该模型生成的答案也可能不准确、遗漏关键信息，或包含无关、冗余的文本，从而产生社会不可接受或不受欢迎的内容。

该模型在对抗性对齐攻击方面表现出脆弱性。建议用户在部署此模型时同时使用语言模型安全防护措施，以防止潜在的有害输出。

对抗性测试与红队评估工作

Llama-3_1-Nemotron-51B-instruct模型经过了广泛的安全评估，包括通过三种不同方法进行的对抗性测试：

Garak：一种自动化LLM漏洞扫描工具，用于探测常见弱点，包括提示注入和数据泄露。
AEGIS：一个内容安全评估数据集和基于LLM的内容安全分类器模型，遵循人类与LLM交互中13类关键风险的广泛分类法。
人工内容红队评估：利用人工交互和对模型响应的评估。

推理

引擎： Tensor(RT)
测试硬件 H100-80GB

伦理考量

NVIDIA认为可信AI是一项共同责任，我们已制定相关政策和实践，以支持广泛AI应用的开发。当开发者按照我们的服务条款下载或使用本模型时，应与其内部模型团队合作，确保该模型满足相关行业和用例的要求，并应对未预见的产品误用问题。

请通过此处报告安全漏洞或NVIDIA AI相关问题。