Llama-3_1-Nemotron-51B-instruct 模型在准确率与效率之间实现了出色的平衡。效率(吞吐量)直接关系到成本,因此该模型具备极高的“性价比”。我们采用创新的神经架构搜索(NAS)方法,大幅降低了模型的内存占用,不仅能支持更大规模的工作负载,还能在高负载情况下将模型部署在单块 GPU(H100-80GB)上运行。这种 NAS 方法能够在准确率与效率的权衡中选择理想的平衡点。本模型已可投入商业使用。
您对本模型的使用受 NVIDIA Open Model License 约束。 补充信息:Llama 3.1 Community License Agreement。基于 Llama 构建。
Llama-3_1-Nemotron-51B-instruct 是一款大型语言模型(LLM),衍生于 Llama-3.1-70B-instruct(又称参考模型)。我们对参考模型进行了分块蒸馏,为每个模块创建了多种变体,以提供不同的质量与计算复杂度权衡方案。随后,我们在这些模块中进行搜索,以构建一个既能满足吞吐量和内存要求(针对单块 H100-80GB GPU 优化),又能最大限度减少质量损失的模型。之后,模型会进行知识蒸馏(KD),重点针对英文单轮及多轮对话场景。 KD 阶段使用了 400 亿 tokens 的数据,这些数据来自 FineWeb、Buzz-V1.2 和 Dolma 三个数据集的混合。
相关链接:NIM、博客 和 huggingface
最终得到的模型与人类对话偏好高度对齐。
模型开发者: NVIDIA
模型输入: 仅文本
模型输出: 仅文本
模型日期: Llama-3_1-Nemotron-51B-instruct 的训练时间为 2024 年 8 月至 9 月
数据时效性: 预训练数据的截止时间为 2023 年
蒸馏过程中使用的序列长度: 8192
我们的代码要求 transformers 包的版本为 4.44.2 或更高
以下是使用 transformers 的代码片段示例:
import torch
import transformers
model_id = "nvidia/Llama-3_1-Nemotron-51B-Instruct"
model_kwargs = {"torch_dtype": torch.bfloat16, "trust_remote_code": True, "device_map": "auto"}
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
max_new_tokens=20,
**model_kwargs
)
print(pipeline([{"role": "user", "content": "Hey how are you?"}]))FP8 推理(推荐):
BF16 推理:
该模型是 Llama-3.1-70B 的衍生版本,采用了神经架构搜索(NAS)技术。NAS 算法产生了非标准且非重复的模块。具体包括以下方面:
架构类型: Transformer 解码器(自回归语言模型)
运行时引擎:
支持的硬件架构兼容性: NVIDIA H100、A100 80GB(BF16 量化)。
[首选/支持的] 操作系统:
Llama-3_1-Nemotron-51B-Instruct 是一个通用聊天模型,旨在用于英语和编程语言。也支持其他非英语语言。
按数据集的数据收集方法
使用 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 中的精选数据集进行评估 MT-bench - 8.99
使用 Measuring Massive Multitask Language Understanding 中介绍的多任务语言理解基准进行评估
| MMLU(5 次示例) |
|---|
| 80.2% |
使用 Training Verifiers to Solve Math Word Problems 中介绍的小学算术 8K(GSM8K)基准进行评估
| GSM8K(5 次示例) |
|---|
| 91.43% |
| Winogrande(5 次示例) |
|---|
| 84.53% |
| Arc 挑战(25 次示例) |
|---|
| 69.20% |
| Hellaswag(10次示例) |
|---|
| 85.58% |
| TruthfulQA(0次示例) |
|---|
| 58.63%% |
该模型的训练数据包含从互联网上抓取的有毒语言、不安全内容和社会偏见。因此,该模型可能会放大这些偏见,并在收到有毒提示时返回有毒响应。即使提示本身不包含任何明确冒犯性内容,该模型生成的答案也可能不准确、遗漏关键信息,或包含无关、冗余的文本,从而产生社会不可接受或不受欢迎的内容。
该模型在对抗性对齐攻击方面表现出脆弱性。建议用户在部署此模型时同时使用语言模型安全防护措施,以防止潜在的有害输出。
Llama-3_1-Nemotron-51B-instruct模型经过了广泛的安全评估,包括通过三种不同方法进行的对抗性测试:
引擎: Tensor(RT)
测试硬件 H100-80GB
NVIDIA认为可信AI是一项共同责任,我们已制定相关政策和实践,以支持广泛AI应用的开发。当开发者按照我们的服务条款下载或使用本模型时,应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对未预见的产品误用问题。
请通过此处报告安全漏洞或NVIDIA AI相关问题。