HuggingFace镜像/GR00T-N1.7-3B
模型介绍文件和版本分析
下载使用量0
GitHub Badge Website Badge

模型概述

描述:

NVIDIA Isaac GR00T N1.7 是一款用于通用人形机器人推理与技能的开放式基础模型。这款跨载体模型接收语言和图像等多模态输入,能够在多样化环境中执行操作任务。开发者与研究人员可利用真实或合成数据对 GR00T N1.7 进行后训练,以适应其特定的人形机器人或任务需求。

Isaac GR00T N1.7 是我们模型的中等规模版本,它基于预训练的视觉和语言编码器构建,并采用流匹配动作转换器,以视觉、语言和本体感受为条件对一系列动作进行建模。

GROOT N1 白皮书(https://arxiv.org/abs/2503.14734)中提供了 Isaac GR00T N1.X 架构的详细说明。

本模型可供商业/非商业用途。

模型开发者:NVIDIA

模型版本

Isaac GR00T N1.7 模型系列包含以下 4 个模型:

GR00T N1.7 – SimplerEnv Bridge

描述
在 SimplerEnv 中使用 Bridge 数据集对 N1.7 模型进行后训练得到的模型。

后训练数据
https://huggingface.co/datasets/IPEC-COMMUNITY/bridge_orig_lerobot

数据集摘要
BridgeData V2 的 LeRobot 格式转换版本,原始数据包含 60,096 条轨迹,涉及 24 个环境中的机器人操作。

GR00T N1.7 – SimplerEnv Fractal

描述
在 SimplerEnv 中使用 Fractal 数据集对 N1.7 模型进行后训练得到的模型。

后训练数据
https://huggingface.co/datasets/IPEC-COMMUNITY/bridge_orig_lerobot

数据集摘要
BridgeData V2 的 LeRobot 格式转换版本,原始数据包含 60,096 条轨迹,涉及 24 个环境中的机器人操作。

GR00T N1.7 – Droid

描述
使用 DROID 数据集对 N1.7 模型进行后训练得到的模型。

后训练数据
https://droid-dataset.github.io/

数据集摘要
一个大规模的 “真实场景”机器人操作数据集,包含约 76,000 条演示轨迹(约 350 小时) 的交互数据,数据采集于 52 栋建筑中的 564 个不同场景,涵盖了通过自然语言指令指定的 86 项操作任务。

GR00T N1.7 – LIBERO

描述
使用 LIBERO 数据集对 N1.7 模型进行后训练得到的模型。

后训练数据
https://github.com/Lifelong-Robot-Learning/LIBERO

数据集摘要
一个用于 终身机器人学习 的基准测试集,提供 130 项语言条件下的操作任务,这些任务被分组为多个任务套件。
包含 人类遥操作演示,旨在评估机器人智能体的 知识迁移和持续学习 能力。

许可协议

本模型根据 NVIDIA 开放模型许可协议 发布。

部署地区:

全球

应用场景:

研究人员、学者、开源社区:开展人工智能驱动的机器人学研究与算法开发。 开发人员:为各类机器人应用集成和定制人工智能。 初创企业与公司:加速机器人开发进程,降低训练成本。

发布日期:

  • Github 地址:https://github.com/NVIDIA/Isaac-GR00T
  • Huggingface 地址:https://huggingface.co/collections/nvidia/gr00t-n17

计算负载(内部专用:仅适用于 NVIDIA 模型)

累计计算量:遵循说明 模型训练的预估能源与排放:遵循说明 总千瓦时: 64 GB200 节点 * 每个节点 4 块 gpu × 1200W × 0.001 × 0.8 × 120 小时 × 1.4 = 41288 千瓦时 总排放量: 410.5 × 41288 × 0.000001 = 16.949 吨二氧化碳当量

模型架构:

GR00T-N1.7 的 VLM 主干网络现为 Cosmos-Reason2-2B

网络架构:

架构示意图如上图所示。 红、绿、蓝(RGB)相机帧通过预训练的视觉Transformer(SigLip2)进行处理。 文本由预训练的Transformer(T5)进行编码。 机器人本体感觉通过一个由具体化 ID 索引的多层感知器(MLP)进行编码。为了处理可变维度的本体感觉,输入在送入 MLP 之前会被填充到可配置的最大长度。 动作通过 MLP 进行编码,速度预测通过 MLP 进行解码,每个独特的具体化对应一个 MLP。 流匹配Transformer 以扩散Transformer(DiT)的形式实现,其中扩散步骤条件通过自适应层归一化(AdaLN)实现。

Model Architecture

模型参数数量: 3,000,000,000

输入:

输入类型:

  • 视觉:图像帧
  • 状态:机器人本体感觉
  • 语言指令:文本
  • 具体化 ID:整数

输入格式:

  • 视觉:来自机器人相机的可变数量 uint8 图像帧
  • 状态:浮点数
  • 语言指令:字符串
  • 具体化 ID:指示所观察的是哪个训练具体化的整数

输入参数:

  • 视觉:二维(2D)- 红、绿、蓝(RGB)
  • 状态:一维(1D)- 浮点数向量
  • 语言指令:一维(1D)- 字符串
  • 具体化 ID:一维(1D)- 整数

输出:

输出类型: 动作

输出格式 连续值向量

输出参数: [二维 (2D)]

与输出相关的其他属性: 连续值向量对应机器人上的不同电机控制,具体取决于机器人实体的自由度。

我们的 AI 模型旨在和/或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。

软件集成:

运行时引擎: PyTorch

支持的硬件微架构兼容性: 以下所有:

  • NVIDIA Ampere
  • NVIDIA Blackwell
  • NVIDIA Jetson
  • NVIDIA Hopper
  • NVIDIA Lovelace

[首选/支持的] 操作系统:

  • Linux

将基础模型和微调模型集成到 AI 系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法,在单元和系统层面进行迭代测试和验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全和道德标准至关重要。

模型版本

GR00T N1.7 EA

训练和评估数据集:

总大小(数据点数量):2160 万
数据集总数:13 个

训练数据集:

GR00T 预训练数据

按数据集的数据收集方法: 混合:人工、机器人、模拟。

按数据集的标注方法: 混合:人工、自动化。

属性:

  • 跨实体:在各种机器人实体上收集的数据
  • 传感器类型:RGB 摄像头、机器人本体感知、机器人执行器数据

评估:

我们在模拟和真实机器人基准测试中进行评估,如白皮书(https://arxiv.org/abs/2503.14734)中所定义。

按数据集的数据收集方法: 混合:人工、机器人、模拟。

按数据集的标注方法: 混合:人工、自动化。

  • 用于上身控制的模拟评估基准
  • 9 项 DexMG 白皮书任务
  • 24 项 RoboCasa 模拟移动操作器任务
  • 24 项 Digital Cousin 模拟 GR-1 人形机器人操作任务
  • 对于模拟,我们自动测量每个操作行为的成功率。
  • 对于真实机器人
    • 杂货打包任务
    • 新物体(训练数据中未见)
    • 具有交接功能的工业多机器人协作
    • 由实验室中的人类观察者进行评估

系统要求与性能

本节讨论GR00T N1.7任务的各种配置和推理运行时间,包括延迟和加速比两方面内容。

GR00T N1.7推理时间(4个去噪步骤,1个摄像头):

设备模式数据处理骨干网络动作头端到端频率端到端加速比
独立显卡
H100 80GB HBM3PyTorch Eager6.2 ms31.3 ms48.2 ms85.8 ms11.7 Hz1.00x
torch.compile6.2 ms30.4 ms12.0 ms48.6 ms20.6 Hz1.77x
TensorRT(全流水线)6.2 ms8.8 ms12.3 ms27.9 ms35.9 Hz3.08x
H20 96GB HBM3PyTorch Eager5.33 ms30.8 ms47.3 ms83.4 ms12.0 Hz1.00x
torch.compile5.33 ms31.1 ms13.3 ms49.7 ms20.1 Hz1.68x
TensorRT(全流水线)5.33 ms14.2 ms14.5 ms34.0 ms29.4 Hz2.45x
RTX Pro 6000 BlackwellPyTorch Eager4.8 ms29.3 ms44.0 ms78.4 ms12.8 Hz1.00x
torch.compile4.8 ms29.4 ms16.5 ms50.7 ms19.7 Hz1.55x
TensorRT(全流水线)4.8 ms9.9 ms13.2 ms27.9 ms35.9 Hz2.81x
RTX Pro 5000 72GBPyTorch Eager8.85 ms54.01 ms63.19 ms126.4 ms7.9 Hz1.00x
torch.compile8.85 ms55.74 ms20.38 ms84.9 ms11.8 Hz1.49x
TensorRT(全流水线)8.85 ms14.37 ms17.33 ms40.5 ms24.7 Hz3.13x
L40PyTorch Eager6.6 ms42.8 ms78.9 ms128.3 ms7.8 Hz1.00x
torch.compile6.6 ms42.7 ms19.8 ms69.0 ms14.5 Hz1.86x
TensorRT(全流水线)6.6 ms13.1 ms18.8 ms38.4 ms26.0 Hz3.34x
L20PyTorch Eager5.7 ms47.58 ms86.92 ms140.3 ms7.1 Hz1.00x
torch.compile5.7 ms47.2 ms20.18 ms73.1 ms13.7 Hz1.92x
TensorRT(全流水线)5.7 ms17.27 ms19.79 ms42.8 ms23.3 Hz3.28x
Jetson / Spark
DGX SparkPyTorch Eager13.14 ms38.22 ms74.94 ms126.4 ms7.9 Hz1.00x
torch.compile13.14 ms39.23 ms56.49 ms108.8 ms9.2 Hz1.16x
TensorRT(全流水线)13.14 ms33.43 ms52.37 ms98.6 ms10.1 Hz1.28x
AGX ThorPyTorch Eager8.21 ms55.26 ms81.65 ms144.9 ms6.9 Hz1.00x
torch.compile8.21 ms55.59 ms64.66 ms128.4 ms7.8 Hz1.13x
TensorRT(全流水线)8.21 ms28.89 ms56.64 ms93.8 ms10.7 Hz1.54x
OrinPyTorch Eager9.45 ms127.6 ms205.39 ms342.8 ms2.9 Hz1.00x
torch.compile9.45 ms128.59 ms78.94 ms217.0 ms4.6 Hz1.58x
TensorRT(仅DiT)9.45 ms128.38 ms78.6 ms216.5 ms4.6 Hz1.58x

注意:Orin使用仅DiT的TensorRT(--inference-mode tensorrt),因为TRT 10.3不支持骨干网络引擎。其他所有平台均使用全流水线模式(--inference-mode trt_full_pipeline)。

推理:

引擎: PyTorch 测试硬件: A6000

伦理考量:

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当开发者按照我们的服务条款下载或使用本模型时,应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对不可预见的产品误用情况。

用户对模型的输入和输出负责。在部署前,用户负责确保模型的安全集成,包括实施防护措施以及其他安全机制。

有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的可解释性、偏见、安全与安保以及隐私子卡。

如发现模型质量、风险、安全漏洞或与 NVIDIA AI 相关的问题,请在此处报告。