NVIDIA Isaac GR00T N1.7 是一款用于通用人形机器人推理与技能的开放式基础模型。这款跨载体模型接收语言和图像等多模态输入,能够在多样化环境中执行操作任务。开发者与研究人员可利用真实或合成数据对 GR00T N1.7 进行后训练,以适应其特定的人形机器人或任务需求。
Isaac GR00T N1.7 是我们模型的中等规模版本,它基于预训练的视觉和语言编码器构建,并采用流匹配动作转换器,以视觉、语言和本体感受为条件对一系列动作进行建模。
GROOT N1 白皮书(https://arxiv.org/abs/2503.14734)中提供了 Isaac GR00T N1.X 架构的详细说明。
本模型可供商业/非商业用途。
模型开发者:NVIDIA
Isaac GR00T N1.7 模型系列包含以下 4 个模型:
描述
在 SimplerEnv 中使用 Bridge 数据集对 N1.7 模型进行后训练得到的模型。
后训练数据
https://huggingface.co/datasets/IPEC-COMMUNITY/bridge_orig_lerobot
数据集摘要
BridgeData V2 的 LeRobot 格式转换版本,原始数据包含 60,096 条轨迹,涉及 24 个环境中的机器人操作。
描述
在 SimplerEnv 中使用 Fractal 数据集对 N1.7 模型进行后训练得到的模型。
后训练数据
https://huggingface.co/datasets/IPEC-COMMUNITY/bridge_orig_lerobot
数据集摘要
BridgeData V2 的 LeRobot 格式转换版本,原始数据包含 60,096 条轨迹,涉及 24 个环境中的机器人操作。
描述
使用 DROID 数据集对 N1.7 模型进行后训练得到的模型。
后训练数据
https://droid-dataset.github.io/
数据集摘要
一个大规模的 “真实场景”机器人操作数据集,包含约 76,000 条演示轨迹(约 350 小时) 的交互数据,数据采集于 52 栋建筑中的 564 个不同场景,涵盖了通过自然语言指令指定的 86 项操作任务。
描述
使用 LIBERO 数据集对 N1.7 模型进行后训练得到的模型。
后训练数据
https://github.com/Lifelong-Robot-Learning/LIBERO
数据集摘要
一个用于 终身机器人学习 的基准测试集,提供 130 项语言条件下的操作任务,这些任务被分组为多个任务套件。
包含 人类遥操作演示,旨在评估机器人智能体的 知识迁移和持续学习 能力。
本模型根据 NVIDIA 开放模型许可协议 发布。
全球
研究人员、学者、开源社区:开展人工智能驱动的机器人学研究与算法开发。 开发人员:为各类机器人应用集成和定制人工智能。 初创企业与公司:加速机器人开发进程,降低训练成本。
累计计算量:遵循说明 模型训练的预估能源与排放:遵循说明 总千瓦时: 64 GB200 节点 * 每个节点 4 块 gpu × 1200W × 0.001 × 0.8 × 120 小时 × 1.4 = 41288 千瓦时 总排放量: 410.5 × 41288 × 0.000001 = 16.949 吨二氧化碳当量
GR00T-N1.7 的 VLM 主干网络现为 Cosmos-Reason2-2B
网络架构:
架构示意图如上图所示。 红、绿、蓝(RGB)相机帧通过预训练的视觉Transformer(SigLip2)进行处理。 文本由预训练的Transformer(T5)进行编码。 机器人本体感觉通过一个由具体化 ID 索引的多层感知器(MLP)进行编码。为了处理可变维度的本体感觉,输入在送入 MLP 之前会被填充到可配置的最大长度。 动作通过 MLP 进行编码,速度预测通过 MLP 进行解码,每个独特的具体化对应一个 MLP。 流匹配Transformer 以扩散Transformer(DiT)的形式实现,其中扩散步骤条件通过自适应层归一化(AdaLN)实现。

模型参数数量: 3,000,000,000
输入类型:
输入格式:
输入参数:
输出类型: 动作
输出格式 连续值向量
输出参数: [二维 (2D)]
与输出相关的其他属性: 连续值向量对应机器人上的不同电机控制,具体取决于机器人实体的自由度。
我们的 AI 模型旨在和/或优化为在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。
运行时引擎: PyTorch
支持的硬件微架构兼容性: 以下所有:
[首选/支持的] 操作系统:
将基础模型和微调模型集成到 AI 系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法,在单元和系统层面进行迭代测试和验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全和道德标准至关重要。
GR00T N1.7 EA
总大小(数据点数量):2160 万
数据集总数:13 个
GR00T 预训练数据
按数据集的数据收集方法: 混合:人工、机器人、模拟。
按数据集的标注方法: 混合:人工、自动化。
属性:
我们在模拟和真实机器人基准测试中进行评估,如白皮书(https://arxiv.org/abs/2503.14734)中所定义。
按数据集的数据收集方法: 混合:人工、机器人、模拟。
按数据集的标注方法: 混合:人工、自动化。
本节讨论GR00T N1.7任务的各种配置和推理运行时间,包括延迟和加速比两方面内容。
GR00T N1.7推理时间(4个去噪步骤,1个摄像头):
| 设备 | 模式 | 数据处理 | 骨干网络 | 动作头 | 端到端 | 频率 | 端到端加速比 |
|---|---|---|---|---|---|---|---|
| 独立显卡 | |||||||
| H100 80GB HBM3 | PyTorch Eager | 6.2 ms | 31.3 ms | 48.2 ms | 85.8 ms | 11.7 Hz | 1.00x |
| torch.compile | 6.2 ms | 30.4 ms | 12.0 ms | 48.6 ms | 20.6 Hz | 1.77x | |
| TensorRT(全流水线) | 6.2 ms | 8.8 ms | 12.3 ms | 27.9 ms | 35.9 Hz | 3.08x | |
| H20 96GB HBM3 | PyTorch Eager | 5.33 ms | 30.8 ms | 47.3 ms | 83.4 ms | 12.0 Hz | 1.00x |
| torch.compile | 5.33 ms | 31.1 ms | 13.3 ms | 49.7 ms | 20.1 Hz | 1.68x | |
| TensorRT(全流水线) | 5.33 ms | 14.2 ms | 14.5 ms | 34.0 ms | 29.4 Hz | 2.45x | |
| RTX Pro 6000 Blackwell | PyTorch Eager | 4.8 ms | 29.3 ms | 44.0 ms | 78.4 ms | 12.8 Hz | 1.00x |
| torch.compile | 4.8 ms | 29.4 ms | 16.5 ms | 50.7 ms | 19.7 Hz | 1.55x | |
| TensorRT(全流水线) | 4.8 ms | 9.9 ms | 13.2 ms | 27.9 ms | 35.9 Hz | 2.81x | |
| RTX Pro 5000 72GB | PyTorch Eager | 8.85 ms | 54.01 ms | 63.19 ms | 126.4 ms | 7.9 Hz | 1.00x |
| torch.compile | 8.85 ms | 55.74 ms | 20.38 ms | 84.9 ms | 11.8 Hz | 1.49x | |
| TensorRT(全流水线) | 8.85 ms | 14.37 ms | 17.33 ms | 40.5 ms | 24.7 Hz | 3.13x | |
| L40 | PyTorch Eager | 6.6 ms | 42.8 ms | 78.9 ms | 128.3 ms | 7.8 Hz | 1.00x |
| torch.compile | 6.6 ms | 42.7 ms | 19.8 ms | 69.0 ms | 14.5 Hz | 1.86x | |
| TensorRT(全流水线) | 6.6 ms | 13.1 ms | 18.8 ms | 38.4 ms | 26.0 Hz | 3.34x | |
| L20 | PyTorch Eager | 5.7 ms | 47.58 ms | 86.92 ms | 140.3 ms | 7.1 Hz | 1.00x |
| torch.compile | 5.7 ms | 47.2 ms | 20.18 ms | 73.1 ms | 13.7 Hz | 1.92x | |
| TensorRT(全流水线) | 5.7 ms | 17.27 ms | 19.79 ms | 42.8 ms | 23.3 Hz | 3.28x | |
| Jetson / Spark | |||||||
| DGX Spark | PyTorch Eager | 13.14 ms | 38.22 ms | 74.94 ms | 126.4 ms | 7.9 Hz | 1.00x |
| torch.compile | 13.14 ms | 39.23 ms | 56.49 ms | 108.8 ms | 9.2 Hz | 1.16x | |
| TensorRT(全流水线) | 13.14 ms | 33.43 ms | 52.37 ms | 98.6 ms | 10.1 Hz | 1.28x | |
| AGX Thor | PyTorch Eager | 8.21 ms | 55.26 ms | 81.65 ms | 144.9 ms | 6.9 Hz | 1.00x |
| torch.compile | 8.21 ms | 55.59 ms | 64.66 ms | 128.4 ms | 7.8 Hz | 1.13x | |
| TensorRT(全流水线) | 8.21 ms | 28.89 ms | 56.64 ms | 93.8 ms | 10.7 Hz | 1.54x | |
| Orin | PyTorch Eager | 9.45 ms | 127.6 ms | 205.39 ms | 342.8 ms | 2.9 Hz | 1.00x |
| torch.compile | 9.45 ms | 128.59 ms | 78.94 ms | 217.0 ms | 4.6 Hz | 1.58x | |
| TensorRT(仅DiT) | 9.45 ms | 128.38 ms | 78.6 ms | 216.5 ms | 4.6 Hz | 1.58x |
注意:Orin使用仅DiT的TensorRT(
--inference-mode tensorrt),因为TRT 10.3不支持骨干网络引擎。其他所有平台均使用全流水线模式(--inference-mode trt_full_pipeline)。
引擎: PyTorch 测试硬件: A6000
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当开发者按照我们的服务条款下载或使用本模型时,应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对不可预见的产品误用情况。
用户对模型的输入和输出负责。在部署前,用户负责确保模型的安全集成,包括实施防护措施以及其他安全机制。
有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的可解释性、偏见、安全与安保以及隐私子卡。
如发现模型质量、风险、安全漏洞或与 NVIDIA AI 相关的问题,请在此处报告。