Alpamayo 1.5

模型概述

描述：

Alpamayo 1.5 是 NVIDIA 开源的 100 亿参数思维链推理 VLA 模型的重大更新，旨在为自动驾驶社区提供一个交互式且可控的推理引擎。Alpamayo 1.5 构建于 Cosmos-Reason2 VLM 基础模型之上，经过强化学习后训练，并新增了导航引导、灵活摄像头数量支持以及用户问答功能。

本模型可供非商业用途使用。商业许可可根据请求提供。

许可：

模型权重依据非商业许可发布。

推理代码依据 Apache 2.0 许可发布。

部署地区：

全球

应用场景：

正在为自动驾驶场景开发和评估 VLA 模型的研究人员和自动驾驶从业者，尤其适用于处理罕见、长尾事件。

发布日期：

Hugging Face 2026年3月19日，网址：https://huggingface.co/nvidia/Alpamayo-1.5-10B

推理代码：

GitHub：https://github.com/NVlabs/alpamayo1.5

模型架构：

架构类型： Transformer

网络架构： 基于 Cosmos-Reason2 并具备基于扩散的轨迹解码器的 VLA 模型。

本模型基于以下技术开发： Cosmos-Reason2（VLM 基础模型），并配备基于扩散的动作解码器

模型参数数量：

基础模型：82 亿参数
动作专家：23 亿参数

输入：

输入类型： 图像/视频、文本、自车运动历史

输入格式：

图像：红、绿、蓝（RGB）
文本：字符串
自车运动历史：浮点值 (x, y, z), R_rot

输入参数：

图像：二维（2D）、多摄像头、多时间步
文本：一维（1D）
自车运动历史：三维（3D）平移和九维（9D，3x3）旋转、多时间步

与输入相关的其他属性： 多摄像头图像（默认 4 个摄像头：前视广角、前视长焦、左交叉、右交叉），历史窗口为 0.4 秒，帧率 10Hz（每个摄像头 4 帧），图像分辨率 1080x1920 像素（处理器会将其下采样至 320x576 像素）。文本输入包括用户指令和导航引导。图像和自车运动历史（16 个航点，10Hz）还需关联时间戳。请注意，该模型主要在此设置下进行训练和测试。

输出

输出类型： 文本、轨迹

输出格式：

文本：字符串（因果链推理轨迹或问题答案）
轨迹：浮点值 (x, y, z), R_rot

输出参数：

文本：一维（1D）
轨迹：三维（3D）平移和九维（9D，3x3）旋转，多时间步长

与输出相关的其他属性： 输出6.4秒的未来轨迹（在10Hz下为64个航点），包含自车坐标系下的位置 (x, y, z) 和旋转矩阵 R_rot。在内部，轨迹表示为一系列动态动作（加速度和曲率），遵循鸟瞰图（BEV）空间中的单轮模型。文本推理轨迹和问题答案长度可变，用于描述驾驶决策和因果因素。

我们的AI模型旨在和/或优化用于在NVIDIA GPU加速的系统上运行。通过利用NVIDIA的硬件（例如GPU核心）和软件框架（例如CUDA库），与仅使用CPU的解决方案相比，该模型实现了更快的训练和推理时间。

软件集成：

运行时引擎：

PyTorch（最低版本：2.8）
Hugging Face Transformers（最低版本：4.57.1）
DeepSpeed（最低版本：0.17.4）

支持的硬件微架构兼容性：

具有足够内存以加载10B参数模型的NVIDIA GPU（至少1块GPU，且至少具有24GB显存）

首选/支持的操作系统：

Linux（我们未在其他操作系统上进行测试）

将基础模型和微调模型集成到AI系统中，需要使用特定用例的数据进行额外测试，以确保安全有效的部署。遵循V模型方法论，在单元和系统层面进行迭代测试和验证，对于在部署前降低风险、满足技术和功能要求以及确保符合安全和道德标准至关重要。

模型版本：

Alpamayo 1.5 10B 已训练

可集成到云端的自动驾驶软件中，用于高级端到端感知、推理和运动规划。

训练、测试与评估数据集：

训练数据集：

Alpamayo 1.5 的训练数据包含因果链（CoC）推理轨迹、Cosmos-Reason 物理 AI 数据集、NVIDIA 内部专有自动驾驶数据以及公开驾驶数据的混合。

数据模态：

图像（多摄像头）
文本（推理轨迹、导航指引）
其他：轨迹数据（自车运动、未来路径点）

图像训练数据规模： 超过 10 亿张图像（来自 80,000 小时的多摄像头驾驶数据）

文本训练数据规模： 少于 10 亿个标记（300 万条 CoC 推理轨迹、Cosmos-Reason 训练数据及公开数据集）

视频训练数据规模： 10,000 至 100 万小时（80,000 小时）

非音频、图像、文本训练数据规模： 轨迹数据：80,000 小时，采样率为 10Hz

各数据集的数据收集方法： 混合：自动/传感器（摄像头和车辆传感器）、合成（VLM 生成的推理）

各数据集的标注方法： 混合：人工（结构化 CoC 标注）、自动化（基于 VLM 的自动标注和启发式规则）、自动/传感器（轨迹和自车运动）

特性： 该数据集包含 80,000 小时的多摄像头驾驶视频，以及相应的自车运动和轨迹标注。包含 3,000,000 条因果链（CoC）推理轨迹，为驾驶行为提供基于决策的、因果关联的解释。内容包括来自车辆传感器（摄像头、惯性测量单元和 GPS）的机器生成数据以及合成推理轨迹。 CoC 标注为英文，并采用将驾驶决策与因果因素相联系的结构化格式。传感器包括 RGB 摄像头（每辆车 2-6 个）、惯性测量单元和 GPS。

训练数据集还包含来自以下公开数据集的数据：

CODA-LM
Drive-Action
DriveGPT4
DriveLM
LingoQA
MapLM
MM-AU
NAVSIM-ReCogDrive
NAVSIM-Traj
nuInstruct
nuScenesQA
Omnidrive
Roadwork
Senna
SUTD
Talk2Car
W3DA

测试数据集：

链接： 专有自动驾驶测试数据集、闭环仿真、实车道路测试。

数据集的数据收集方法： 混合式：自动/传感器（真实驾驶数据）、合成（仿真场景）

数据集的标注方法： 混合式：自动/传感器、人工（真值验证）

特性： 该数据集涵盖多摄像头驾驶场景，特别关注罕见、长尾事件。其中包括复杂路口、加塞、行人交互及恶劣天气条件等具有挑战性的案例。数据通过RGB摄像头和车辆传感器采集。

评估数据集：

链接： 与测试数据集相同。

数据集的数据收集方法： 混合式：自动/传感器（真实驾驶数据）、合成（仿真场景）

数据集的标注方法： 混合式：自动/传感器、人工（真值验证）

特性： 评估重点为罕见、长尾场景，包括复杂路口、行人过街、车辆加塞以及具有挑战性的天气和光照条件。多摄像头传感器数据通过RGB摄像头采集。

定量评估基准：

使用 LingoQA 进行推理评估：Lingo-Judge 得分为 74.2。
使用 AlpaSim 在来自 PhysicalAI-AV-NuRec Dataset 的 910 个场景上进行闭环评估：AlpaSim 得分为 0.81 ± 0.01。
在来自 PhysicalAI-AV Dataset 的 937 个具有挑战性的样本上进行开环评估：6.4 秒时的 minADE_6 为 1.11 米。

推理：

加速引擎： PyTorch、Hugging Face Transformers

测试硬件：

最低配置：1 块 24GB+ 显存的 GPU（例如，NVIDIA RTX 3090、RTX 3090 Ti、RTX 4090、A5000 或同等配置）
已测试：NVIDIA H100

有关模型推理的相关脚本，请查看我们的代码仓库。

伦理考量：

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持各类 AI 应用的开发。当按照我们的服务条款下载或使用本模型时，开发者应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并应对不可预见的产品误用问题。

如发现模型质量、风险、安全漏洞或与 NVIDIA AI 相关的问题，请通过此处报告。

Alpamayo 1.5

Alpamayo | 代码

模型概述

描述：

本模型可供非商业用途使用。商业许可可根据请求提供。

许可：

模型权重依据非商业许可发布。

推理代码依据 Apache 2.0 许可发布。

部署地区：

全球

应用场景：

正在为自动驾驶场景开发和评估 VLA 模型的研究人员和自动驾驶从业者，尤其适用于处理罕见、长尾事件。

发布日期：

Hugging Face 2026年3月19日，网址：https://huggingface.co/nvidia/Alpamayo-1.5-10B

推理代码：

GitHub：https://github.com/NVlabs/alpamayo1.5

模型架构：

架构类型： Transformer

网络架构： 基于 Cosmos-Reason2 并具备基于扩散的轨迹解码器的 VLA 模型。

本模型基于以下技术开发： Cosmos-Reason2（VLM 基础模型），并配备基于扩散的动作解码器

模型参数数量：

基础模型：82 亿参数
动作专家：23 亿参数

输入：

输入类型： 图像/视频、文本、自车运动历史

输入格式：

图像：红、绿、蓝（RGB）
文本：字符串
自车运动历史：浮点值 (x, y, z), R_rot

输入参数：

图像：二维（2D）、多摄像头、多时间步
文本：一维（1D）
自车运动历史：三维（3D）平移和九维（9D，3x3）旋转、多时间步

输出

输出类型： 文本、轨迹

输出格式：

文本：字符串（因果链推理轨迹或问题答案）
轨迹：浮点值 (x, y, z), R_rot

输出参数：

文本：一维（1D）
轨迹：三维（3D）平移和九维（9D，3x3）旋转，多时间步长

软件集成：

运行时引擎：

PyTorch（最低版本：2.8）
Hugging Face Transformers（最低版本：4.57.1）
DeepSpeed（最低版本：0.17.4）

支持的硬件微架构兼容性：

具有足够内存以加载10B参数模型的NVIDIA GPU（至少1块GPU，且至少具有24GB显存）

首选/支持的操作系统：

Linux（我们未在其他操作系统上进行测试）

模型版本：

Alpamayo 1.5 10B 已训练

可集成到云端的自动驾驶软件中，用于高级端到端感知、推理和运动规划。

训练、测试与评估数据集：

训练数据集：

Alpamayo 1.5 的训练数据包含因果链（CoC）推理轨迹、Cosmos-Reason 物理 AI 数据集、NVIDIA 内部专有自动驾驶数据以及公开驾驶数据的混合。

数据模态：

图像（多摄像头）
文本（推理轨迹、导航指引）
其他：轨迹数据（自车运动、未来路径点）

图像训练数据规模： 超过 10 亿张图像（来自 80,000 小时的多摄像头驾驶数据）

文本训练数据规模： 少于 10 亿个标记（300 万条 CoC 推理轨迹、Cosmos-Reason 训练数据及公开数据集）

视频训练数据规模： 10,000 至 100 万小时（80,000 小时）

非音频、图像、文本训练数据规模： 轨迹数据：80,000 小时，采样率为 10Hz

各数据集的数据收集方法： 混合：自动/传感器（摄像头和车辆传感器）、合成（VLM 生成的推理）

各数据集的标注方法： 混合：人工（结构化 CoC 标注）、自动化（基于 VLM 的自动标注和启发式规则）、自动/传感器（轨迹和自车运动）

训练数据集还包含来自以下公开数据集的数据：

CODA-LM
Drive-Action
DriveGPT4
DriveLM
LingoQA
MapLM
MM-AU
NAVSIM-ReCogDrive
NAVSIM-Traj
nuInstruct
nuScenesQA
Omnidrive
Roadwork
Senna
SUTD
Talk2Car
W3DA

测试数据集：

链接： 专有自动驾驶测试数据集、闭环仿真、实车道路测试。

数据集的数据收集方法： 混合式：自动/传感器（真实驾驶数据）、合成（仿真场景）

数据集的标注方法： 混合式：自动/传感器、人工（真值验证）

评估数据集：

链接： 与测试数据集相同。

数据集的数据收集方法： 混合式：自动/传感器（真实驾驶数据）、合成（仿真场景）

数据集的标注方法： 混合式：自动/传感器、人工（真值验证）

定量评估基准：

使用 LingoQA 进行推理评估：Lingo-Judge 得分为 74.2。
使用 AlpaSim 在来自 PhysicalAI-AV-NuRec Dataset 的 910 个场景上进行闭环评估：AlpaSim 得分为 0.81 ± 0.01。
在来自 PhysicalAI-AV Dataset 的 937 个具有挑战性的样本上进行开环评估：6.4 秒时的 minADE_6 为 1.11 米。

推理：

加速引擎： PyTorch、Hugging Face Transformers

测试硬件：

最低配置：1 块 24GB+ 显存的 GPU（例如，NVIDIA RTX 3090、RTX 3090 Ti、RTX 4090、A5000 或同等配置）
已测试：NVIDIA H100

有关模型推理的相关脚本，请查看我们的代码仓库。

伦理考量：

如发现模型质量、风险、安全漏洞或与 NVIDIA AI 相关的问题，请通过此处报告。