Alpamayo 1.5 是 NVIDIA 开源的 100 亿参数思维链推理 VLA 模型的重大更新,旨在为自动驾驶社区提供一个交互式且可控的推理引擎。Alpamayo 1.5 构建于 Cosmos-Reason2 VLM 基础模型之上,经过强化学习后训练,并新增了导航引导、灵活摄像头数量支持以及用户问答功能。
本模型可供非商业用途使用。商业许可可根据请求提供。
模型权重依据 非商业许可 发布。
推理代码依据 Apache 2.0 许可发布。
全球
正在为自动驾驶场景开发和评估 VLA 模型的研究人员和自动驾驶从业者,尤其适用于处理罕见、长尾事件。
Hugging Face 2026年3月19日,网址:https://huggingface.co/nvidia/Alpamayo-1.5-10B
GitHub:https://github.com/NVlabs/alpamayo1.5
架构类型: Transformer
网络架构: 基于 Cosmos-Reason2 并具备基于扩散的轨迹解码器的 VLA 模型。
本模型基于以下技术开发: Cosmos-Reason2(VLM 基础模型),并配备基于扩散的动作解码器
模型参数数量:
输入类型: 图像/视频、文本、自车运动历史
输入格式:
(x, y, z), R_rot输入参数:
与输入相关的其他属性: 多摄像头图像(默认 4 个摄像头:前视广角、前视长焦、左交叉、右交叉),历史窗口为 0.4 秒,帧率 10Hz(每个摄像头 4 帧),图像分辨率 1080x1920 像素(处理器会将其下采样至 320x576 像素)。文本输入包括用户指令和导航引导。图像和自车运动历史(16 个航点,10Hz)还需关联时间戳。 请注意,该模型主要在此设置下进行训练和测试。
输出类型: 文本、轨迹
输出格式:
(x, y, z), R_rot输出参数:
与输出相关的其他属性:
输出6.4秒的未来轨迹(在10Hz下为64个航点),包含自车坐标系下的位置 (x, y, z) 和旋转矩阵 R_rot。
在内部,轨迹表示为一系列动态动作(加速度和曲率),遵循鸟瞰图(BEV)空间中的单轮模型。
文本推理轨迹和问题答案长度可变,用于描述驾驶决策和因果因素。
我们的AI模型旨在和/或优化用于在NVIDIA GPU加速的系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。
运行时引擎:
支持的硬件微架构兼容性:
首选/支持的操作系统:
将基础模型和微调模型集成到AI系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循V模型方法论,在单元和系统层面进行迭代测试和验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全和道德标准至关重要。
Alpamayo 1.5 10B 已训练
可集成到云端的自动驾驶软件中,用于高级端到端感知、推理和运动规划。
Alpamayo 1.5 的训练数据包含因果链(CoC)推理轨迹、Cosmos-Reason 物理 AI 数据集、NVIDIA 内部专有自动驾驶数据以及公开驾驶数据的混合。
数据模态:
图像训练数据规模: 超过 10 亿张图像(来自 80,000 小时的多摄像头驾驶数据)
文本训练数据规模: 少于 10 亿个标记(300 万条 CoC 推理轨迹、Cosmos-Reason 训练数据及公开数据集)
视频训练数据规模: 10,000 至 100 万小时(80,000 小时)
非音频、图像、文本训练数据规模: 轨迹数据:80,000 小时,采样率为 10Hz
各数据集的数据收集方法: 混合:自动/传感器(摄像头和车辆传感器)、合成(VLM 生成的推理)
各数据集的标注方法: 混合:人工(结构化 CoC 标注)、自动化(基于 VLM 的自动标注和启发式规则)、自动/传感器(轨迹和自车运动)
特性: 该数据集包含 80,000 小时的多摄像头驾驶视频,以及相应的自车运动和轨迹标注。 包含 3,000,000 条因果链(CoC)推理轨迹,为驾驶行为提供基于决策的、因果关联的解释。 内容包括来自车辆传感器(摄像头、惯性测量单元和 GPS)的机器生成数据以及合成推理轨迹。 CoC 标注为英文,并采用将驾驶决策与因果因素相联系的结构化格式。 传感器包括 RGB 摄像头(每辆车 2-6 个)、惯性测量单元和 GPS。
训练数据集还包含来自以下公开数据集的数据:
链接: 专有自动驾驶测试数据集、闭环仿真、实车道路测试。
数据集的数据收集方法: 混合式:自动/传感器(真实驾驶数据)、合成(仿真场景)
数据集的标注方法: 混合式:自动/传感器、人工(真值验证)
特性: 该数据集涵盖多摄像头驾驶场景,特别关注罕见、长尾事件。其中包括复杂路口、加塞、行人交互及恶劣天气条件等具有挑战性的案例。数据通过RGB摄像头和车辆传感器采集。
链接: 与测试数据集相同。
数据集的数据收集方法: 混合式:自动/传感器(真实驾驶数据)、合成(仿真场景)
数据集的标注方法: 混合式:自动/传感器、人工(真值验证)
特性: 评估重点为罕见、长尾场景,包括复杂路口、行人过街、车辆加塞以及具有挑战性的天气和光照条件。多摄像头传感器数据通过RGB摄像头采集。
定量评估基准:
加速引擎: PyTorch、Hugging Face Transformers
测试硬件:
有关模型推理的相关脚本,请查看我们的 代码仓库。
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当按照我们的服务条款下载或使用本模型时,开发者应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对不可预见的产品误用问题。
如发现模型质量、风险、安全漏洞或与 NVIDIA AI 相关的问题,请通过此处报告。