HuggingFace镜像/Alpamayo-1.5-10B
模型介绍文件和版本分析
下载使用量0

Alpamayo 1.5

Alpamayo | 代码

模型概述

描述:

Alpamayo 1.5 是 NVIDIA 开源的 100 亿参数思维链推理 VLA 模型的重大更新,旨在为自动驾驶社区提供一个交互式且可控的推理引擎。Alpamayo 1.5 构建于 Cosmos-Reason2 VLM 基础模型之上,经过强化学习后训练,并新增了导航引导、灵活摄像头数量支持以及用户问答功能。

本模型可供非商业用途使用。商业许可可根据请求提供。

许可:

模型权重依据 非商业许可 发布。

推理代码依据 Apache 2.0 许可发布。

部署地区:

全球

应用场景:

正在为自动驾驶场景开发和评估 VLA 模型的研究人员和自动驾驶从业者,尤其适用于处理罕见、长尾事件。

发布日期:

Hugging Face 2026年3月19日,网址:https://huggingface.co/nvidia/Alpamayo-1.5-10B

推理代码:

GitHub:https://github.com/NVlabs/alpamayo1.5

模型架构:

架构类型: Transformer

网络架构: 基于 Cosmos-Reason2 并具备基于扩散的轨迹解码器的 VLA 模型。

本模型基于以下技术开发: Cosmos-Reason2(VLM 基础模型),并配备基于扩散的动作解码器

模型参数数量:

  • 基础模型:82 亿参数
  • 动作专家:23 亿参数

输入:

输入类型: 图像/视频、文本、自车运动历史

输入格式:

  • 图像:红、绿、蓝(RGB)
  • 文本:字符串
  • 自车运动历史:浮点值 (x, y, z), R_rot

输入参数:

  • 图像:二维(2D)、多摄像头、多时间步
  • 文本:一维(1D)
  • 自车运动历史:三维(3D)平移和九维(9D,3x3)旋转、多时间步

与输入相关的其他属性: 多摄像头图像(默认 4 个摄像头:前视广角、前视长焦、左交叉、右交叉),历史窗口为 0.4 秒,帧率 10Hz(每个摄像头 4 帧),图像分辨率 1080x1920 像素(处理器会将其下采样至 320x576 像素)。文本输入包括用户指令和导航引导。图像和自车运动历史(16 个航点,10Hz)还需关联时间戳。 请注意,该模型主要在此设置下进行训练和测试。

输出

输出类型: 文本、轨迹

输出格式:

  • 文本:字符串(因果链推理轨迹或问题答案)
  • 轨迹:浮点值 (x, y, z), R_rot

输出参数:

  • 文本:一维(1D)
  • 轨迹:三维(3D)平移和九维(9D,3x3)旋转,多时间步长

与输出相关的其他属性: 输出6.4秒的未来轨迹(在10Hz下为64个航点),包含自车坐标系下的位置 (x, y, z) 和旋转矩阵 R_rot。 在内部,轨迹表示为一系列动态动作(加速度和曲率),遵循鸟瞰图(BEV)空间中的单轮模型。 文本推理轨迹和问题答案长度可变,用于描述驾驶决策和因果因素。

我们的AI模型旨在和/或优化用于在NVIDIA GPU加速的系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。

软件集成:

运行时引擎:

  • PyTorch(最低版本:2.8)
  • Hugging Face Transformers(最低版本:4.57.1)
  • DeepSpeed(最低版本:0.17.4)

支持的硬件微架构兼容性:

  • 具有足够内存以加载10B参数模型的NVIDIA GPU(至少1块GPU,且至少具有24GB显存)

首选/支持的操作系统:

  • Linux(我们未在其他操作系统上进行测试)

将基础模型和微调模型集成到AI系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循V模型方法论,在单元和系统层面进行迭代测试和验证,对于在部署前降低风险、满足技术和功能要求以及确保符合安全和道德标准至关重要。

模型版本:

Alpamayo 1.5 10B 已训练

可集成到云端的自动驾驶软件中,用于高级端到端感知、推理和运动规划。

训练、测试与评估数据集:

训练数据集:

Alpamayo 1.5 的训练数据包含因果链(CoC)推理轨迹、Cosmos-Reason 物理 AI 数据集、NVIDIA 内部专有自动驾驶数据以及公开驾驶数据的混合。

数据模态:

  • 图像(多摄像头)
  • 文本(推理轨迹、导航指引)
  • 其他:轨迹数据(自车运动、未来路径点)

图像训练数据规模: 超过 10 亿张图像(来自 80,000 小时的多摄像头驾驶数据)

文本训练数据规模: 少于 10 亿个标记(300 万条 CoC 推理轨迹、Cosmos-Reason 训练数据及公开数据集)

视频训练数据规模: 10,000 至 100 万小时(80,000 小时)

非音频、图像、文本训练数据规模: 轨迹数据:80,000 小时,采样率为 10Hz

各数据集的数据收集方法: 混合:自动/传感器(摄像头和车辆传感器)、合成(VLM 生成的推理)

各数据集的标注方法: 混合:人工(结构化 CoC 标注)、自动化(基于 VLM 的自动标注和启发式规则)、自动/传感器(轨迹和自车运动)

特性: 该数据集包含 80,000 小时的多摄像头驾驶视频,以及相应的自车运动和轨迹标注。 包含 3,000,000 条因果链(CoC)推理轨迹,为驾驶行为提供基于决策的、因果关联的解释。 内容包括来自车辆传感器(摄像头、惯性测量单元和 GPS)的机器生成数据以及合成推理轨迹。 CoC 标注为英文,并采用将驾驶决策与因果因素相联系的结构化格式。 传感器包括 RGB 摄像头(每辆车 2-6 个)、惯性测量单元和 GPS。

训练数据集还包含来自以下公开数据集的数据:

  • CODA-LM
  • Drive-Action
  • DriveGPT4
  • DriveLM
  • LingoQA
  • MapLM
  • MM-AU
  • NAVSIM-ReCogDrive
  • NAVSIM-Traj
  • nuInstruct
  • nuScenesQA
  • Omnidrive
  • Roadwork
  • Senna
  • SUTD
  • Talk2Car
  • W3DA

测试数据集:

链接: 专有自动驾驶测试数据集、闭环仿真、实车道路测试。

数据集的数据收集方法: 混合式:自动/传感器(真实驾驶数据)、合成(仿真场景)

数据集的标注方法: 混合式:自动/传感器、人工(真值验证)

特性: 该数据集涵盖多摄像头驾驶场景,特别关注罕见、长尾事件。其中包括复杂路口、加塞、行人交互及恶劣天气条件等具有挑战性的案例。数据通过RGB摄像头和车辆传感器采集。

评估数据集:

链接: 与测试数据集相同。

数据集的数据收集方法: 混合式:自动/传感器(真实驾驶数据)、合成(仿真场景)

数据集的标注方法: 混合式:自动/传感器、人工(真值验证)

特性: 评估重点为罕见、长尾场景,包括复杂路口、行人过街、车辆加塞以及具有挑战性的天气和光照条件。多摄像头传感器数据通过RGB摄像头采集。

定量评估基准:

  • 使用 LingoQA 进行推理评估:Lingo-Judge 得分为 74.2。
  • 使用 AlpaSim 在来自 PhysicalAI-AV-NuRec Dataset 的 910 个场景上进行闭环评估:AlpaSim 得分为 0.81 ± 0.01。
  • 在来自 PhysicalAI-AV Dataset 的 937 个具有挑战性的样本上进行开环评估:6.4 秒时的 minADE_6 为 1.11 米。

推理:

加速引擎: PyTorch、Hugging Face Transformers

测试硬件:

  • 最低配置:1 块 24GB+ 显存的 GPU(例如,NVIDIA RTX 3090、RTX 3090 Ti、RTX 4090、A5000 或同等配置)
  • 已测试:NVIDIA H100

有关模型推理的相关脚本,请查看我们的 代码仓库。

伦理考量:

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持各类 AI 应用的开发。当按照我们的服务条款下载或使用本模型时,开发者应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对不可预见的产品误用问题。

如发现模型质量、风险、安全漏洞或与 NVIDIA AI 相关的问题,请通过此处报告。