Cosmos-H-Surgical 概述

描述：

Cosmos-H-Surgical-Predict 是基于 NVIDIA Cosmos 平台构建的、针对手术机器人应用的微调世界基础模型。该模型由 Cosmos-Predict2.5-2B 微调而来，以首帧图像和文本描述作为输入，可预测手术视频的后续 92 帧画面。这为手术机器人下游策略模型的训练提供了合成数据生成（SDG）能力。该模型是 Cosmos 基础模型向手术领域的适配版本。其功能与原始 Cosmos-Predict2.5-2B 一致，但有一个关键区别：Cosmos-H-Surgical-Predict 舍弃了纯文本视频生成功能，要求除文本描述外，还需输入首帧图像。

Cosmos-H-Surgical-Transfer 是基于 NVIDIA Cosmos 平台构建的、针对手术机器人应用的微调世界基础模型。该模型由 Cosmos-Transfer2.5-2B 微调而来，能够将控制输入视频（深度图、分割掩码、边缘图或模糊 RGB 图像）转换为逼真的手术视频。通过将合成/计算机图形渲染的视频转换为逼真的等效视频，该模型弥合了仿真到现实（sim2real）的差距。

本模型仅供研究与开发使用。

许可协议/使用条款：

本模型的使用受 NVIDIA 许可协议约束。

部署地区：

全球

用例：

医学研究人员、手术机器人开发者、AI开发者以及医疗机构可预期将此模型用于以下场景：

合成数据生成（SDG）：从单张观察帧生成合成手术视频数据，以训练手术机器人的策略模型
物理AI开发：通过提供真实的训练数据，推动手术机器人的物理AI系统发展
仿真到现实迁移：将仿真或计算机生成（CG）的手术视频转换为逼真视频，最大限度缩小仿真环境与真实环境之间的领域差距

本模型旨在作为研究工具使用，不应用于临床诊断目的。

发布日期：

Huggingface：2026年3月16日（2026年圣何塞GTC大会），发布链接：https://huggingface.co/nvidia/cosmos-h-surgical-predict

参考文献：

[1] Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling arXiv预印本 arXiv:2512.23162, 2025. https://arxiv.org/abs/2512.23162

[2] NVIDIA Cosmos: "World Foundation Models for Physical AI." arXiv预印本 arXiv:2511.00062, 2025. https://arxiv.org/abs/2511.00062

[3] Cosmos-Predict2.5模型卡片：https://huggingface.co/nvidia/Cosmos-Predict2.5-2B

[4] Cosmos-Transfer2.5模型卡片：https://huggingface.co/nvidia/Cosmos-Transfer2.5-2B

模型架构：

架构类型：扩散Transformer
网络架构（预测）： latent空间视频去噪模型，包含交错的自注意力层、交叉注意力层和前馈层
网络架构（迁移）： latent空间视频去噪模型，带有控制分支注入
任务：生成（视频预测/视频迁移/仿真到现实）
基础模型（预测）：Cosmos-Predict2.5-2B（预训练）
基础模型（迁移）：Cosmos-Transfer2.5-2B
模型参数数量：20亿

输入（预测）：

输入类型：文本+图像
输入格式：JPG/PNG/JPEG/WebP（图像），字符串（文本）
输入参数：文本：一维（1D），图像：二维（2D）
与输入相关的其他属性：

需要第一帧图像，可选配文本描述。与基础模型Cosmos-Predict2.5-2B不同，不支持仅文本的视频生成（无第一帧）。
输入字符串应包含少于300个单词，并提供用于世界生成的描述性内容，例如场景描述、关键对象或角色、背景，以及在5秒时长内要描绘的任何特定动作或运动。
对于720P模型，输入图像尺寸应为1280x704。

输出（预测）：

输出类型： 视频
输出格式： MP4
输出参数： 三维（3D）——92帧，分辨率1280x704，帧率16 FPS（约5.8秒视频）
与输出相关的其他属性： 生成的视频为5秒片段，其分辨率和帧率由所使用的模型变体决定。例如，720P 16FPS模型生成的视频分辨率为1280x704，帧率为16 FPS。

输入（迁移）：

输入类型： 文本+视频
输入格式： MP4（视频）、字符串（文本）
输入参数： 控制视频（3D）+ 文本描述（1D）
与输入相关的其他属性：

输入文本字符串应少于300字，并应提供用于场景生成的描述性内容，例如场景描述、关键物体或角色、背景以及在5秒时长内要描绘的任何特定动作或运动。
模型支持不同长度的控制输入视频，但长度为93帧的倍数（例如93、186或279帧）时性能最佳。
模型支持四种类型的控制输入视频：模糊视频、Canny边缘视频、深度图视频和分割掩码视频。当提供多个控制输入时，它们必须源自同一源视频，代表相同内容的不同模态，同时保持相同的时空维度。
对于720P模型，控制输入视频的空间分辨率应为1280x720。

输出（迁移）：

输出类型： 视频
输出格式： MP4
输出参数： 三维（3D）——与输入时长匹配，分辨率1280x720，帧率16 FPS
与输出相关的其他属性： 符合输入控制条件的真实感手术视频。输出在保持控制输入的时空结构的同时，添加了逼真的视觉外观。

我们的AI模型旨在和/或优化用于NVIDIA GPU加速的系统。通过利用NVIDIA的硬件（例如GPU核心）和软件框架（例如CUDA库），与仅使用CPU的解决方案相比，该模型实现了更快的训练和推理时间。

软件集成：

运行时引擎：

Cosmos-Predict2.5
Cosmos-Transfer2.5

支持的硬件微架构兼容性：

NVIDIA Ampere
NVIDIA Hopper
NVIDIA Blackwell

注意： 仅测试了BF16精度。FP16或FP32等其他精度未获得官方支持。

支持的操作系统：

Linux

将基础模型和微调模型集成到AI系统中时，需要使用特定用例数据进行额外测试，以确保安全有效的部署。遵循V模型方法，在单元和系统层面进行迭代测试与验证至关重要，这有助于在部署前降低风险、满足技术和功能要求，并确保符合安全与伦理标准。

模型版本：

0.1 - 用于手术机器人合成数据生成的初始发布版本

训练、测试与评估数据集：

数据集概述：

这些模型的训练数据来源于一系列公开的手术视频数据集，其中包括通过标准腹腔镜或达芬奇机器人立体内窥镜相机捕获的体内临床内窥镜 footage，但SutureBot除外，其使用的是通过多视角RGB相机和机器人运动学传感器收集的体外组织模型数据。该数据集集合涵盖了数千个手术视频和数十万个带注释的帧，涉及多种手术类型——腹腔镜胆囊切除术（Cholec80、CholecT50、HeiChole）、机器人辅助根治性前列腺切除术（GraSP、SAR-RARP50）、腹腔镜子宫切除术（AutoLaparo）、腹腔镜Roux-en-Y胃旁路术（MultiBypass140）、妇科腹腔镜手术（SurgicalActions160）以及机器人缝合（SutureBot）。

训练数据集：

数据模态：

视频（手术操作）

视频训练数据量

少于10,000小时

各数据集的数据收集方法：

混合：人工、自动/传感器

各数据集的标注方法：

混合：人工、自动

属性： 约280段完整手术视频，包含超过280,000帧带注释的帧（以1 fps采样）和数百万帧全捕获率的原始帧，以及约1,323次机器人缝合演示；主要模态为视频/图像；内容主要为在机构监督下，通过腹腔镜和机器人手术过程捕获的真实人类患者数据（个人/临床），其中一个数据集（SutureBot）包含体外组织模型演示，无患者内容；无合成或机器生成内容；无自然语言内容；传感器类型包括标准腹腔镜相机和达芬奇机器人立体内窥镜（分辨率854x480至1920x1080，帧率25-60 fps），其中一个数据集还提供了来自达芬奇研究工具包（dVRK）的同步机器人运动学数据。

测试数据集：

数据模态：

视频（外科手术操作）

视频训练数据规模

少于10,000小时

数据集的数据收集方法：

混合：人工、自动/传感器

数据集的标注方法：

混合：人工、自动

特性： 包含约80,000帧带标注的完整手术视频（采样率为1 fps），以及约378个机器人缝合演示视频

评估数据集：

数据模态：

视频（外科手术操作）

视频训练数据规模

少于10,000小时

数据集的数据收集方法：

混合：人工、自动/传感器

数据集的标注方法：

混合：人工、自动

特性： 包含约40,000帧带标注的完整手术视频（采样率为1 fps），以及约189个机器人缝合演示视频

推理：

加速引擎： Tensor(RT)
测试硬件：

H100
至少需要32+ GB的GPU显存。

伦理考量：

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持广泛 AI 应用的开发。当开发者按照我们的服务条款下载或使用本模型时，应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并应对未预见的产品误用问题。

请确保您对所有输入图像和视频内容拥有适当的权利和许可；如果图像或视频中包含人物、个人健康信息或知识产权，生成的图像或视频不会模糊或保持所包含图像主体的比例。

请通过此处报告模型质量、风险、安全漏洞或相关疑虑。

Cosmos-H-Surgical 概述

描述：

本模型仅供研究与开发使用。

许可协议/使用条款：

本模型的使用受 NVIDIA 许可协议约束。

部署地区：

全球

用例：

医学研究人员、手术机器人开发者、AI开发者以及医疗机构可预期将此模型用于以下场景：

合成数据生成（SDG）：从单张观察帧生成合成手术视频数据，以训练手术机器人的策略模型
物理AI开发：通过提供真实的训练数据，推动手术机器人的物理AI系统发展
仿真到现实迁移：将仿真或计算机生成（CG）的手术视频转换为逼真视频，最大限度缩小仿真环境与真实环境之间的领域差距

本模型旨在作为研究工具使用，不应用于临床诊断目的。

发布日期：

Huggingface：2026年3月16日（2026年圣何塞GTC大会），发布链接：https://huggingface.co/nvidia/cosmos-h-surgical-predict

参考文献：

[1] Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling arXiv预印本 arXiv:2512.23162, 2025. https://arxiv.org/abs/2512.23162

[2] NVIDIA Cosmos: "World Foundation Models for Physical AI." arXiv预印本 arXiv:2511.00062, 2025. https://arxiv.org/abs/2511.00062

[3] Cosmos-Predict2.5模型卡片：https://huggingface.co/nvidia/Cosmos-Predict2.5-2B

[4] Cosmos-Transfer2.5模型卡片：https://huggingface.co/nvidia/Cosmos-Transfer2.5-2B

模型架构：

输入（预测）：

需要第一帧图像，可选配文本描述。与基础模型Cosmos-Predict2.5-2B不同，不支持仅文本的视频生成（无第一帧）。
输入字符串应包含少于300个单词，并提供用于世界生成的描述性内容，例如场景描述、关键对象或角色、背景，以及在5秒时长内要描绘的任何特定动作或运动。
对于720P模型，输入图像尺寸应为1280x704。

输出（预测）：

输入（迁移）：

输入类型： 文本+视频
输入格式： MP4（视频）、字符串（文本）
输入参数： 控制视频（3D）+ 文本描述（1D）
与输入相关的其他属性：

输入文本字符串应少于300字，并应提供用于场景生成的描述性内容，例如场景描述、关键物体或角色、背景以及在5秒时长内要描绘的任何特定动作或运动。
模型支持不同长度的控制输入视频，但长度为93帧的倍数（例如93、186或279帧）时性能最佳。
模型支持四种类型的控制输入视频：模糊视频、Canny边缘视频、深度图视频和分割掩码视频。当提供多个控制输入时，它们必须源自同一源视频，代表相同内容的不同模态，同时保持相同的时空维度。
对于720P模型，控制输入视频的空间分辨率应为1280x720。

输出（迁移）：

软件集成：

运行时引擎：

Cosmos-Predict2.5
Cosmos-Transfer2.5

支持的硬件微架构兼容性：

NVIDIA Ampere
NVIDIA Hopper
NVIDIA Blackwell

注意： 仅测试了BF16精度。FP16或FP32等其他精度未获得官方支持。

支持的操作系统：

Linux

模型版本：

0.1 - 用于手术机器人合成数据生成的初始发布版本

训练、测试与评估数据集：

数据集概述：

训练数据集：

数据模态：

视频（手术操作）

视频训练数据量

少于10,000小时

各数据集的数据收集方法：

混合：人工、自动/传感器

各数据集的标注方法：

混合：人工、自动

测试数据集：

数据模态：

视频（外科手术操作）

视频训练数据规模

少于10,000小时

数据集的数据收集方法：

混合：人工、自动/传感器

数据集的标注方法：

混合：人工、自动

特性： 包含约80,000帧带标注的完整手术视频（采样率为1 fps），以及约378个机器人缝合演示视频

评估数据集：

数据模态：

视频（外科手术操作）

视频训练数据规模

少于10,000小时

数据集的数据收集方法：

混合：人工、自动/传感器

数据集的标注方法：

混合：人工、自动

特性： 包含约40,000帧带标注的完整手术视频（采样率为1 fps），以及约189个机器人缝合演示视频

推理：

加速引擎： Tensor(RT)
测试硬件：

H100
至少需要32+ GB的GPU显存。

伦理考量：

请通过此处报告模型质量、风险、安全漏洞或相关疑虑。