void-model:可用于从视频中移除对象及其引发的物理交互（如阴影、反射、物体坠落等）。基于 CogVideoX 3D Transformer 构建，通过交互感知四值掩码调节，支持视频修复与时间一致性优化，需 40GB+ VRAM GPU运行。【此简介由AI生成】 - AtomGit AI社区

VOID：视频对象与交互删除

VOID 能够从视频中移除对象及其在场景中引发的所有交互——不仅包括阴影、反射等次要效果，还涵盖物理交互，例如移除人物后物体下落的场景。

项目页面 | 论文 | GitHub | 演示

快速开始

提供的笔记本会处理环境设置、模型下载、对示例视频进行推理并显示结果。需要配备40GB 及以上显存的 GPU（如 A100）。

模型详情

VOID 基于 CogVideoX-Fun-V1.5-5b-InP 构建，并针对视频修复任务进行了微调，采用交互感知的四值掩码（quadmask） 条件控制——该掩码包含四个值，分别编码主要对象（需移除）、重叠区域、受影响区域（下落物体、位移物品）和背景（需保留）。

模型 checkpoint

文件	描述	是否必需
`void_pass1.safetensors`	基础修复模型	是
`void_pass2.safetensors`	用于时间一致性的变形噪声优化	否

对于大多数视频，仅使用 Pass 1 即可。Pass 2 通过光流变形的潜变量初始化，提升长视频片段的时间一致性。

架构

基础模型：CogVideoX 3D Transformer（50 亿参数）
输入：视频 + 四值掩码 + 描述移除后场景的文本提示
分辨率：384x672（默认）
最大帧数：197
调度器：DDIM
精度：BF16，结合 FP8 量化以提高内存效率

用法

从笔记本开始

最简单的方法是克隆仓库并运行 notebook.ipynb：

git clone https://github.com/netflix/void-model.git
cd void-model

从命令行界面

# Install dependencies
pip install -r requirements.txt

# Download the base model
hf download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP \
    --local-dir ./CogVideoX-Fun-V1.5-5b-InP

# Download VOID checkpoints
hf download netflix/void-model \
    --local-dir .

# Run Pass 1 inference on a sample
python inference/cogvideox_fun/predict_v2v.py \
    --config config/quadmask_cogvideox.py \
    --config.data.data_rootdir="./sample" \
    --config.experiment.run_seqs="lime" \
    --config.experiment.save_path="./outputs" \
    --config.video_model.transformer_path="./void_pass1.safetensors"

输入格式

每个视频在文件夹中需包含三个文件：

my-video/
  input_video.mp4      # source video
  quadmask_0.mp4       # 4-value mask (0=remove, 63=overlap, 127=affected, 255=keep)
  prompt.json          # {"bg": "description of scene after removal"}

该仓库包含一个掩码生成管道（VLM-MASK-REASONER/），可利用 SAM2 + Gemini 从原始视频中创建四元掩码。

训练

训练数据基于两种来源生成的配对反事实视频：

HUMOTO——在 Blender 中通过物理模拟渲染的人机交互
Kubric——使用 Google Scanned Objects 的纯物体交互

训练在 8 张 A100 80GB GPU 上运行，采用 DeepSpeed ZeRO Stage 2。完整的训练说明和数据生成代码参见 GitHub 仓库。

引用

@misc{motamed2026void,
  title={VOID: Video Object and Interaction Deletion},
  author={Saman Motamed and William Harvey and Benjamin Klein and Luc Van Gool and Zhuoning Yuan and Ta-Ying Cheng},
  year={2026},
  eprint={2604.02296},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2604.02296}
}