VOID 能够从视频中移除对象及其在场景中引发的所有交互——不仅包括阴影、反射等次要效果,还涵盖物理交互,例如移除人物后物体下落的场景。
提供的笔记本会处理环境设置、模型下载、对示例视频进行推理并显示结果。需要配备40GB 及以上显存的 GPU(如 A100)。
VOID 基于 CogVideoX-Fun-V1.5-5b-InP 构建,并针对视频修复任务进行了微调,采用交互感知的四值掩码(quadmask) 条件控制——该掩码包含四个值,分别编码主要对象(需移除)、重叠区域、受影响区域(下落物体、位移物品)和背景(需保留)。
| 文件 | 描述 | 是否必需 |
|---|---|---|
void_pass1.safetensors | 基础修复模型 | 是 |
void_pass2.safetensors | 用于时间一致性的变形噪声优化 | 否 |
对于大多数视频,仅使用 Pass 1 即可。Pass 2 通过光流变形的潜变量初始化,提升长视频片段的时间一致性。
最简单的方法是克隆仓库并运行 notebook.ipynb:
git clone https://github.com/netflix/void-model.git
cd void-model# Install dependencies
pip install -r requirements.txt
# Download the base model
hf download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP \
--local-dir ./CogVideoX-Fun-V1.5-5b-InP
# Download VOID checkpoints
hf download netflix/void-model \
--local-dir .
# Run Pass 1 inference on a sample
python inference/cogvideox_fun/predict_v2v.py \
--config config/quadmask_cogvideox.py \
--config.data.data_rootdir="./sample" \
--config.experiment.run_seqs="lime" \
--config.experiment.save_path="./outputs" \
--config.video_model.transformer_path="./void_pass1.safetensors"每个视频在文件夹中需包含三个文件:
my-video/
input_video.mp4 # source video
quadmask_0.mp4 # 4-value mask (0=remove, 63=overlap, 127=affected, 255=keep)
prompt.json # {"bg": "description of scene after removal"}该仓库包含一个掩码生成管道(VLM-MASK-REASONER/),可利用 SAM2 + Gemini 从原始视频中创建四元掩码。
训练数据基于两种来源生成的配对反事实视频:
训练在 8 张 A100 80GB GPU 上运行,采用 DeepSpeed ZeRO Stage 2。完整的训练说明和数据生成代码参见 GitHub 仓库。
@misc{motamed2026void,
title={VOID: Video Object and Interaction Deletion},
author={Saman Motamed and William Harvey and Benjamin Klein and Luc Van Gool and Zhuoning Yuan and Ta-Ying Cheng},
year={2026},
eprint={2604.02296},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2604.02296}
}