HuggingFace镜像/void-model
模型介绍文件和版本分析
下载使用量0

VOID:视频对象与交互删除

VOID 能够从视频中移除对象及其在场景中引发的所有交互——不仅包括阴影、反射等次要效果,还涵盖物理交互,例如移除人物后物体下落的场景。

项目页面 | 论文 | GitHub | 演示

快速开始

在 Colab 中打开

提供的笔记本会处理环境设置、模型下载、对示例视频进行推理并显示结果。需要配备40GB 及以上显存的 GPU(如 A100)。

模型详情

VOID 基于 CogVideoX-Fun-V1.5-5b-InP 构建,并针对视频修复任务进行了微调,采用交互感知的四值掩码(quadmask) 条件控制——该掩码包含四个值,分别编码主要对象(需移除)、重叠区域、受影响区域(下落物体、位移物品)和背景(需保留)。

模型 checkpoint

文件描述是否必需
void_pass1.safetensors基础修复模型是
void_pass2.safetensors用于时间一致性的变形噪声优化否

对于大多数视频,仅使用 Pass 1 即可。Pass 2 通过光流变形的潜变量初始化,提升长视频片段的时间一致性。

架构

  • 基础模型:CogVideoX 3D Transformer(50 亿参数)
  • 输入:视频 + 四值掩码 + 描述移除后场景的文本提示
  • 分辨率:384x672(默认)
  • 最大帧数:197
  • 调度器:DDIM
  • 精度:BF16,结合 FP8 量化以提高内存效率

用法

从笔记本开始

最简单的方法是克隆仓库并运行 notebook.ipynb:

git clone https://github.com/netflix/void-model.git
cd void-model

从命令行界面

# Install dependencies
pip install -r requirements.txt

# Download the base model
hf download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP \
    --local-dir ./CogVideoX-Fun-V1.5-5b-InP

# Download VOID checkpoints
hf download netflix/void-model \
    --local-dir .

# Run Pass 1 inference on a sample
python inference/cogvideox_fun/predict_v2v.py \
    --config config/quadmask_cogvideox.py \
    --config.data.data_rootdir="./sample" \
    --config.experiment.run_seqs="lime" \
    --config.experiment.save_path="./outputs" \
    --config.video_model.transformer_path="./void_pass1.safetensors"

输入格式

每个视频在文件夹中需包含三个文件:

my-video/
  input_video.mp4      # source video
  quadmask_0.mp4       # 4-value mask (0=remove, 63=overlap, 127=affected, 255=keep)
  prompt.json          # {"bg": "description of scene after removal"}

该仓库包含一个掩码生成管道(VLM-MASK-REASONER/),可利用 SAM2 + Gemini 从原始视频中创建四元掩码。

训练

训练数据基于两种来源生成的配对反事实视频:

  • HUMOTO——在 Blender 中通过物理模拟渲染的人机交互
  • Kubric——使用 Google Scanned Objects 的纯物体交互

训练在 8 张 A100 80GB GPU 上运行,采用 DeepSpeed ZeRO Stage 2。完整的训练说明和数据生成代码参见 GitHub 仓库。

引用

@misc{motamed2026void,
  title={VOID: Video Object and Interaction Deletion},
  author={Saman Motamed and William Harvey and Benjamin Klein and Luc Van Gool and Zhuoning Yuan and Ta-Ying Cheng},
  year={2026},
  eprint={2604.02296},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2604.02296}
}