SCAIL-2 是一个用于端到端可控角色动画的开源模型。它能够通过驱动视频为参考角色生成动画,并且无需依赖中间姿态表示即可支持角色替换和多角色场景。
以往的角色动画方法严重依赖骨骼图或修复掩码等中间表示。这些中间表示在复杂运动下存在歧义,将驱动源限制为人类动作,并制约了角色替换和多角色动画的应用范围。
SCAIL-2 摒弃了这种依赖,实现了端到端驱动。通过多个现成模型(SCAIL-Preview、Wan-Animate、MoCha),合成了 6 万对运动数据,并通过统一运动迁移接口(配备专用掩码通道和 RoPE 设计)进行训练。反向驱动训练策略与这种统一性相结合,使模型能够学习到超越其教师模型的能力,产生了诸如以下的新兴功能:
| 项目 | 详情 |
|---|---|
| 分辨率 | 端到端驱动支持 512p 和 704p;姿态驱动和角色替换在 704p 下表现更优 |
| 约束条件 | 高度和宽度必须都能被 32 整除(例如 704×1280) |
| 训练 | 混合分辨率和帧率 |
| 捆绑模块 | Wan VAE 和 T5 已集成到检查点中,以方便使用 |
下载后的文件布局:
SCAIL-2/
├── Wan2.1_VAE.pth
├── model
│ ├── 1
│ │ └── fsdp2_rank_0000_checkpoint.pt
│ └── latest
└── umt5-xxl
└── ...项目仓库中提供了推理代码、环境设置以及详细说明。有关如何运行模型的信息,请参考项目页面和代码仓库。
@misc{yan2026scail2,
title={SCAIL-2: Unifying Controlled Character Animation with End-to-end In-Context Conditioning},
author={Wenhao Yan and Fengjia Guo and Zhuoyi Yang and Jie Tang},
year={2026},
eprint={2606.10804},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2606.10804},
}