Wan2.2

Wan: Open and Advanced Large-Scale Video Generative Models

我们很高兴推出Wan2.2，这是我们基础视频模型的重大升级版本。在Wan2.2中，我们重点融入了以下创新技术：

👍 高效MoE架构：Wan2.2在视频扩散模型中引入了混合专家（Mixture-of-Experts, MoE）架构。通过使用专门的强大专家模型分离跨时间步的去噪过程，在保持相同计算成本的同时，显著提升了整体模型容量。
👍 电影级美学表现：Wan2.2整合了精心筛选的美学数据，并附有详细的光照、构图、对比度、色调等标签。这使得电影风格生成更加精准可控，有助于创作具有可定制美学偏好的视频内容。
👍 复杂动作生成能力：与Wan2.1相比，Wan2.2的训练数据规模大幅增加，图像数量增加65.6%，视频数量增加83.2%。这种数据扩展显著增强了模型在动作、语义和美学等多个维度的泛化能力，在所有开源和闭源模型中均达到顶尖性能水平。
👍 高效高清混合TI2V：Wan2.2开源了一个5B模型，该模型基于我们先进的Wan2.2-VAE构建，实现了16×16×4的压缩比。此模型支持文本到视频（text-to-video）和图像到视频（image-to-video）两种生成模式，可生成720P分辨率、24fps的视频，并且能够在消费级显卡（如4090）上运行。它是目前速度最快的720P@24fps模型之一，能够同时服务于工业界和学术界。

视频演示

🔥 最新动态！！

2025年9月19日：💃 我们推出了**Wan2.2-Animate-14B**，这是一款用于角色动画生成与替换的统一模型，能够实现整体动作与表情的复刻。我们已发布模型权重和推理代码。现在，您可以在wan.video、ModelScope Studio或HuggingFace Space上体验！
2025年8月26日：🎵 我们推出了**Wan2.2-S2V-14B**，这是一款音频驱动的电影级视频生成模型，包含推理代码、模型权重和技术报告！现在，您可以在wan.video、ModelScope Gradio或HuggingFace Gradio上体验！
2025年7月28日：👋 我们已开放基于TI2V-5B模型的HF空间。欢迎体验！
2025年7月28日：👋 Wan2.2已集成至ComfyUI（中文 | 英文）。欢迎体验！
2025年7月28日：👋 Wan2.2的T2V、I2V和TI2V功能已集成至Diffusers（T2V-A14B | I2V-A14B | TI2V-5B）。欢迎尝试！
2025年7月28日：👋 我们已发布Wan2.2的推理代码和模型权重。
2025年9月5日：👋 我们在语音转视频生成任务中集成了CosyVoice，以支持文本转语音合成。

社区成果展示

如果您的研究或项目基于Wan2.1或Wan2.2开发，并希望更多人了解它，请告知我们。

DiffSynth-Studio 为 Wan 2.2 提供全面支持，包括低 GPU 内存逐层卸载、FP8 量化、序列并行、LoRA 训练及全量训练。
Kijai's ComfyUI WanVideoWrapper 是 Wan 模型在 ComfyUI 上的替代实现。由于其专注于 Wan 模型，因此能够率先应用前沿优化和热门研究特性，而这些特性通常因 ComfyUI 结构较为固定而难以快速集成。
Cache-dit 通过 DBCache、TaylorSeer 和 Cache CFG 为 Wan2.2 MoE 提供全缓存加速支持。更多详情请参见其示例。
FastVideo 包含经过蒸馏的 Wan 模型，该模型采用稀疏注意力机制，显著加快了推理速度。

📑 待办清单

Wan2.2 文本生成视频
- A14B 和 14B 模型的多 GPU 推理代码
- A14B 和 14B 模型的检查点
- ComfyUI 集成
- Diffusers 集成
Wan2.2 图像生成视频
- A14B 模型的多 GPU 推理代码
- A14B 模型的检查点
- ComfyUI 集成
- Diffusers 集成
Wan2.2 文本图像生成视频
- 5B 模型的多 GPU 推理代码
- 5B 模型的检查点
- ComfyUI 集成
- Diffusers 集成
Wan2.2-S2V 语音生成视频
- Wan2.2-S2V 的推理代码
- Wan2.2-S2V-14B 的检查点
- ComfyUI 集成
- Diffusers 集成
Wan2.2-Animate 角色动画与替换
- Wan2.2-Animate 的推理代码
- Wan2.2-Animate 的检查点
- ComfyUI 集成
- Diffusers 集成

运行 Wan2.2 Animate

安装

克隆仓库：

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

安装依赖项：

# Ensure torch >= 2.4.0
# If the installation of `flash_attn` fails, try installing the other packages first and install `flash_attn` last
pip install -r requirements.txt
# If you want to use CosyVoice to synthesize speech for Speech-to-Video Generation, please install requirements_s2v.txt additionally
pip install -r requirements_s2v.txt

模型下载

模型名称	下载链接	描述说明
T2V-A14B	🤗 Huggingface 🤖 ModelScope	文本转视频MoE模型，支持480P和720P
I2V-A14B	🤗 Huggingface 🤖 ModelScope	图像转视频MoE模型，支持480P和720P
TI2V-5B	🤗 Huggingface 🤖 ModelScope	高压缩VAE，文本转视频+图像转视频，支持720P
S2V-14B	🤗 Huggingface 🤖 ModelScope	语音转视频模型，支持480P和720P
Animate-14B	🤗 Huggingface 🤖 ModelScope	角色动画与替换

使用huggingface-cli下载模型：

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-Animate-14B --local-dir ./Wan2.2-Animate-14B

使用 modelscope-cli 下载模型：

pip install modelscope
modelscope download Wan-AI/Wan2.2-Animate-14B --local_dir ./Wan2.2-Animate-14B

运行 Wan-Animate-14B

Wan-Animate 以一段视频和一张角色图像作为输入，并能以“动画”或“替换”模式生成视频。

动画模式：模型生成一段角色图像的视频，模仿输入视频中人物的动作。
替换模式：模型将输入视频中的角色替换为给定的角色图像。

请访问我们的项目页面，查看更多示例并了解该模型适用的场景。

(1) 预处理

在将输入视频送入推理过程之前，需要将其预处理为多种素材。请参考以下处理流程，更多预处理细节可参见用户指南。

针对动画模式

python ./wan/modules/animate/preprocess/preprocess_data.py \
    --ckpt_path ./Wan2.2-Animate-14B/process_checkpoint \
    --video_path ./examples/wan_animate/animate/video.mp4 \
    --refer_path ./examples/wan_animate/animate/image.jpeg \
    --save_path ./examples/wan_animate/animate/process_results \
    --resolution_area 1280 720 \
    --retarget_flag \
    --use_flux

用于替换

python ./wan/modules/animate/preprocess/preprocess_data.py \
    --ckpt_path ./Wan2.2-Animate-14B/process_checkpoint \
    --video_path ./examples/wan_animate/replace/video.mp4 \
    --refer_path ./examples/wan_animate/replace/image.jpeg \
    --save_path ./examples/wan_animate/replace/process_results \
    --resolution_area 1280 720 \
    --iterations 3 \
    --k 7 \
    --w_len 1 \
    --h_len 1 \
    --replace_flag

(2) 动画模式运行

单GPU推理

python generate.py --task animate-14B --ckpt_dir ./Wan2.2-Animate-14B/ --src_root_path ./examples/wan_animate/animate/process_results/ --refert_num 1

使用 FSDP + DeepSpeed Ulysses 进行多 GPU 推理

python -m torch.distributed.run --nnodes 1 --nproc_per_node 8 generate.py --task animate-14B --ckpt_dir ./Wan2.2-Animate-14B/ --src_root_path ./examples/wan_animate/animate/process_results/ --refert_num 1 --dit_fsdp --t5_fsdp --ulysses_size 8

(3) 以替换模式运行

单GPU推理

python generate.py --task animate-14B --ckpt_dir ./Wan2.2-Animate-14B/ --src_root_path ./examples/wan_animate/replace/process_results/ --refert_num 1 --replace_flag --use_relighting_lora

使用 FSDP + DeepSpeed Ulysses 进行多 GPU 推理

python -m torch.distributed.run --nnodes 1 --nproc_per_node 8 generate.py --task animate-14B --ckpt_dir ./Wan2.2-Animate-14B/ --src_root_path ./examples/wan_animate/replace/process_results/src_pose.mp4  --refert_num 1 --replace_flag --use_relighting_lora --dit_fsdp --t5_fsdp --ulysses_size 8

💡 若您正在使用 Wan-Animate，我们不建议使用基于 Wan2.2 训练的 LoRA 模型，因为训练过程中的权重变化可能会导致意外行为。

不同 GPU 上的计算效率

我们在下表中测试了不同 Wan2.2 模型在不同 GPU 上的计算效率。结果以 总时间（秒）/ 峰值 GPU 内存（GB） 的格式呈现。

本表格中测试的参数设置如下： (1) 多 GPU：14B：--ulysses_size 4/8 --dit_fsdp --t5_fsdp，5B：--ulysses_size 4/8 --offload_model True --convert_model_dtype --t5_cpu；单 GPU：14B：--offload_model True --convert_model_dtype，5B：--offload_model True --convert_model_dtype --t5_cpu （--convert_model_dtype 将模型参数类型转换为 config.param_dtype）； (2) 分布式测试利用内置的 FSDP 和 Ulysses 实现，并在 Hopper 架构 GPU 上部署了 FlashAttention3； (3) 测试运行时未使用 --use_prompt_extend 标志； (4) 报告的结果是预热阶段后多次采样的平均值。

Wan2.2 简介

Wan2.2 在 Wan2.1 的基础上构建，在生成质量和模型能力方面有显著提升。此次升级由一系列关键技术创新推动，主要包括混合专家（MoE）架构、升级的训练数据以及高压缩视频生成。

（1）混合专家（MoE）架构

Wan2.2 将混合专家（MoE）架构引入视频生成扩散模型。MoE 作为一种高效的方法，在大型语言模型中已得到广泛验证，能够在几乎不增加推理成本的情况下增加模型总参数量。在 Wan2.2 中，A14B 模型系列采用了专为扩散模型去噪过程设计的双专家结构：一个高噪声专家用于早期阶段，专注于整体布局；一个低噪声专家用于后期阶段，细化视频细节。每个专家模型约有 14B 参数，因此总参数量为 27B，但每一步仅激活 14B 参数，使得推理计算量和 GPU 内存占用几乎保持不变。

两个专家之间的切换点由信噪比（SNR）决定，该指标随着去噪步骤 $t$ 的增加而单调下降。在去噪过程开始时， $t$ 较大，噪声水平较高，因此 SNR 处于最小值，记为 ${SNR}_{min}$ 。在这个阶段，高噪声专家被激活。我们定义一个对应于 ${SNR}_{min}$ 一半的阈值步骤 ${t}_{moe}$ ，当 $t<{t}_{moe}$ 时切换到低噪声专家。

为了验证 MoE 架构的有效性，我们基于验证损失曲线比较了四种设置。基线 Wan2.1 模型未采用 MoE 架构。在基于 MoE 的变体中，Wan2.1 & High-Noise Expert 重用 Wan2.1 模型作为低噪声专家，同时使用 Wan2.2 的高噪声专家；而 Wan2.1 & Low-Noise Expert 则使用 Wan2.1 作为高噪声专家，并采用 Wan2.2 的低噪声专家。Wan2.2 (MoE)（我们的最终版本）实现了最低的验证损失，表明其生成的视频分布最接近真实数据，并表现出更优的收敛性。

（2）高效高清混合文本/图像到视频（TI2V）

为了实现更高效的部署，Wan2.2 还探索了高压缩设计。除了 27B 的 MoE 模型外，还发布了一个 5B 的密集模型，即 TI2V-5B。它由高压缩的 Wan2.2-VAE 提供支持，实现了 $T\times H\times W$ 为 $4\times16\times16$ 的压缩比，将整体压缩率提高到 64，同时保持高质量的视频重建。通过额外的分块层，TI2V-5B 的总压缩比达到 $4\times32\times32$ 。在没有特定优化的情况下，TI2V-5B 可以在单个消费级 GPU 上在 9 分钟内生成 5 秒的 720P 视频，跻身最快的 720P@24fps 视频生成模型之列。该模型还在一个统一的框架内原生支持文本到视频和图像到视频任务，涵盖学术研究和实际应用。

与现有最佳模型（SOTA）的比较

我们在新的 Wan-Bench 2.0 上将 Wan2.2 与领先的闭源商业模型进行了比较，从多个关键维度评估性能。结果表明，Wan2.2 实现了优于这些领先模型的性能。

引用说明

如果您觉得我们的工作对您有所帮助，请引用我们。

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}

许可协议

本仓库中的模型采用 Apache 2.0 许可协议。我们对您生成的内容不主张任何权利，您可自由使用这些内容，但需确保您的使用符合本许可协议的规定。您对模型的使用承担全部责任，不得分享任何违反适用法律、对个人或群体造成伤害、传播用于伤害目的的个人信息、散布错误信息或针对弱势群体的内容。有关限制的完整列表和您的权利详情，请参阅许可协议全文。

致谢

感谢 SD3、Qwen、umt5-xxl、diffusers 和 HuggingFace 仓库的贡献者们所做的开放研究。

联系我们

如果您想给我们的研究或产品团队留言，欢迎加入我们的 Discord 或微信群！