💜 Wan | 🖥️ GitHub | 🤗 Hugging Face | 🤖 ModelScope | 📑 技术报告 | 📑 博客 | 💬 微信社群 | 📖 Discord
我们很高兴推出Wan2.2——这是我们基础视频模型的重大升级版本。在Wan2.2中,我们重点实现了以下创新:
👍 高效混合专家架构:Wan2.2将混合专家(MoE)架构引入视频扩散模型。通过由专业强大的专家模型分担不同时间步的去噪过程,在保持相同计算成本的同时显著提升了模型整体容量。
👍 电影级美学表现:Wan2.2融合了精心筛选的美学数据,并包含光照、构图、对比度、色调等精细标注。这使得电影级风格的生成更精准可控,助力创作符合定制化美学偏好的视频内容。
👍 复杂运动生成:相比Wan2.1,Wan2.2的训练数据量大幅提升,图像数据增加65.6%,视频数据增加83.2%。这一扩展显著增强了模型在运动表现、语义理解与美学品质等多维度的泛化能力,在所有开源与闭源模型中均达到顶尖性能。
👍 高效高清混合TI2V:Wan2.2开源了基于先进Wan2.2-VAE构建的50亿参数模型,实现16×16×4的压缩比。该模型支持720P分辨率24帧率的文本生成视频与图像生成视频,可在4090等消费级显卡上运行,是当前最快的720P@24fps模型之一,能同时满足工业界与学术界的应用需求。
本仓库还包含专为图像生成视频设计的I2V-A14B模型,支持480P与720P分辨率。采用混合专家(MoE)架构,该模型能实现更稳定的视频合成效果,减少不自然的镜头运动,并为多样化风格场景提供增强支持。
如果您的研究或项目基于 Wan2.1 或 Wan2.2 开发,欢迎通过邮件与我们分享,我们将择优选登以惠及更多开发者。
克隆代码仓库:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2安装依赖项:
# Ensure torch >= 2.4.0
# If the installation of `flash_attn` fails, try installing the other packages first and install `flash_attn` last
pip install -r requirements.txt| 模型名称 | 下载链接 | 说明 |
|---|---|---|
| T2V-A14B | 🤗 Huggingface 🤖 ModelScope | 文本生成视频混合专家模型,支持480P与720P分辨率 |
| I2V-A14B | 🤗 Huggingface 🤖 ModelScope | 图像生成视频混合专家模型,支持480P与720P分辨率 |
| TI2V-5B | 🤗 Huggingface 🤖 ModelScope | 高压缩VAE架构,支持文本/图像生成720P视频 |
💡注意:
TI2V-5B模型支持以24帧/秒生成720P视频。
使用huggingface-cli下载模型:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-I2V-A14B --local-dir ./Wan2.2-I2V-A14B使用 modelscope-cli 下载模型:
pip install modelscope
modelscope download Wan-AI/Wan2.2-I2V-A14B --local_dir ./Wan2.2-I2V-A14B本代码库支持 Wan2.2-I2V-A14B 图像转视频模型,可同步支持480P与720P分辨率的视频生成。
python generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --offload_model True --convert_model_dtype --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."该命令可在配备至少80GB显存的GPU上运行。
💡对于图像转视频任务,
size参数代表生成视频的画面区域,宽高比将遵循原始输入图像的尺寸比例。
torchrun --nproc_per_node=8 generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --prompt '' --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --use_prompt_extend --prompt_extend_method 'dashscope'💡该模型能够仅依据输入图像生成视频。您可以通过提示词扩展功能,根据图像自动生成描述文本。
提示词扩展的具体操作流程可参考此章节。
我们在下表中测试了不同GPU上各Wan2.2模型的计算效率。结果以格式:**总耗时(秒)/ GPU峰值显存(GB)**呈现。
本表测试所采用的参数设置如下: (1) 多GPU:14B版本:
--ulysses_size 4/8 --dit_fsdp --t5_fsdp,5B版本:--ulysses_size 4/8 --offload_model True --convert_model_dtype --t5_cpu;单GPU:14B版本:--offload_model True --convert_model_dtype,5B版本:--offload_model True --convert_model_dtype --t5_cpu(--convert_model_dtype会将模型参数类型转换为config.param_dtype); (2) 分布式测试采用内置的FSDP和Ulysses实现,Hopper架构GPU部署了FlashAttention3; (3) 测试运行时未启用--use_prompt_extend标志; (4) 报告结果为预热阶段后多次采样的平均值。
Wan2.2在Wan2.1的基础上实现了生成质量和模型能力的显著提升。这一升级得益于一系列关键技术革新,主要包括混合专家(MoE)架构、升级的训练数据以及高压缩视频生成技术。
Wan2.2将混合专家(MoE)架构引入视频生成扩散模型。MoE在大语言模型中已被广泛验证为一种高效增加模型总参数量同时保持推理成本几乎不变的方法。在Wan2.2中,A14B模型系列采用针对扩散模型去噪过程定制的双专家设计:高噪声专家负责早期阶段,专注于整体布局;低噪声专家负责后期阶段,精修视频细节。每个专家模型约含14B参数,总计27B参数,但每步仅激活14B参数,使推理计算量和GPU显存占用基本保持不变。
两位专家的切换点由信噪比(SNR)决定,该指标随着去噪步数增加而单调递减。在去噪过程开始时,值较大且噪声水平较高,此时SNR处于最小值。在此阶段,高噪声专家被激活。我们定义阈值步数对应的一半,当时切换至低噪声专家。
为验证MoE架构的有效性,我们基于验证损失曲线对比了四种配置。基线模型Wan2.1未采用MoE架构。在基于MoE的变体中,Wan2.1 & 高噪声专家复用Wan2.1模型作为低噪声专家,同时采用Wan2.2的高噪声专家;而Wan2.1 & 低噪声专家使用Wan2.1作为高噪声专家,并采用Wan2.2的低噪声专家。最终版本**Wan2.2 (MoE)**实现了最低的验证损失,表明其生成视频分布最接近真实数据,并展现出卓越的收敛性。
为实现更高效部署,Wan2.2同时探索了高压缩设计。除27B MoE模型外,还发布了50亿参数的稠密模型TI2V-5B。该模型由高压缩Wan2.2-VAE提供支持,实现压缩比达,在保持高质量视频重建的同时将整体压缩率提升至64倍。通过附加的分块化层,TI2V-5B的总压缩比达到。未经特定优化,TI2V-5B可在单张消费级GPU上于9分钟内生成5秒720P视频,位列最快的720P@24fps视频生成模型之一。该模型还原生支持文本生成视频和图像生成视频双任务统一框架,覆盖学术研究与实践应用场景。
我们在新版Wan-Bench 2.0基准上,将Wan2.2与领先的闭源商业模型进行多维度关键指标对比。结果表明,Wan2.2相较这些领先模型展现出更卓越的性能。
如果您认为我们的工作对您有所帮助,请引用我们的研究成果。
@article{wan2025,
title={Wan: Open and Advanced Large-Scale Video Generative Models},
author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
journal = {arXiv preprint arXiv:2503.20314},
year={2025}
}本仓库中的模型遵循 Apache 2.0 许可证授权。我们对您生成的内容不主张任何权利,允许您自由使用这些内容,但需确保您的使用行为符合本许可协议的条款。您需对模型的使用承担全部责任,不得分享任何违反适用法律、对个人或群体造成伤害、散布用于损害目的的个人信息、传播不实信息或针对弱势群体的内容。有关限制条款及您所享权利的完整说明,请参阅许可证全文。
我们要感谢 SD3、Qwen、umt5-xxl、diffusers 及 HuggingFace 仓库的贡献者们对开放研究所做的努力。