HuggingFace镜像/FastWan2.2-TI2V-5B-FullAttn-Diffusers
模型介绍文件和版本分析
下载使用量0

FastVideo FastWan2.2-TI2V-5B-FullAttn-Diffusers 模型

FastVideo 团队 
HF 论文(VSA) | arXiv 论文(VSA) | Github | 项目主页

在线演示

您可以通过 此处 试用我们的模型!

简介

我们很高兴推出 FastWan2.2 系列——这是一系列采用我们全新 Sparse-distill(稀疏蒸馏) 策略微调的模型。该方法在单一训练过程中联合整合了 DMD 和 VSA,兼具 蒸馏(缩短扩散步骤)与 稀疏注意力(减少注意力计算量)的优势,可实现更快的视频生成。

FastWan2.2-TI2V-5B-Full-Diffusers 基于 Wan-AI/Wan2.2-TI2V-5B-Diffusers 构建。它支持高效的 3 步推理,并能生成 121×704×1280 分辨率的高质量视频。在训练方面,我们对生成器模型采用了模拟前向传播,实现了无数据训练过程。当前的 FastWan2.2-TI2V-5B-Full-Diffusers 模型仅使用 DMD 进行训练。


模型概述

  • 支持 3 步推理。
  • 我们的模型在 121×704×1280 分辨率下训练,但支持生成 任意分辨率 的视频(画质可能下降)。
  • 微调与推理脚本可在 FastVideo 仓库中获取:
    • 单节点/GPU 调试微调脚本
    • Slurm 训练示例脚本
    • 推理脚本
num_gpus=1
export FASTVIDEO_ATTENTION_BACKEND=FLASH_ATTN
export MODEL_BASE=FastVideo/FastWan2.2-TI2V-5B-Full-Diffusers
# export MODEL_BASE=hunyuanvideo-community/HunyuanVideo
# You can either use --prompt or --prompt-txt, but not both.
fastvideo generate \
    --model-path $MODEL_BASE \
    --sp-size $num_gpus \
    --tp-size 1 \
    --num-gpus $num_gpus \
    --height 704 \
    --width 1280 \
    --num-frames 121 \
    --num-inference-steps 3 \
    --fps 24 \
    --prompt-txt assets/prompt.txt \
    --negative-prompt "Bright tones, overexposed, static, blurred details, subtitles, style, works, paintings, images, static, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn faces, deformed, disfigured, misshapen limbs, fused fingers, still picture, messy background, three legs, many people in the background, walking backwards" \
    --seed 1024 \
    --output-path outputs_video_dmd/ \
    --dmd-denoising-steps "1000,757,522"
  • 可在 FastVideo 上试用——我们支持从 H100 到 4090 的多种 GPU,同时也支持 Mac 用户!

训练基础设施

训练在总计 8 个节点、64 张 H200 GPU 上进行,采用 global batch size = 64,训练运行 3000 步(约 12 小时)

如果您在研究中使用 FastWan2.2-TI2V-5B-FullAttn-Diffusers 模型,请引用我们的论文:

@article{zhang2025vsa,
  title={VSA: Faster Video Diffusion with Trainable Sparse Attention},
  author={Zhang, Peiyuan and Huang, Haofeng and Chen, Yongqi and Lin, Will and Liu, Zhengzhong and Stoica, Ion and Xing, Eric and Zhang, Hao},
  journal={arXiv preprint arXiv:2505.13389},
  year={2025}
}
@article{zhang2025fast,
  title={Fast video generation with sliding tile attention},
  author={Zhang, Peiyuan and Chen, Yongqi and Su, Runlong and Ding, Hangliang and Stoica, Ion and Liu, Zhengzhong and Zhang, Hao},
  journal={arXiv preprint arXiv:2502.04507},
  year={2025}
}