f
facebook/DiT-XL-2-256
模型介绍文件和版本分析
下载使用量0

基于Transformer的可扩展扩散模型(DiT)

摘要

我们训练了潜在扩散模型,将常用的U-Net主干网络替换为在潜在补丁上操作的Transformer。通过以Gflops衡量的前向传递复杂度视角,我们分析了扩散Transformer(DiT)的可扩展性。发现具有更高Gflops的DiT——通过增加Transformer深度/宽度或输入令牌数量——始终能获得更低的FID值。除了良好的可扩展性特性外,我们的DiT-XL/2模型在类别条件ImageNet 512×512和256×256基准测试中超越了所有先前的扩散模型,在256×256任务上实现了2.27的当前最优FID值。