基于Transformer的可扩展扩散模型（DiT）

摘要

我们训练了潜在扩散模型，将常用的U-Net主干网络替换为在潜在补丁上操作的Transformer。通过以Gflops衡量的前向传递复杂度视角，我们分析了扩散Transformer（DiT）的可扩展性。发现具有更高Gflops的DiT——通过增加Transformer深度/宽度或输入令牌数量——始终能获得更低的FID值。除了良好的可扩展性特性外，我们的DiT-XL/2模型在类别条件ImageNet 512×512和256×256基准测试中超越了所有先前的扩散模型，在256×256任务上实现了2.27的当前最优FID值。