Stable Video Diffusion（VideoLDM）模型卡片

VideoLDM U-Net Block Architecture

简介

Stable Video Diffusion 是一款基于 Stable Diffusion 的图像转视频生成模型，它通过在架构中引入时间层（也称为 VideoLDM），将 Stable Diffusion 扩展到视频生成任务。此外，它还采用了经过改进的解码器，增加了时间层以减少闪烁伪影。

VideoLDM U-Net Block Architecture
添加了时间层的单个 U-Net 模块示例（更多信息请参见 [2]）

SD 基础版本	SVD 版本	训练用途	配置文件	检查点
v2.0 & v2.1	SVD	生成 14 帧视频	yaml	下载（9GB）
	SVD-XT	生成 25 帧视频	yaml	下载（9GB）

有关模型训练和推理的信息，请查看 MindOne GitHub 仓库。

该模型仅用于研究目的。可能的研究领域和任务包括：

以下是排除的用途。

该模型在训练时并未以真实反映人物或事件为目标，因此使用该模型生成此类内容超出了其能力范围。

尽管图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏差。

VideoLDM U-Net Block Architecture

VideoLDM U-Net Block Architecture
添加了时间层的单个 U-Net 模块示例（更多信息请参见 [2]）

SD 基础版本	SVD 版本	训练用途	配置文件	检查点
v2.0 & v2.1	SVD	生成 14 帧视频	yaml	下载（9GB）
	SVD-XT	生成 25 帧视频	yaml	下载（9GB）

有关模型训练和推理的信息，请查看 MindOne GitHub 仓库。

该模型仅用于研究目的。可能的研究领域和任务包括：

以下是排除的用途。

该模型在训练时并未以真实反映人物或事件为目标，因此使用该模型生成此类内容超出了其能力范围。

尽管图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏差。