HuggingFace镜像/svd
模型介绍文件和版本分析
下载使用量0

Stable Video Diffusion(VideoLDM)模型卡片

VideoLDM U-Net Block Architecture

简介

Stable Video Diffusion 是一款基于 Stable Diffusion 的图像转视频生成模型,它通过在架构中引入时间层(也称为 VideoLDM),将 Stable Diffusion 扩展到视频生成任务。此外,它还采用了经过改进的解码器,增加了时间层以减少闪烁伪影。

VideoLDM U-Net Block Architecture
添加了时间层的单个 U-Net 模块示例(更多信息请参见 [2])

模型说明

  • 开发机构: MindSpore 实验室基于 Stability AI 的工作开发
  • 框架: MindSpore
  • 模型类型: 基于扩散的文本到视频生成模型
  • 许可证: CreativeML Open RAIL++-M 许可证
  • 模型描述: 这是一个可用于基于文本提示生成和修改视频的模型。
  • 更多信息资源: 请查看 GitHub 仓库。

模型详情

SD 基础版本SVD 版本训练用途配置文件检查点
v2.0 & v2.1SVD生成 14 帧视频yaml下载(9GB)
SVD-XT生成 25 帧视频yaml下载(9GB)

如何开始使用模型

有关模型训练和推理的信息,请查看 MindOne GitHub 仓库。

用途

直接用途

该模型仅用于研究目的。可能的研究领域和任务包括:

  • 艺术品生成以及在设计和其他艺术流程中的使用。
  • 在教育或创意工具中的应用。
  • 生成模型的研究。
  • 具有生成有害内容潜力的模型的安全部署。
  • 探究和理解生成模型的局限性与偏差。

以下是排除的用途。

超出范围的用途

该模型在训练时并未以真实反映人物或事件为目标,因此使用该模型生成此类内容超出了其能力范围。

局限性和偏差

局限性

  • 模型无法实现完美的照片级真实感。
  • 模型无法渲染清晰可辨的文本。
  • 模型在涉及组合性的较复杂任务上表现不佳,例如渲染与“蓝色球体顶部的红色立方体”相对应的图像。
  • 人脸和人物整体可能无法被正确生成。
  • 模型的自编码部分存在信息损失。

偏差

尽管图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。