AnimateDiff 模型卡片

输入（由 RealisticVision 生成）	动画	输入	动画

输入草图	输出	输入草图	输出

简介

本仓库是 AnimateDiff 的 MindSpore 实现。

模型说明

开发单位： MindSpore 实验室
框架： MindSpore
模型类型： 文本到视频生成模型
许可证： apache-2.0
模型描述： 这是一个可用于基于文本提示生成和修改视频的模型。
更多信息资源： 请查看 GitHub 仓库。

评估结果

推理

模型	环境配置	调度器	步数	分辨率	帧数	速度（步/秒）	时间（秒/视频）
AnimateDiff v2	D910*x1-MS2.2.10	DDIM	30	512x512	16	1.2	25

环境配置：{昇腾芯片}-{NPU数量}-{MindSpore版本}。

训练

模型	环境配置	任务	本地批大小 x 梯度累积	分辨率	帧数	每步时间（秒/步）
AnimateDiff v2	D910*x1-MS2.2.10	多模态训练	1x1	512x512	16	1.29
AnimateDiff v2	D910*x1-MS2.2.10	运动 Lora	1x1	512x512	16	1.26
AnimateDiff v2	D910*x1-MS2.2.10	带嵌入缓存的多模态训练	1x1	512x512	16	0.75
AnimateDiff v2	D910*x1-MS2.2.10	带嵌入缓存的运动 Lora	1x1	512x512	16	0.71

如何开始使用模型

有关模型训练和推理的信息，请查看 MindOne GitHub 仓库。

用途

直接用途

本模型仅用于研究目的。可能的研究领域和任务包括：

艺术作品的生成，以及在设计和其他艺术创作过程中的应用。
在教育或创意工具中的应用。
生成式模型的相关研究。
具有生成有害内容潜力的模型的安全部署。
探究和理解生成式模型的局限性与偏差。

以下是排除的用途。

超出范围的用途

该模型在训练时并未以真实反映人物或事件为目标，因此，使用该模型生成此类内容超出了其能力范围。

局限性与偏差

局限性

生成的视频相对较短，且模型无法达到完美的照片级真实感。
模型可能生成无运动的视频，或极慢的镜头摇移效果。
无法通过文本对模型进行控制。
无法渲染清晰可辨的文本。
人脸及人物整体可能无法正确生成。
模型的自编码部分存在信息损失。

AnimateDiff 模型卡片

输入（由 RealisticVision 生成）	动画	输入	动画

输入草图	输出	输入草图	输出

简介

本仓库是 AnimateDiff 的 MindSpore 实现。

模型说明

开发单位： MindSpore 实验室
框架： MindSpore
模型类型： 文本到视频生成模型
许可证： apache-2.0
模型描述： 这是一个可用于基于文本提示生成和修改视频的模型。
更多信息资源： 请查看 GitHub 仓库。

评估结果

推理

模型	环境配置	调度器	步数	分辨率	帧数	速度（步/秒）	时间（秒/视频）
AnimateDiff v2	D910*x1-MS2.2.10	DDIM	30	512x512	16	1.2	25

环境配置：{昇腾芯片}-{NPU数量}-{MindSpore版本}。

训练

模型	环境配置	任务	本地批大小 x 梯度累积	分辨率	帧数	每步时间（秒/步）
AnimateDiff v2	D910*x1-MS2.2.10	多模态训练	1x1	512x512	16	1.29
AnimateDiff v2	D910*x1-MS2.2.10	运动 Lora	1x1	512x512	16	1.26
AnimateDiff v2	D910*x1-MS2.2.10	带嵌入缓存的多模态训练	1x1	512x512	16	0.75
AnimateDiff v2	D910*x1-MS2.2.10	带嵌入缓存的运动 Lora	1x1	512x512	16	0.71

如何开始使用模型

有关模型训练和推理的信息，请查看 MindOne GitHub 仓库。

用途

直接用途

本模型仅用于研究目的。可能的研究领域和任务包括：

艺术作品的生成，以及在设计和其他艺术创作过程中的应用。
在教育或创意工具中的应用。
生成式模型的相关研究。
具有生成有害内容潜力的模型的安全部署。
探究和理解生成式模型的局限性与偏差。

以下是排除的用途。

超出范围的用途

该模型在训练时并未以真实反映人物或事件为目标，因此，使用该模型生成此类内容超出了其能力范围。

局限性与偏差

局限性

生成的视频相对较短，且模型无法达到完美的照片级真实感。
模型可能生成无运动的视频，或极慢的镜头摇移效果。
无法通过文本对模型进行控制。
无法渲染清晰可辨的文本。
人脸及人物整体可能无法正确生成。
模型的自编码部分存在信息损失。