HuggingFace镜像/stable-diffusion-3-medium-diffusers
模型介绍文件和版本分析
下载使用量0

Stable Diffusion 3 Medium

sd3 demo images

模型

mmdit

Stable Diffusion 3 Medium 是一款多模态扩散Transformer(MMDiT)文本到图像模型,在图像质量、排版、复杂提示理解和资源效率方面均有显著提升。

更多技术细节,请参考研究论文。

请注意:本模型依据Stability非商业研究社区许可协议发布。如需创作者许可或企业许可,请访问Stability.ai或联系我们了解商业许可详情。

模型说明

  • 开发机构: Stability AI
  • 模型类型: MMDiT文本到图像生成模型
  • 模型描述: 这是一款可基于文本提示生成图像的模型。它是一个多模态扩散Transformer(https://arxiv.org/abs/2403.03206),使用三个固定的预训练文本编码器([OpenCLIP-ViT/G](https://github.com/mlfoundations/open_clip)、[CLIP-ViT/L](https://github.com/openai/CLIP/tree/main) 和 [T5-xxl])

许可协议

  • 非商业用途: Stable Diffusion 3 Medium依据Stability AI非商业研究社区许可协议发布。该模型可免费用于学术研究等非商业目的。
  • 商业用途: 未经Stability单独授予商业许可,本模型不得用于商业用途。我们鼓励专业艺术家、设计师和创作者使用我们的创作者许可。请访问https://stability.ai/license了解更多信息。

模型资源

对于本地或自托管使用,我们推荐使用ComfyUI进行推理。

Stable Diffusion 3 Medium可在我们的Stability API平台上获取。

Stable Diffusion 3模型和工作流可在Stable Assistant以及Discord上的Stable Artisan中使用。

  • ComfyUI: https://github.com/comfyanonymous/ComfyUI
  • StableSwarmUI: https://github.com/Stability-AI/StableSwarmUI
  • 技术报告: https://stability.ai/news/stable-diffusion-3-research-paper

训练数据集

我们使用合成数据和经过筛选的公开可用数据来训练模型。该模型在10亿张图像上进行了预训练。微调数据包括3000万张专注于特定视觉内容和风格的高质量美学图像,以及300万张偏好数据图像。

与Diffusers配合使用

请确保将diffusers升级到最新版本:pip install -U diffusers。然后您可以运行:

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("npu")

image = pipe(
	"A cat holding a sign that says hello world",
	negative_prompt="",
    num_inference_steps=28,
    guidance_scale=7.0,
).images[0]
image

有关优化和图生图支持的更多详情,请参阅[文档]。

用途

预期用途

预期用途包括以下方面:

  • 艺术作品生成,以及在设计和其他艺术创作流程中的使用。
  • 在教育或创意工具中的应用。
  • 生成模型相关研究,包括了解生成模型的局限性。

模型的所有使用均应符合我们的可接受使用政策。

超出范围的用途

该模型并非旨在生成关于人物或事件的事实性或真实的表征。因此,使用该模型生成此类内容超出了本模型的能力范围。

安全性

作为我们“设计安全”和负责任AI部署方法的一部分,我们在模型开发的整个过程中实施安全措施,从开始预训练模型,到每个模型的持续开发、微调与部署。我们已实施了多项安全缓解措施,旨在降低严重危害的风险,但我们建议开发者根据其具体用例进行自己的测试并应用额外的缓解措施。 有关我们安全方法的更多信息,请访问我们的安全页面。

评估方法

我们的评估方法包括结构化评估以及内部和外部红队测试,以应对特定的严重危害,例如儿童性虐待与剥削、极端暴力与血腥内容、性露骨内容以及非自愿裸体内容。测试主要以英语进行,可能未涵盖所有可能的危害。与任何模型一样,该模型有时可能会对用户提示产生不准确、有偏见或令人反感的响应。

已识别的风险和缓解措施:

  • 有害内容:我们在训练模型时使用了经过过滤的数据集,并实施了旨在平衡实用性与防止危害的安全措施。然而,这并不能保证所有可能的有害内容都已被移除。该模型有时可能会生成有毒或有偏见的内容。所有开发者和部署者均应谨慎行事,并根据其特定的产品政策和应用用例实施内容安全防护措施。
  • 滥用:技术限制以及对开发者和最终用户的教育有助于减轻模型的恶意应用。所有用户都必须遵守我们的可接受使用政策,包括在应用微调与提示工程机制时。有关我们产品的违规使用信息,请参考Stability AI可接受使用政策。
  • 隐私侵犯:鼓励开发者和部署者遵守隐私法规,采用尊重数据隐私的技术。

联系方式

如发现模型相关问题或需联系我们,请通过以下方式:

  • 安全问题:safety@stability.ai
  • 安全漏洞问题:security@stability.ai
  • 隐私问题:privacy@stability.ai
  • 许可协议及一般问题:https://stability.ai/license