

Stable Diffusion 3 Medium 是一款多模态扩散Transformer(MMDiT)文本到图像模型,在图像质量、排版、复杂提示理解和资源效率方面均有显著提升。
更多技术细节,请参考研究论文。
请注意:本模型依据Stability非商业研究社区许可协议发布。如需创作者许可或企业许可,请访问Stability.ai或联系我们了解商业许可详情。
对于本地或自托管使用,我们推荐使用ComfyUI进行推理。
Stable Diffusion 3 Medium可在我们的Stability API平台上获取。
Stable Diffusion 3模型和工作流可在Stable Assistant以及Discord上的Stable Artisan中使用。
我们使用合成数据和经过筛选的公开可用数据来训练模型。该模型在10亿张图像上进行了预训练。微调数据包括3000万张专注于特定视觉内容和风格的高质量美学图像,以及300万张偏好数据图像。
请确保将diffusers升级到最新版本:pip install -U diffusers。然后您可以运行:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("npu")
image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image有关优化和图生图支持的更多详情,请参阅[文档]。
预期用途包括以下方面:
模型的所有使用均应符合我们的可接受使用政策。
该模型并非旨在生成关于人物或事件的事实性或真实的表征。因此,使用该模型生成此类内容超出了本模型的能力范围。
作为我们“设计安全”和负责任AI部署方法的一部分,我们在模型开发的整个过程中实施安全措施,从开始预训练模型,到每个模型的持续开发、微调与部署。我们已实施了多项安全缓解措施,旨在降低严重危害的风险,但我们建议开发者根据其具体用例进行自己的测试并应用额外的缓解措施。 有关我们安全方法的更多信息,请访问我们的安全页面。
我们的评估方法包括结构化评估以及内部和外部红队测试,以应对特定的严重危害,例如儿童性虐待与剥削、极端暴力与血腥内容、性露骨内容以及非自愿裸体内容。测试主要以英语进行,可能未涵盖所有可能的危害。与任何模型一样,该模型有时可能会对用户提示产生不准确、有偏见或令人反感的响应。
如发现模型相关问题或需联系我们,请通过以下方式: