此次更新着重提升了风格表现能力,采用了与 Midjourney 相似的处理方式,而非增强提示词理解能力。所使用的方法均未侵犯任何版权材料。
Proteus 是在 OpenDalleV1.1 基础上进行的深度优化,它充分利用 OpenDalleV1.1 的核心功能,以提供更卓越的结果。其主要改进领域包括增强对提示词的响应能力和提升创作生成能力。为实现这一目标,我们使用了约 22 万张来自无版权图库(包含部分动漫内容)且带有 GPTV 字幕的图像进行微调,并对这些图像进行了标准化处理。此外,我们还通过 1 万对精心挑选的高质量 AI 生成图像对,采用了 DPO(直接偏好优化)技术。
为追求最佳性能,我们独立训练了众多 LORA(低秩适应)模型,然后通过动态应用方法有选择地将它们整合到主模型中。这些技术包括在学习阶段针对模型中的特定部分进行训练,同时避免对其他区域造成干扰。因此,Proteus 在刻画复杂面部特征和逼真皮肤纹理方面表现出显著改进,同时在各种美学领域,特别是超现实主义、动漫和卡通风格的视觉呈现上,依然保持着出色的生成能力。
目前,已在总计超过 40 万张图像上进行了微调/训练。
使用以下设置以获得 ProteusV0.4-Lightning 的最佳效果:
CFG Scale:使用 1 到 2 的 CFG 缩放值
Steps:若需更多细节,使用 4 到 10 步;若追求更快结果,使用 8 步。
Sampler:eular
Scheduler:normal
Resolution:1280x1280 或 1024x1024
此外,建议在提示词中使用以下保留词以提升效果:
best quality, HD, ~*~aesthetic~*~。
如果您在构思提示词时遇到困难,可以使用我整理的这个 GPT 来帮助您优化提示词。https://chat.openai.com/g/g-RziQNoydR-diffusion-master
import torch
from diffusers import (
StableDiffusionXLPipeline,
EulerAncestralDiscreteScheduler,
AutoencoderKL
)
# Load VAE component
vae = AutoencoderKL.from_pretrained(
"madebyollin/sdxl-vae-fp16-fix",
torch_dtype=torch.float16
)
# Configure the pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"dataautogpt3/ProteusV0.4-Lightning",
vae=vae,
torch_dtype=torch.float16
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')
# Define prompts and generate image
prompt = "black fluffy gorgeous dangerous cat animal creature, large orange eyes, big fluffy ears, piercing gaze, full moon, dark ambiance, best quality, extremely detailed"
negative_prompt = "nsfw, bad quality, bad anatomy, worst quality, low quality, low resolutions, extra fingers, blur, blurry, ugly, wrongs proportions, watermark, image artifacts, lowres, ugly, jpeg artifacts, deformed, noisy image"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=1024,
height=1024,
guidance_scale=2,
num_inference_steps=8
).images[0]请通过以下方式支持我的工作:向我捐赠: https://www.buymeacoffee.com/DataVoid 或关注我: https://twitter.com/DataPlusEngine