|
|
|
Animagine XL 3.1 是 Animagine XL V3 系列的一次更新,对先前版本 Animagine XL 3.0 进行了增强。这款开源的动漫主题文本到图像模型经过改进,能够生成更高质量的动漫风格图像。它涵盖了更多知名动漫系列的角色,优化了数据集,并新增了美学标签以提升图像创作效果。基于 Stable Diffusion XL 构建,Animagine XL 3.1 旨在通过生成精准且细节丰富的动漫角色形象,为动漫爱好者、艺术家和内容创作者提供有价值的资源。
可在 Huggingface Spaces 中尝试由 Gradio 驱动的演示:
首先安装所需库:
pip install diffusers transformers accelerate safetensors --upgrade然后使用以下示例代码运行图像生成:
import torch
from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained(
"cagliostrolab/animagine-xl-3.1",
torch_dtype=torch.float16,
use_safetensors=True,
)
pipe.to('cuda')
prompt = "1girl, souryuu asuka langley, neon genesis evangelion, solo, upper body, v, smile, looking at viewer, outdoors, night"
negative_prompt = "nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=7,
num_inference_steps=28
).images[0]
image.save("./output/asuka_test.png")为获得最佳效果,建议遵循结构化提示模板,因为我们的模型是按照此方式进行训练的:
1girl/1boy, character name, from what series, everything else in any order.Animagine XL 3.1 采用特殊标签来引导生成结果在质量、分级、创作日期和美学方面的表现。虽然模型在不使用这些标签的情况下也能生成图像,但使用它们有助于获得更优的结果。
质量标签现在同时考虑分数和发布后的评分,以确保质量分布的均衡性。我们优化了标签名称以提高清晰度,例如将“high quality”调整为“great quality”。
| 质量修饰标签 | 分数标准 |
|---|---|
masterpiece | > 95% |
best quality | > 85% & ≤ 95% |
great quality | > 75% & ≤ 85% |
good quality | > 50% & ≤ 75% |
normal quality | > 25% & ≤ 50% |
low quality | > 10% & ≤ 25% |
worst quality | ≤ 10% |
我们还简化了分级标签,以追求简洁和清晰,并旨在建立可跨不同模型应用的通用规则。例如,标签“rating: general”现已简化为“general”,“rating: sensitive”已精简为“sensitive”。
| 分级修饰标签 | 分级标准 |
|---|---|
safe | General |
sensitive | Sensitive |
nsfw | Questionable |
explicit, nsfw | Explicit |
我们还重新定义了年份范围,以更准确地引导结果呈现特定的现代或复古动漫艺术风格。此更新简化了范围,侧重于与当前和过去时代的相关性。
| 年份标签 | 年份范围 |
|---|---|
newest | 2021 至 2024 |
recent | 2018 至 2020 |
mid | 2015 至 2017 |
early | 2011 至 2014 |
oldest | 2005 至 2010 |
我们增强了标签系统,引入美学标签以根据视觉吸引力优化内容分类。这些标签源自专门的 ViT(视觉Transformer)图像分类模型的评估,该模型经过动漫数据的专门训练。为此,我们使用了模型 shadowlilac/aesthetic-shadow-v2,该模型在内容进行训练前评估其美学价值。这确保了每段内容不仅相关准确,而且具有视觉吸引力。
| 美学标签 | 分数范围 |
|---|---|
very aesthetic | > 0.71 |
aesthetic | > 0.45 & < 0.71 |
displeasing | > 0.27 & < 0.45 |
very displeasing | ≤ 0.27 |
为引导模型生成具有高审美价值的图像,请使用以下负面提示词:
nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]为获得更高质量的结果,请在提示词前添加:
masterpiece, best quality, very aesthetic, absurdres建议使用较低的无分类器引导(CFG Scale),数值在5-7左右,采样步数低于30,并使用Euler Ancestral(Euler a)作为采样器。
本模型支持生成以下尺寸的图像:
| 尺寸 | 宽高比 |
|---|---|
1024 x 1024 | 1:1 正方形 |
1152 x 896 | 9:7 |
896 x 1152 | 7:9 |
1216 x 832 | 19:13 |
832 x 1216 | 13:19 |
1344 x 768 | 7:4 横向 |
768 x 1344 | 4:7 纵向 |
1536 x 640 | 12:5 横向 |
640 x 1536 | 5:12 纵向 |
Animagine XL 3.1 在 2 块 A100 80GB GPU 上训练了约 15 天,总 GPU 时长超过 350 小时。训练过程分为三个阶段:
| 阶段 | 轮次 | UNet 学习率 | 训练文本编码器 | 批大小 | 噪声偏移 | 优化器 | 学习率调度器 | 梯度累积步数 | GPU 数量 |
|---|---|---|---|---|---|---|---|---|---|
| 预训练 | 10 | 1e-5 | 是 | 16 | N/A | AdamW | 余弦退火带热重启 | 3 | 2 |
| 微调第一阶段 | 10 | 2e-6 | 否 | 48 | 0.0357 | Adafactor | 带预热的恒定学习率 | 1 | 1 |
| 微调第二阶段 | 15 | 1e-6 | 否 | 48 | 0.0357 | Adafactor | 带预热的恒定学习率 | 1 | 1 |
| 配置项 | Animagine XL 3.0 | Animagine XL 3.1 |
|---|---|---|
| GPU | 2 x A100 80G | 2 x A100 80G |
| 数据集 | 1,271,990 | 873,504 |
| Shuffle Separator | True | True |
| 训练轮次 | 10 | 10 |
| 学习率 | 7.5e-6 | 1e-5 |
| 文本编码器学习率 | 3.75e-6 | 1e-5 |
| 有效批处理大小 | 48 x 1 x 2 | 16 x 3 x 2 |
| 优化器 | Adafactor | AdamW |
| 优化器参数 | 缩放参数:False,相对步长:False,预热初始化:False | 权重衰减:0.1,动量参数:(0.9, 0.99) |
| 学习率调度器 | 带预热的恒定学习率 | 余弦退火带热重启 |
| 学习率调度器参数 | 预热步数:100 | 周期数:10,最小学习率:1e-6,学习率衰减:0.9,首个周期步数:9,099 |
源代码和训练配置可在此处获取:https://github.com/cagliostrolab/sd-scripts/tree/main/notebook
Animagine XL 3.1 的开发与发布离不开以下个人和组织的宝贵贡献与支持:
感谢所有支持者和专家,是你们共同推动了动漫风格图像生成的边界。
尽管Animagine XL 3.1在动漫风格图像生成方面取得了显著进步,但仍需了解其存在的局限性:
通过明确这些局限性,我们旨在保持透明度,并为Animagine XL 3.1的用户设定合理期望。尽管存在这些限制,我们相信该模型仍是动漫风格图像生成领域的重要进步,为艺术家、设计师和爱好者提供了强大的工具。
Animagine XL 3.1 基于 Animagine XL 3.0 开发,采用 Fair AI Public License 1.0-SD 许可协议,该协议与 Stable Diffusion 模型的许可协议兼容。核心要点如下:
选择此许可协议旨在保持 Animagine XL 3.1 的开放性和可修改性,与开源社区精神保持一致。它保护贡献者和用户,鼓励建立一个协作、符合道德的开源社区。这确保模型不仅能从社区的集体智慧中受益,也尊重开源开发的自由。
Cagliostro Lab 服务器终于对公众开放 https://discord.gg/cqh9tZgbGc
欢迎加入我们的 Discord 服务器