Animagine XL 3.1

Animagine XL 3.1 是 Animagine XL V3 系列的一次更新，对先前版本 Animagine XL 3.0 进行了增强。这款开源的动漫主题文本到图像模型经过改进，能够生成更高质量的动漫风格图像。它涵盖了更多知名动漫系列的角色，优化了数据集，并新增了美学标签以提升图像创作效果。基于 Stable Diffusion XL 构建，Animagine XL 3.1 旨在通过生成精准且细节丰富的动漫角色形象，为动漫爱好者、艺术家和内容创作者提供有价值的资源。

模型详情

开发方：Cagliostro Research Lab
合作方：SeaArt.ai
模型类型：基于扩散技术的文本到图像生成模型
模型描述：Animagine XL 3.1 能够根据文本提示生成高质量动漫图像。它在手部解剖结构、概念理解以及提示词解读方面均有显著提升。
许可证：Fair AI Public License 1.0-SD
微调基础模型：Animagine XL 3.0

Gradio 与 Colab 集成

可在 Huggingface Spaces 中尝试由 Gradio 驱动的演示：

或在 Google Colab 中打开演示：

🧨 Diffusers 安装

首先安装所需库：

pip install diffusers transformers accelerate safetensors --upgrade

然后使用以下示例代码运行图像生成：

import torch
from diffusers import DiffusionPipeline

pipe = DiffusionPipeline.from_pretrained(
    "cagliostrolab/animagine-xl-3.1", 
    torch_dtype=torch.float16, 
    use_safetensors=True, 
)
pipe.to('cuda')

prompt = "1girl, souryuu asuka langley, neon genesis evangelion, solo, upper body, v, smile, looking at viewer, outdoors, night"
negative_prompt = "nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]"

image = pipe(
    prompt, 
    negative_prompt=negative_prompt,
    width=832,
    height=1216, 
    guidance_scale=7,
    num_inference_steps=28
).images[0]

image.save("./output/asuka_test.png")

使用指南

标签排序

为获得最佳效果，建议遵循结构化提示模板，因为我们的模型是按照此方式进行训练的：

1girl/1boy, character name, from what series, everything else in any order.

特殊标签

Animagine XL 3.1 采用特殊标签来引导生成结果在质量、分级、创作日期和美学方面的表现。虽然模型在不使用这些标签的情况下也能生成图像，但使用它们有助于获得更优的结果。

质量修饰标签

质量标签现在同时考虑分数和发布后的评分，以确保质量分布的均衡性。我们优化了标签名称以提高清晰度，例如将“high quality”调整为“great quality”。

质量修饰标签	分数标准
`masterpiece`	> 95%
`best quality`	> 85% & ≤ 95%
`great quality`	> 75% & ≤ 85%
`good quality`	> 50% & ≤ 75%
`normal quality`	> 25% & ≤ 50%
`low quality`	> 10% & ≤ 25%
`worst quality`	≤ 10%

分级修饰标签

我们还简化了分级标签，以追求简洁和清晰，并旨在建立可跨不同模型应用的通用规则。例如，标签“rating: general”现已简化为“general”，“rating: sensitive”已精简为“sensitive”。

分级修饰标签	分级标准
`safe`	General
`sensitive`	Sensitive
`nsfw`	Questionable
`explicit, nsfw`	Explicit

年份修饰标签

我们还重新定义了年份范围，以更准确地引导结果呈现特定的现代或复古动漫艺术风格。此更新简化了范围，侧重于与当前和过去时代的相关性。

年份标签	年份范围
`newest`	2021 至 2024
`recent`	2018 至 2020
`mid`	2015 至 2017
`early`	2011 至 2014
`oldest`	2005 至 2010

美学标签

我们增强了标签系统，引入美学标签以根据视觉吸引力优化内容分类。这些标签源自专门的 ViT（视觉Transformer）图像分类模型的评估，该模型经过动漫数据的专门训练。为此，我们使用了模型 shadowlilac/aesthetic-shadow-v2，该模型在内容进行训练前评估其美学价值。这确保了每段内容不仅相关准确，而且具有视觉吸引力。

美学标签	分数范围
`very aesthetic`	> 0.71
`aesthetic`	> 0.45 & < 0.71
`displeasing`	> 0.27 & < 0.45
`very displeasing`	≤ 0.27

尺寸	宽高比
`1024 x 1024`	1:1 正方形
`1152 x 896`	9:7
`896 x 1152`	7:9
`1216 x 832`	19:13
`832 x 1216`	13:19
`1344 x 768`	7:4 横向
`768 x 1344`	4:7 纵向
`1536 x 640`	12:5 横向
`640 x 1536`	5:12 纵向

训练与超参数

Animagine XL 3.1 在 2 块 A100 80GB GPU 上训练了约 15 天，总 GPU 时长超过 350 小时。训练过程分为三个阶段：

预训练：使用包含 87 万张有序且带标签的图像的丰富数据集，以增加 Animagine XL 3.0 的模型知识。
- 微调 - 第一阶段：使用经过标记和精选的美学数据集，对预训练后受损的 U-Net 进行修复。
- 微调 - 第二阶段：使用经过标记和精选的美学数据集，优化模型的艺术风格，并改进手部和解剖结构的渲染效果。

超参数

阶段	轮次	UNet 学习率	训练文本编码器	批大小	噪声偏移	优化器	学习率调度器	梯度累积步数	GPU 数量
预训练	10	1e-5	是	16	N/A	AdamW	余弦退火带热重启	3	2
微调第一阶段	10	2e-6	否	48	0.0357	Adafactor	带预热的恒定学习率	1	1
微调第二阶段	15	1e-6	否	48	0.0357	Adafactor	带预热的恒定学习率	1	1

模型对比（仅预训练阶段）

训练配置

配置项	Animagine XL 3.0	Animagine XL 3.1
GPU	2 x A100 80G	2 x A100 80G
数据集	1,271,990	873,504
Shuffle Separator	True	True
训练轮次	10	10
学习率	7.5e-6	1e-5
文本编码器学习率	3.75e-6	1e-5
有效批处理大小	48 x 1 x 2	16 x 3 x 2
优化器	Adafactor	AdamW
优化器参数	缩放参数：False，相对步长：False，预热初始化：False	权重衰减：0.1，动量参数：(0.9, 0.99)
学习率调度器	带预热的恒定学习率	余弦退火带热重启
学习率调度器参数	预热步数：100	周期数：10，最小学习率：1e-6，学习率衰减：0.9，首个周期步数：9,099

源代码和训练配置可在此处获取：https://github.com/cagliostrolab/sd-scripts/tree/main/notebook

致谢

Animagine XL 3.1 的开发与发布离不开以下个人和组织的宝贵贡献与支持：

SeaArt.ai：我们的合作方与赞助商。
Shadow Lilac：提供了审美分类模型 aesthetic-shadow-v2。
Derrian Distro：提供了自定义学习率调度器，改编自 LoRA Easy Training Scripts。
Kohya SS：提供了全面的训练脚本。
Cagliostrolab 团队成员：致力于模型训练、项目管理和数据整理。
早期测试者：提供了宝贵的反馈和质量保障。
NovelAI：其创新的审美标签方法为我们的实现提供了灵感。
KBlueLeaf：在平衡质量标签分布和基于 Hakubooru Metainfo 管理标签方面提供了灵感。

感谢所有支持者和专家，是你们共同推动了动漫风格图像生成的边界。

协作者

局限性

尽管Animagine XL 3.1在动漫风格图像生成方面取得了显著进步，但仍需了解其存在的局限性：

专注动漫领域：本模型专为生成动漫风格图像而设计，不适用于创建写实照片。
提示词复杂度：对于期望通过简短或简单提示词获得高质量结果的用户，本模型可能不太适用。训练重点在于概念理解而非美学优化，因此可能需要更详细、具体的提示词才能达到理想效果。
提示词格式：Animagine XL 3.1针对Danbooru风格标签进行了优化，而非自然语言提示词。为获得最佳效果，建议用户使用适当的标签和语法来格式化提示词。
人体结构与手部绘制：尽管在人体结构和手部绘制方面已有所改进，但在这些区域，模型仍可能出现生成效果欠佳的情况。
数据集规模：用于训练Animagine XL 3.1的数据集包含约87万张图像。与上一版本的数据集（120万张）相结合，总训练数据量约为210万张图像。虽然数量可观，但对于一款“终极”动漫模型而言，此数据集规模在范围上仍可能被认为是有限的。
NSFW内容：Animagine XL 3.1旨在生成更为均衡的NSFW内容。但需要注意的是，即使未明确提示，模型仍可能生成NSFW结果。

通过明确这些局限性，我们旨在保持透明度，并为Animagine XL 3.1的用户设定合理期望。尽管存在这些限制，我们相信该模型仍是动漫风格图像生成领域的重要进步，为艺术家、设计师和爱好者提供了强大的工具。

许可协议

Animagine XL 3.1 基于 Animagine XL 3.0 开发，采用 Fair AI Public License 1.0-SD 许可协议，该协议与 Stable Diffusion 模型的许可协议兼容。核心要点如下：

修改共享：若您对 Animagine XL 3.1 进行修改，必须同时分享您的修改内容和原始许可协议。
源代码可访问性：如果您的修改版本可通过网络访问，需提供获取源代码的途径（如下载链接）。此要求同样适用于衍生模型。
分发条款：任何分发行为必须基于本许可协议或其他具有类似规则的协议。
合规性：若出现不合规情况，必须在 30 天内纠正，以避免许可协议终止。这强调了透明度和对开源价值观的遵守。

选择此许可协议旨在保持 Animagine XL 3.1 的开放性和可修改性，与开源社区精神保持一致。它保护贡献者和用户，鼓励建立一个协作、符合道德的开源社区。这确保模型不仅能从社区的集体智慧中受益，也尊重开源开发的自由。

Cagliostro Lab Discord 服务器

Cagliostro Lab 服务器终于对公众开放 https://discord.gg/cqh9tZgbGc

欢迎加入我们的 Discord 服务器

Animagine XL 3.1

模型详情

开发方：Cagliostro Research Lab
合作方：SeaArt.ai
模型类型：基于扩散技术的文本到图像生成模型
模型描述：Animagine XL 3.1 能够根据文本提示生成高质量动漫图像。它在手部解剖结构、概念理解以及提示词解读方面均有显著提升。
许可证：Fair AI Public License 1.0-SD
微调基础模型：Animagine XL 3.0

Gradio 与 Colab 集成

可在 Huggingface Spaces 中尝试由 Gradio 驱动的演示：

或在 Google Colab 中打开演示：

🧨 Diffusers 安装

首先安装所需库：

pip install diffusers transformers accelerate safetensors --upgrade

然后使用以下示例代码运行图像生成：

import torch
from diffusers import DiffusionPipeline

pipe = DiffusionPipeline.from_pretrained(
    "cagliostrolab/animagine-xl-3.1", 
    torch_dtype=torch.float16, 
    use_safetensors=True, 
)
pipe.to('cuda')

prompt = "1girl, souryuu asuka langley, neon genesis evangelion, solo, upper body, v, smile, looking at viewer, outdoors, night"
negative_prompt = "nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]"

image = pipe(
    prompt, 
    negative_prompt=negative_prompt,
    width=832,
    height=1216, 
    guidance_scale=7,
    num_inference_steps=28
).images[0]

image.save("./output/asuka_test.png")

使用指南

标签排序

为获得最佳效果，建议遵循结构化提示模板，因为我们的模型是按照此方式进行训练的：

1girl/1boy, character name, from what series, everything else in any order.

特殊标签

质量修饰标签

质量修饰标签	分数标准
`masterpiece`	> 95%
`best quality`	> 85% & ≤ 95%
`great quality`	> 75% & ≤ 85%
`good quality`	> 50% & ≤ 75%
`normal quality`	> 25% & ≤ 50%
`low quality`	> 10% & ≤ 25%
`worst quality`	≤ 10%

分级修饰标签

分级修饰标签	分级标准
`safe`	General
`sensitive`	Sensitive
`nsfw`	Questionable
`explicit, nsfw`	Explicit

年份修饰标签

我们还重新定义了年份范围，以更准确地引导结果呈现特定的现代或复古动漫艺术风格。此更新简化了范围，侧重于与当前和过去时代的相关性。

年份标签	年份范围
`newest`	2021 至 2024
`recent`	2018 至 2020
`mid`	2015 至 2017
`early`	2011 至 2014
`oldest`	2005 至 2010

美学标签

美学标签	分数范围
`very aesthetic`	> 0.71
`aesthetic`	> 0.45 & < 0.71
`displeasing`	> 0.27 & < 0.45
`very displeasing`	≤ 0.27

尺寸	宽高比
`1024 x 1024`	1:1 正方形
`1152 x 896`	9:7
`896 x 1152`	7:9
`1216 x 832`	19:13
`832 x 1216`	13:19
`1344 x 768`	7:4 横向
`768 x 1344`	4:7 纵向
`1536 x 640`	12:5 横向
`640 x 1536`	5:12 纵向

训练与超参数

Animagine XL 3.1 在 2 块 A100 80GB GPU 上训练了约 15 天，总 GPU 时长超过 350 小时。训练过程分为三个阶段：

预训练：使用包含 87 万张有序且带标签的图像的丰富数据集，以增加 Animagine XL 3.0 的模型知识。
- 微调 - 第一阶段：使用经过标记和精选的美学数据集，对预训练后受损的 U-Net 进行修复。
- 微调 - 第二阶段：使用经过标记和精选的美学数据集，优化模型的艺术风格，并改进手部和解剖结构的渲染效果。

超参数

阶段	轮次	UNet 学习率	训练文本编码器	批大小	噪声偏移	优化器	学习率调度器	梯度累积步数	GPU 数量
预训练	10	1e-5	是	16	N/A	AdamW	余弦退火带热重启	3	2
微调第一阶段	10	2e-6	否	48	0.0357	Adafactor	带预热的恒定学习率	1	1
微调第二阶段	15	1e-6	否	48	0.0357	Adafactor	带预热的恒定学习率	1	1

模型对比（仅预训练阶段）

训练配置

配置项	Animagine XL 3.0	Animagine XL 3.1
GPU	2 x A100 80G	2 x A100 80G
数据集	1,271,990	873,504
Shuffle Separator	True	True
训练轮次	10	10
学习率	7.5e-6	1e-5
文本编码器学习率	3.75e-6	1e-5
有效批处理大小	48 x 1 x 2	16 x 3 x 2
优化器	Adafactor	AdamW
优化器参数	缩放参数：False，相对步长：False，预热初始化：False	权重衰减：0.1，动量参数：(0.9, 0.99)
学习率调度器	带预热的恒定学习率	余弦退火带热重启
学习率调度器参数	预热步数：100	周期数：10，最小学习率：1e-6，学习率衰减：0.9，首个周期步数：9,099

源代码和训练配置可在此处获取：https://github.com/cagliostrolab/sd-scripts/tree/main/notebook

致谢

Animagine XL 3.1 的开发与发布离不开以下个人和组织的宝贵贡献与支持：

SeaArt.ai：我们的合作方与赞助商。
Shadow Lilac：提供了审美分类模型 aesthetic-shadow-v2。
Derrian Distro：提供了自定义学习率调度器，改编自 LoRA Easy Training Scripts。
Kohya SS：提供了全面的训练脚本。
Cagliostrolab 团队成员：致力于模型训练、项目管理和数据整理。
早期测试者：提供了宝贵的反馈和质量保障。
NovelAI：其创新的审美标签方法为我们的实现提供了灵感。
KBlueLeaf：在平衡质量标签分布和基于 Hakubooru Metainfo 管理标签方面提供了灵感。

感谢所有支持者和专家，是你们共同推动了动漫风格图像生成的边界。

协作者

局限性

尽管Animagine XL 3.1在动漫风格图像生成方面取得了显著进步，但仍需了解其存在的局限性：

专注动漫领域：本模型专为生成动漫风格图像而设计，不适用于创建写实照片。
提示词复杂度：对于期望通过简短或简单提示词获得高质量结果的用户，本模型可能不太适用。训练重点在于概念理解而非美学优化，因此可能需要更详细、具体的提示词才能达到理想效果。
提示词格式：Animagine XL 3.1针对Danbooru风格标签进行了优化，而非自然语言提示词。为获得最佳效果，建议用户使用适当的标签和语法来格式化提示词。
人体结构与手部绘制：尽管在人体结构和手部绘制方面已有所改进，但在这些区域，模型仍可能出现生成效果欠佳的情况。
数据集规模：用于训练Animagine XL 3.1的数据集包含约87万张图像。与上一版本的数据集（120万张）相结合，总训练数据量约为210万张图像。虽然数量可观，但对于一款“终极”动漫模型而言，此数据集规模在范围上仍可能被认为是有限的。
NSFW内容：Animagine XL 3.1旨在生成更为均衡的NSFW内容。但需要注意的是，即使未明确提示，模型仍可能生成NSFW结果。

许可协议

Animagine XL 3.1 基于 Animagine XL 3.0 开发，采用 Fair AI Public License 1.0-SD 许可协议，该协议与 Stable Diffusion 模型的许可协议兼容。核心要点如下：

修改共享：若您对 Animagine XL 3.1 进行修改，必须同时分享您的修改内容和原始许可协议。
源代码可访问性：如果您的修改版本可通过网络访问，需提供获取源代码的途径（如下载链接）。此要求同样适用于衍生模型。
分发条款：任何分发行为必须基于本许可协议或其他具有类似规则的协议。
合规性：若出现不合规情况，必须在 30 天内纠正，以避免许可协议终止。这强调了透明度和对开源价值观的遵守。

Cagliostro Lab Discord 服务器

Cagliostro Lab 服务器终于对公众开放 https://discord.gg/cqh9tZgbGc

欢迎加入我们的 Discord 服务器

Animagine XL 3.1

模型详情

Gradio 与 Colab 集成

🧨 Diffusers 安装

使用指南

标签排序

特殊标签

质量修饰标签

分级修饰标签

年份修饰标签

美学标签

推荐设置

多宽高比分辨率

训练与超参数

超参数

模型对比（仅预训练阶段）

训练配置

致谢

协作者

局限性

许可协议

Cagliostro Lab Discord 服务器

Animagine XL 3.1

模型详情

Gradio 与 Colab 集成

🧨 Diffusers 安装

使用指南

标签排序

特殊标签

质量修饰标签

分级修饰标签

年份修饰标签

美学标签

推荐设置

多宽高比分辨率

训练与超参数

超参数

模型对比（仅预训练阶段）

训练配置

致谢

协作者

局限性

许可协议

Cagliostro Lab Discord 服务器