Kohaku XL Δelta

“由‘个人’训练的最佳 SDXL 动漫基础模型。”

加入我们：https://discord.gg/tPBsKDyRR5

森林中的溪流

“作者：KBlueLeaf”

崛起

“作者：KBlueLeaf”

回眸

“作者：KBlueLeaf”

花

“作者：KBlueLeaf”

“猫”

“作者：KBlueLeaf”

简介

Kohaku XL Delta 是 Kohaku XL 系列的第四个主要版本，它包含 360 万张图像的数据集，采用 LyCORIS 微调技术[1]，在消费级硬件上完成训练，并且完全开源。

使用方法

“base”版本是“训练前”的版本！！！

以下是一个简单的格式，让使用此模型变得轻松便捷：

<1girl/1boy/1other/...>, <character>, <series>, <artists>, <special tags>, <general tags>

特殊标签（quality、rating 和 date）实际上属于通用标签的范畴。不过，建议将所有这些标签都放在通用标签之前。

虽然 Kohaku XL Delta 已经能够高保真地掌握少数艺术家的风格，但强烈建议用户混合使用多个艺术家标签来探索新风格，而非尝试复制任何特定艺术家的风格。

特殊标签

质量标签：masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality
分级标签：safe, sensitive, nsfw, explicit
日期标签：newest, recent, mid, early, old

质量标签 质量标签是根据每个分级类别内收藏数（fav_count）的百分位排名来分配的，以避免对 nsfw 内容产生偏见（Animagine XL v3 曾遇到此问题），从高到低排列如下：95th、85th、75th、50th、25th 和 10th 百分位。这通过六个阈值划分出七个不同的质量等级。

分级标签

一般：safe
敏感：sensitive
可疑：nsfw
露骨：nsfw, explicit

注意：在训练过程中，标记为“explicit”的内容也会被视为“nsfw”的一部分，以确保理解的全面性。

日期标签 日期标签基于图片的上传日期，因为元数据中不包含实际创作日期。时间段分类如下：

2005~2010：old
2011~2014：early
2015~2017：mid
2018~2020：recent
2021~2024：newest

强调

由于训练周期较短，部分标签可能未能被充分学习。通过实验发现，将“强调权重”提高到 1.5 至 2.5 之间仍能产生不错的效果，尤其是对于角色或艺术家标签。对于 sd-webui 用户，请使用版本 >= 1.8.0 并将强调模式切换为“No norm”，以防止潜在的 NaN 问题。

分辨率

本模型针对从ARB 1024x1024开始的分辨率进行训练，最小分辨率为256，最大分辨率为4096。这意味着您可以使用标准的SDXL分辨率。不过，建议选择略高于1024x1024的分辨率。为获得更佳效果，也建议应用高分辨率修复（hires-fix）。

有关更多信息，请查看所提供示例图像的元数据。

模型构建历程

数据集

用于训练本模型的数据集来源于HakuBooru，包含从danbooru2023数据集中筛选出的360万张图像。[2][3]

我们采用了如下筛选流程：从ID 0至2,999,999中选取100万条帖子，从ID 3,000,000至4,999,999中选取100万条帖子，并纳入所有ID 5,000,000之后的帖子，总计410万条帖子。在过滤掉已删除的帖子、黄金账户帖子以及无图像（可能为GIF或MP4）的帖子后，最终数据集包含360万张图像。

筛选过程基本为随机选择，但使用了固定种子以确保可复现性。

进一步处理

标签打乱：在每一步中打乱通用标签的顺序。
标签丢弃：在每一步中随机丢弃10%的通用标签。

训练

Kohaku XL Delta的训练借助了LyCORIS项目以及kohya-ss/sd-scripts中的训练器。[1][4]

基础模型优化 我们的研究表明，在CLIP中训练“token_embedding”和“position_embedding”，或在openCLIP中训练“positional_embedding”，对于中小规模的微调，尤其是在较小的批量大小下，可能并无益处。[5][6]

因此，我们恢复了TE1和TE2模型中原有的标记和位置嵌入。随后，我们通过加权求和（权重=0.5）将恢复的gamma rev2模型和beta7模型进行组合，形成了Kohaku XL Delta的基础模型。

该基础模型被称为“delta-pre2”或“delta base”，它是未经进一步训练的初步版本，其性能介于Kohaku XL gamma rev2和Kohaku XL beta7之间。

算法：LoKr[7] 该模型使用LoKr算法进行训练，触发了全矩阵，并为不同模块设置了2~8的因子。其目的是证明LoRA/LyCORIS在训练基础模型方面的适用性。

原始LoKr文件大小不到800MB，且TE未被冻结。原始LoKr文件也将以“delta-lokr”版本提供。

有关详细设置，请参考LyCORIS配置文件。

其他训练细节

硬件：双RTX 3090
训练图像数量：3,665,398
批量大小：4
梯度累积步数：16
等效批量大小：128
总轮次：1
总步数：28638
优化器：Lion8bit
- 学习率：UNet为4e-5 / TE为1e-5
- 学习率调度器：常数
- 预热步数：100
- 权重衰减：0.1
- Betas参数：0.9, 0.95
最小信噪比伽马值：5
分辨率：1024x1024
最小桶分辨率：256
最大桶分辨率：4096
混合精度：FP16

警告：bitsandbytes的0.36.0~0.41.0版本在8位优化器中存在严重缺陷，可能会影响训练，因此务必进行更新。[8]

训练成本 使用双RTX 3090进行DDP训练，在360万图像数据集上完成1个轮次大约需要17至18天。对于等效批量大小为128的每一步，完成时间约为51至51.5秒。

后续计划

Delta 很可能是 Kohaku XL 的最后一次重大更新，但这并不意味着我会停止对它的优化。当然，我也无法保证这真的是最后一次更新。

我正在考虑再进行几个 epoch 的训练，或者在不久的将来将数据集扩充到 500 万张图片。此外，我还打算尝试使用更大规模的配置来运行 DoKr，进行一些实验性的调整。

（有趣的是，Delta 最初也是一个实验项目，但结果非常好，于是就成为了正式版本！）

特别鸣谢

AngelBottomless 与 Nyanko7：danbooru2023 数据集[3] Kohya-ss：训练器[4] ChatGPT/GPT4：优化本模型卡片

AI 生成的艺术应当看起来像 AI 作品，而非人类创作。

参考资料与资源

参考文献

[1] Shih-Ying Yeh、Yu-Guan Hsieh、Zhidong Gao、Bernard B W Yang、Giyeong Oh 与 Yanmin Gong（2024）。《Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation》。发表于《The Twelfth International Conference on Learning Representations》。 https://arxiv.org/abs/2309.14859

[2] HakuBooru - 用于 booru 风格图像平台的文本图像数据集生成器。https://github.com/KohakuBlueleaf/HakuBooru

[3] Danbooru2023：一个大规模众包标注动漫插画数据集。 https://huggingface.co/datasets/nyanko7/danbooru2023

[4] kohya-ss/sd-scripts。 https://github.com/kohya-ss/sd-scripts

[5] Transformers：面向 Pytorch、TensorFlow 和 JAX 的最先进机器学习库。 https://github.com/huggingface/transformers/blob/b647acdb53d251cec126b79e505bac11821d7c93/src/transformers/models/clip/modeling_clip.py#L204-L205

[6] OpenCLIP - CLIP 的开源实现。 https://github.com/mlfoundations/open_clip/blob/73fa7f03a33da53653f61841eb6d69aef161e521/src/open_clip/transformer.py#L598-L604

[7] LyCORIS - Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion（超越传统方法的 Lora，用于 Stable Diffusion 的其他秩适应实现）。 https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr

[8] TimDettmers/bitsandbytes - issue 659/152/227/262 - 长期以来，错误的缩进行导致了一些 bug。 https://github.com/TimDettmers/bitsandbytes/issues/659

资源

Kohaku XL beta。https://civitai.com/models/162577/kohaku-xl-beta
Kohaku XL gamma。https://civitai.com/models/270291/kohaku-xl-gamma

附录

示例图片将稍后放置于此。您可以先查看示例文件夹。

Kohaku XL Δelta

“由‘个人’训练的最佳 SDXL 动漫基础模型。”

加入我们：https://discord.gg/tPBsKDyRR5

森林中的溪流

“作者：KBlueLeaf”

崛起

“作者：KBlueLeaf”

回眸

“作者：KBlueLeaf”

花

“作者：KBlueLeaf”

“猫”

“作者：KBlueLeaf”

简介

Kohaku XL Delta 是 Kohaku XL 系列的第四个主要版本，它包含 360 万张图像的数据集，采用 LyCORIS 微调技术[1]，在消费级硬件上完成训练，并且完全开源。

使用方法

“base”版本是“训练前”的版本！！！

以下是一个简单的格式，让使用此模型变得轻松便捷：

<1girl/1boy/1other/...>, <character>, <series>, <artists>, <special tags>, <general tags>

特殊标签（quality、rating 和 date）实际上属于通用标签的范畴。不过，建议将所有这些标签都放在通用标签之前。

特殊标签

质量标签：masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality
分级标签：safe, sensitive, nsfw, explicit
日期标签：newest, recent, mid, early, old

分级标签

一般：safe
敏感：sensitive
可疑：nsfw
露骨：nsfw, explicit

注意：在训练过程中，标记为“explicit”的内容也会被视为“nsfw”的一部分，以确保理解的全面性。

日期标签 日期标签基于图片的上传日期，因为元数据中不包含实际创作日期。时间段分类如下：

2005~2010：old
2011~2014：early
2015~2017：mid
2018~2020：recent
2021~2024：newest

强调

分辨率

有关更多信息，请查看所提供示例图像的元数据。

模型构建历程

数据集

用于训练本模型的数据集来源于HakuBooru，包含从danbooru2023数据集中筛选出的360万张图像。[2][3]

筛选过程基本为随机选择，但使用了固定种子以确保可复现性。

进一步处理

标签打乱：在每一步中打乱通用标签的顺序。
标签丢弃：在每一步中随机丢弃10%的通用标签。

训练

Kohaku XL Delta的训练借助了LyCORIS项目以及kohya-ss/sd-scripts中的训练器。[1][4]

该基础模型被称为“delta-pre2”或“delta base”，它是未经进一步训练的初步版本，其性能介于Kohaku XL gamma rev2和Kohaku XL beta7之间。

算法：LoKr[7] 该模型使用LoKr算法进行训练，触发了全矩阵，并为不同模块设置了2~8的因子。其目的是证明LoRA/LyCORIS在训练基础模型方面的适用性。

原始LoKr文件大小不到800MB，且TE未被冻结。原始LoKr文件也将以“delta-lokr”版本提供。

有关详细设置，请参考LyCORIS配置文件。

其他训练细节

硬件：双RTX 3090
训练图像数量：3,665,398
批量大小：4
梯度累积步数：16
等效批量大小：128
总轮次：1
总步数：28638
优化器：Lion8bit
- 学习率：UNet为4e-5 / TE为1e-5
- 学习率调度器：常数
- 预热步数：100
- 权重衰减：0.1
- Betas参数：0.9, 0.95
最小信噪比伽马值：5
分辨率：1024x1024
最小桶分辨率：256
最大桶分辨率：4096
混合精度：FP16

警告：bitsandbytes的0.36.0~0.41.0版本在8位优化器中存在严重缺陷，可能会影响训练，因此务必进行更新。[8]

训练成本 使用双RTX 3090进行DDP训练，在360万图像数据集上完成1个轮次大约需要17至18天。对于等效批量大小为128的每一步，完成时间约为51至51.5秒。

后续计划

Delta 很可能是 Kohaku XL 的最后一次重大更新，但这并不意味着我会停止对它的优化。当然，我也无法保证这真的是最后一次更新。

（有趣的是，Delta 最初也是一个实验项目，但结果非常好，于是就成为了正式版本！）

特别鸣谢

AngelBottomless 与 Nyanko7：danbooru2023 数据集[3] Kohya-ss：训练器[4] ChatGPT/GPT4：优化本模型卡片

AI 生成的艺术应当看起来像 AI 作品，而非人类创作。

参考资料与资源

参考文献

[2] HakuBooru - 用于 booru 风格图像平台的文本图像数据集生成器。https://github.com/KohakuBlueleaf/HakuBooru

[3] Danbooru2023：一个大规模众包标注动漫插画数据集。 https://huggingface.co/datasets/nyanko7/danbooru2023

[4] kohya-ss/sd-scripts。 https://github.com/kohya-ss/sd-scripts

[6] OpenCLIP - CLIP 的开源实现。 https://github.com/mlfoundations/open_clip/blob/73fa7f03a33da53653f61841eb6d69aef161e521/src/open_clip/transformer.py#L598-L604

[8] TimDettmers/bitsandbytes - issue 659/152/227/262 - 长期以来，错误的缩进行导致了一些 bug。 https://github.com/TimDettmers/bitsandbytes/issues/659

资源

Kohaku XL beta。https://civitai.com/models/162577/kohaku-xl-beta
Kohaku XL gamma。https://civitai.com/models/270291/kohaku-xl-gamma

附录

示例图片将稍后放置于此。您可以先查看示例文件夹。