FluffyRock Unbound v1.1

FluffyRock Unbound 是基于 Fluffyrock Unleashed v1.0 进行的微调模型，其训练数据来源于经过扩充和精选的 e621 数据集，并采用了英伟达实验室 EDM2 的训练改进方案。

本模型可生成详细的性 explicit 内容，不适合未成年人使用。通常情况下，只有在明确提示时，模型才会生成此类内容。

下载

Fluffyrock-Unbound-v1-1.safetensors - 主模型 EMA 检查点。
Fluffyrock-Unbound-v1-1.yaml - A1111 Stable Diffusion WebUI 专用 YAML 文件。请将此文件与模型放置在同一文件夹中。
fluffyrock-unbound-tag-strength-v1.1.csv - 推荐的标签权重文件，代表模型中各个概念的强度。（原始计数，元数据）
boring_e621_unbound_lite.safetensors - Boring-E621 风格嵌入，用于提升生成质量。请在负面提示词中使用。（增强版 Plus 版本）

提示词指南

本模型基于 e621 标签训练，标签之间用逗号分隔，且不含下划线。艺术家名称前已添加“by”。使用末尾逗号。
示例提示词：solo, anthro, female, wolf, breasts, clothed, standing, outside, full-length portrait, (detailed fur,) by artist name,

部分标签已进行缩写以节省 tokens，因此请尽量使用标签补全文件。
模型中已移除大部分紫色“版权标签”，因此绝对不要使用类似 ~~dreamworks, how to train your dragon, toothless~~ 的提示词，而应直接使用 toothless。
稀有标签未包含在自动补全文件中，以免造成误导。

Automatic1111 Stable Diffusion WebUI 使用说明

将模型及对应的 .yaml 文件放入 models/Stable-diffusion/ 文件夹。若没有 .yaml 文件，模型将无法正常工作。

你很可能需要 CFG Rescale 扩展：https://github.com/Seshelle/CFG_Rescale_webui 。设置为 0.7 似乎适用于几乎所有情况。

为获得理想效果，请前往“设置”->“采样器参数”，选择“Zero Terminal SNR”作为“采样噪声调度”，如果使用 Karras 调度，将 sigma max 设置为 160。

ComfyUI 使用说明

将模型检查点放入 models/checkpoints 文件夹。可选的 Boring-E621 嵌入文件放入 models/embeddings。
该模型采用 zero-terminal-SNR 并使用 V-prediction。请使用 ModelSamplingDiscrete 节点进行正确配置。

如果使用 KarrasScheduler 和 zsnr，请将 sigma max 设置为 160。不要将 zsnr 与默认的 KSampler karras 调度一起使用，因为 sigma max 将无法正确设置。

质量嵌入

上方提供了实验性文本反转嵌入，其理念与 Boring Embeddings 类似。它们旨在提高图像质量，同时不会大幅改变图像内容。它们应作为负面提示词的一部分使用，不过在正面提示词中使用也可能会有有趣的效果。

“lite”版本包含 6 个 token，初始化为 by <|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|>，非常接近“空白状态”。
“plus”版本基于相同数据集训练，包含 8 个 token，初始化为 100 位低评分艺术家的平均向量。
目前，推荐使用“lite”版本。

训练详情

自适应时间步权重：借鉴EDM2论文中的类似方法，根据每个时间步上MSE损失的同方差不确定性对时间步进行加权，从而均衡各时间步的贡献。损失权重还与分辨率相关联，以均衡各分辨率组的贡献。这使得模型现在在高频和低频细节方面都表现出色，并且不再对模糊背景有明显偏向。
EMA权重采用EDM2论文中描述的方法事后组装。发布的检查点使用0.225的EMA长度sigma值。
对CLIP标记嵌入中额外的完全空块应用了交叉注意力掩码，使模型在处理短提示时表现更好。此前，如果图像的标题较短，其输入方式类似于在A1111中为提示添加BREAK BREAK BREAK，这导致模型依赖这些额外块，并且在输入225个标记时能生成更好的图像。现在模型不再依赖于此。
优化器替换为无调度AdamW，并在偏置层中关闭了权重衰减，这极大地稳定了训练过程。
从高分辨率桶中移除了低分辨率图像。这导致最高分辨率组中约1/3的图像被移除。根据我们的测试，这对高分辨率生成质量没有负面影响，并且应该能改善高分辨率图像的细节。
用于训练输入的分词器设置为从不将标签从中间拆分。如果一个标签会到达块的边缘，它现在会被移至下一个块。这与大多数前端的行为类似。
现在对隐含标签应用随机丢弃。此更改的总体效果应该是，更具体的标签将更有效且更少依赖隐含标签，而更通用的标签仍将存在并可用。

数据集变更

对 E621 标签进行了大规模调整，移除了多个无用标签并对其他标签进行了重命名。我们纳入了代表当前数据集状态的新标签文件。
对数据集进行了筛选，以移除先前数据集中发现的有害内容，以及之前被发现会对相邻概念的生成质量产生负面影响的内容。

下载

提示词指南

部分标签已进行缩写以节省 tokens，因此请尽量使用标签补全文件。

模型中已移除大部分紫色“版权标签”，因此绝对不要使用类似 ~~dreamworks, how to train your dragon, toothless~~ 的提示词，而应直接使用 toothless。

稀有标签未包含在自动补全文件中，以免造成误导。

Automatic1111 Stable Diffusion WebUI 使用说明

将模型及对应的 .yaml 文件放入 models/Stable-diffusion/ 文件夹。若没有 .yaml 文件，模型将无法正常工作。

你很可能需要 CFG Rescale 扩展：https://github.com/Seshelle/CFG_Rescale_webui 。设置为 0.7 似乎适用于几乎所有情况。

为获得理想效果，请前往“设置”->“采样器参数”，选择“Zero Terminal SNR”作为“采样噪声调度”，如果使用 Karras 调度，将 sigma max 设置为 160。

ComfyUI 使用说明

如果使用 KarrasScheduler 和 zsnr，请将 sigma max 设置为 160。不要将 zsnr 与默认的 KSampler karras 调度一起使用，因为 sigma max 将无法正确设置。

质量嵌入

“plus”版本基于相同数据集训练，包含 8 个 token，初始化为 100 位低评分艺术家的平均向量。

目前，推荐使用“lite”版本。

训练详情

自适应时间步权重：借鉴EDM2论文中的类似方法，根据每个时间步上MSE损失的同方差不确定性对时间步进行加权，从而均衡各时间步的贡献。损失权重还与分辨率相关联，以均衡各分辨率组的贡献。这使得模型现在在高频和低频细节方面都表现出色，并且不再对模糊背景有明显偏向。

EMA权重采用EDM2论文中描述的方法事后组装。发布的检查点使用0.225的EMA长度sigma值。

对CLIP标记嵌入中额外的完全空块应用了交叉注意力掩码，使模型在处理短提示时表现更好。此前，如果图像的标题较短，其输入方式类似于在A1111中为提示添加BREAK BREAK BREAK，这导致模型依赖这些额外块，并且在输入225个标记时能生成更好的图像。现在模型不再依赖于此。

优化器替换为无调度AdamW，并在偏置层中关闭了权重衰减，这极大地稳定了训练过程。

从高分辨率桶中移除了低分辨率图像。这导致最高分辨率组中约1/3的图像被移除。根据我们的测试，这对高分辨率生成质量没有负面影响，并且应该能改善高分辨率图像的细节。

用于训练输入的分词器设置为从不将标签从中间拆分。如果一个标签会到达块的边缘，它现在会被移至下一个块。这与大多数前端的行为类似。

现在对隐含标签应用随机丢弃。此更改的总体效果应该是，更具体的标签将更有效且更少依赖隐含标签，而更通用的标签仍将存在并可用。

数据集变更

对 E621 标签进行了大规模调整，移除了多个无用标签并对其他标签进行了重命名。我们纳入了代表当前数据集状态的新标签文件。

对数据集进行了筛选，以移除先前数据集中发现的有害内容，以及之前被发现会对相邻概念的生成质量产生负面影响的内容。