HuggingFace镜像/LTX-LoRAs
模型介绍文件和版本分析
下载使用量0

LTX 2.3 的 LoRA 模型

在此,我将分享一些为 LTX 2.3 训练的 LoRA 模型。

随着时间推移,这些 LoRA 可能会涵盖不同的使用场景,因此本仓库不仅限于图像修复。

模型

文件描述
ltx23_inpaint_rank128_v1_02500steps.safetensors有时此检查点能更好地遵循提示词,这可能是因为它过拟合程度较低。
ltx23_inpaint_rank128_v1_10000steps.safetensors有时此检查点不能很好地遵循指令,因为它更关注遮罩的大小;但除此之外,它能更好地利用遮罩区域。这可能是由于在更有限的数据集上经过更长时间的训练后,它出现了更多的过拟合。
ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors具有参考支持的图像修复 LoRA。该模型允许在进行图像修复的同时使用视觉参考,这有助于更精确地引导所需的替换效果。提示词质量对于获得良好结果极为重要,遮罩大小则更为关键。
ltx23_edit_anything_global_rank128_v1_6000steps_prodigy 或 ltx23_edit_anything_global_rank128_v1_9000steps_adamw.safetensors实验性的“编辑任何内容”LoRA,基于 8,000 对视频训练,支持添加/移除/替换/风格转换。最适用于实验、提示词测试以及构建合成数据集,尤其是以风格为重点的数据集。模型文件:https://huggingface.co/Alissonerdx/LTX-LoRAs/blob/main/ltx23_edit_anything_global_rank128_v1_9000steps_adamw.safetensors

选择最适合您的模型即可。

图像修复 LoRA 的重要推理注意事项

这些图像修复 LoRA 是在特定的引导和遮罩设置下训练的,因此推理过程中的输入准备至关重要。

如何使用遮罩

在推理时,不应将遮罩作为单独的通道传递。

遮罩必须嵌入到引导视频中,这意味着:

  • 遮罩视频
  • 和引导视频

必须被视为单个视频。

之后,您需要使用 LTXVAddGuideMulti 节点将引导视频传入模型。

所需颜色

为确保推理结果与训练设置一致,颜色至关重要:

  • 遮罩必须为品红色:(255, 0, 255)
  • 参考图的绿色区域必须为抠像绿:(0, 255, 0)

训练期间使用的遮罩格式说明

我的数据集中包含遮罩更区块化的样本。换句话说,默认模式使用8x8的区块。

为了在推理时更好地复现训练条件,您可以使用:

  • KJNodes 中的 Blockify Mask(区块化遮罩)

这有助于使遮罩的分布更接近模型在训练时所见到的情况。

对于新的基于参考图的修复LoRA,这一点尤为重要:

  • 有时您需要使用区块化,使遮罩对先前物体的形状更加不敏感
  • 有时您需要扩展遮罩,为新物体提供更大的生成空间以确保效果
  • 一个不错的默认推荐是使用大小为8的区块化遮罩
  • 您可以将其扩展到512,这实际上会使遮罩变成一个完整的矩形

注意事项

  • 基础模型:Lightricks/LTX-2.3
  • 不同检查点的表现可能在以下方面存在显著差异:
    • 对提示词的遵循程度
    • 对遮罩区域的利用情况
    • 过拟合倾向
  • 对于基于参考图的LoRA,提示词的编写对结果质量极为重要
  • 对于基于参考图的LoRA,遮罩大小和遮罩的准备工作至关重要

实用建议

对于本仓库中的修复LoRA:

  • 如果您希望更好地遵循提示词,请首先尝试2500步的检查点
  • 如果您希望更好地利用遮罩区域,请首先尝试10000步的检查点
  • 如果您需要一个在有视觉参考和纯文本两种设置下都能很好工作的修复LoRA,请尝试**ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors**

最佳方法是在您的工作流程中比较这几个模型,因为偏好可能会根据场景、遮罩和提示词的不同而有所变化。


实验性“编辑一切”LoRA

训练状态:此训练仍在进行中,随着新实验和检查点的测试,该模型可能会不定期更新。

本仓库还包含一个用于视频编辑的实验性“编辑一切”LoRA。

模型文件:ltx23_edit_anything_global_rank128_v1_9000steps_adamw.safetensors
模型位置:https://huggingface.co/Alissonerdx/LTX-LoRAs/blob/main/ltx23_edit_anything_global_rank128_v1_9000steps_adamw.safetensors

推荐工作流:ltx23_edit_anything_v1

此LoRA是在8000对视频样本上训练的,其设计更多是作为研究/实验性检查点,而非完全 polished 的专业生产模型。

因此,应对其抱有相应的期望:

  • 这仍然是实验性的
  • 它的训练并未将专业级输出质量作为主要目标
  • 它对于测试编辑行为、提示词结构和数据集构建工作流特别有用
  • 它是一个构建合成数据集的良好模型,尤其是面向风格的数据集

训练过程中使用的提示词模式

训练标注围绕四种核心任务类型进行组织:

添加
在场景中的[精确位置]添加一个具有[清晰视觉属性]的[主体/物体]。

移除
移除[位置或识别描述]处的[主体/物体]。

替换
将[位置]处的[原始主体/物体]替换为一个具有[清晰视觉属性]的[新主体/物体]。

转换/风格化
将视频转换为[风格名称]风格。

效果最佳的提示词通常具有以下特点:

  • 动作优先
  • 视觉描述具体
  • 空间定位明确
  • 针对视频场景编写,而非静态图像

常见主体和物体类型

训练提示词中一些最常见的物体类别包括:

  • 男性
  • 女性
  • 人物
  • 机器人
  • 狗
  • 猫
  • 角色
  • 笔记本电脑
  • 建筑物
  • 植物/树木

实际上,模型处理了大量:

  • 人物及以身体为中心的编辑
  • 动物和风格化生物
  • 手持物品和道具
  • 交通工具和场景替换
  • 建筑物和背景元素
  • 风格转换提示词

风格覆盖范围

训练提示词中包含的一些较有趣的风格有:

  • 铅笔素描
  • 扁平化矢量插画
  • 扁平化矢量卡通
  • 水彩画
  • 数字油画
  • 梵高风格
  • 波普艺术
  • 3D 卡通小人
  • 培乐多(橡皮泥)风格
  • 黏土动画
  • 漫画书风格
  • 美国卡通风格
  • 赛璐珞动画风格
  • 吉卜力式动画风格
  • 中国传统绘画

Edit Anything LoRA 的推理注意事项

该模型的一个最大推理因素是CFG(分类器自由引导)。

一个良好的起点是首先测试蒸馏模型,并将CFG 设置为 1。

如果编辑效果太弱或模型未能充分遵循提示词,提高CFG可能是关键。

在某些情况下,将蒸馏 LoRA 的强度增加到约1.2也可能有所帮助。

另一种有用的设置是将基础模型与蒸馏 LoRA结合使用,因为这样可以提供更大的调整空间来平衡:

  • LoRA 强度
  • CFG
  • 步数

这通常是达成以下方面更稳定平衡的更好方法:

  • 提示词遵循度
  • 编辑强度
  • 视觉稳定性
  • 整体可控性

实用要点

  • 从 CFG = 1 的精简设置 开始
  • 如果编辑效果不明显,提高 CFG
  • 必要时,略微增加 LoRA 强度,例如调至 1.2
  • 若需更多控制,尝试 基础模型 + 蒸馏 LoRA,而非仅依赖固定的精简设置
  • 更优的提示词通常 更具体 且 空间定位更明确

“万物可编辑”LoRA 的示例提示词

示例 1 — 添加

提示词:
在木质柜台的右侧添加一台带有白色按键和银色装饰的黑色复古打字机。

示例 2 — 移除

提示词:
移除画面中央站立的人。

示例 3 — 替换

提示词:
将道路上的蓝色汽车替换为一艘占据原位置的大型白蓝相间的轮船。

示例 4 — 转换/风格化

提示词:
将视频转换为水彩画风格。


示例 — 2500 步

示例 1

模型: ltx23_inpaint_rank128_v1_02500steps.safetensors

视频: videos/sample_1_inpaint_2500.mp4

提示词:


示例 — 10000 步

示例 1

模型: ltx23_inpaint_rank128_v1_10000steps.safetensors

视频: videos/sample_1_inpaint_10000.mp4

提示词:


示例 — 参考图引导修复(R2V)— 3000 步

此 LoRA 有两种使用方式:

  • 参考图引导修复:参考图主动引导替换内容
  • 纯文本风格修复:将空白图像作为参考输入

需要注意的一个实际问题是 身份泄露。在某些场景中,如果提示词不够具体,模型可能会从源场景中已有的其他角色复制身份特征或视觉细节,而非严格遵循预期的参考图。这对于全身参考图尤为重要,因此提示词的特异性至关重要。

示例 1

模型: ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors

视频: videos/sample_1_masked_r2v_3000.mp4

提示词:
一个酷似唐纳德·特朗普的男子在舞台上弹奏电吉他,做出充满活力的表演动作,姿态自信,肢体语言富有表现力,展现出动态的摇滚明星态度。他在表演时戏剧性地抱着吉他,配合舞台灯光、动作和热烈的音乐会氛围。

说明: 本示例使用了全身参考图。提示词必须非常具体,否则模型会从场景中已有的另一个角色泄露身份细节,而不是遵循预期的参考图。在实际应用中,这意味着提示词的明确性对于减少身份泄露至关重要。


示例 2

模型: ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors

视频: videos/sample_2_masked_r2v_3000.mp4

提示词:

一个夜间山路漂移场景,一辆特斯拉Cybertruck在急转弯处进行戏剧性的高速漂移,车身侧滑过沥青路面,动作凌厉,充满强劲的驾驶能量。Cybertruck具有标志性的棱角分明的三角形楔形车身、金属面板、锐利的几何轮廓、明亮的前大灯和清晰可见的未来主义设计。轮胎烟雾和漂移轨迹尾随车辆,与原始动作场景的速度和强度相匹配。街灯照亮道路,背景森林黑暗茂密,相机视角低而富有电影感,强调动作、速度和控制力。Cybertruck完全融入场景,具有真实的比例、灯光、阴影、反射和地面接触效果。


示例 3

模型: ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors

视频: videos/sample_3_masked_r2v_3000.mp4

提示词:

一个夜间山路漂移场景,一辆经典大众甲壳虫在急转弯处进行戏剧性的高速漂移,车身侧滑过沥青路面,充满强烈的动感和驾驶活力。甲壳虫具有其标志性的圆润车身、紧凑的复古造型、圆形前大灯、弧形车顶线以及清晰可见的独特经典设计。轮胎烟雾和漂移轨迹尾随车后,与原始动作场景的速度和强度相匹配。路灯照亮道路,森林背景保持黑暗茂密,相机视角低而富有电影感,强调动感、速度和控制力。甲壳虫以真实的比例、光照、阴影、反射和地面接触完美融入场景。

注意: 此示例表明,遮罩 R2V 模型也可以像纯文本修复模型一样使用,无需真实参考图。要实现这一点,只需发送一张空白图像来代替参考图像。


示例 4

模型: ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors

视频: videos/sample_4_masked_r2v_3000.mp4

提示词:
一名男子在白天的乡村道路上骑老虎,老虎以戏剧性的类似 wheelie(后轮站立)的姿势向上扬起,与原始摩托车的动态动作和位置相匹配。老虎体型庞大、强壮且逼真,橙色皮毛、黑色条纹、强健肌肉和自然解剖结构清晰可见。男子平衡地骑在老虎背上,仿佛在特技表演中控制着它,身体姿势自然可信,充满强烈的运动能量。保持道路、相机角度、光照、阴影、背景和整体构图不变。场景应给人一种户外真实动作瞬间被捕捉的感觉。