在此,我将分享一些为 LTX 2.3 训练的 LoRA 模型。
随着时间推移,这些 LoRA 可能会涵盖不同的使用场景,因此本仓库不仅限于图像修复。
| 文件 | 描述 |
|---|---|
ltx23_inpaint_rank128_v1_02500steps.safetensors | 有时此检查点能更好地遵循提示词,这可能是因为它过拟合程度较低。 |
ltx23_inpaint_rank128_v1_10000steps.safetensors | 有时此检查点不能很好地遵循指令,因为它更关注遮罩的大小;但除此之外,它能更好地利用遮罩区域。这可能是由于在更有限的数据集上经过更长时间的训练后,它出现了更多的过拟合。 |
ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors | 具有参考支持的图像修复 LoRA。该模型允许在进行图像修复的同时使用视觉参考,这有助于更精确地引导所需的替换效果。提示词质量对于获得良好结果极为重要,遮罩大小则更为关键。 |
ltx23_edit_anything_global_rank128_v1_6000steps_prodigy 或 ltx23_edit_anything_global_rank128_v1_9000steps_adamw.safetensors | 实验性的“编辑任何内容”LoRA,基于 8,000 对视频训练,支持添加/移除/替换/风格转换。最适用于实验、提示词测试以及构建合成数据集,尤其是以风格为重点的数据集。模型文件:https://huggingface.co/Alissonerdx/LTX-LoRAs/blob/main/ltx23_edit_anything_global_rank128_v1_9000steps_adamw.safetensors |
选择最适合您的模型即可。
这些图像修复 LoRA 是在特定的引导和遮罩设置下训练的,因此推理过程中的输入准备至关重要。
在推理时,不应将遮罩作为单独的通道传递。
遮罩必须嵌入到引导视频中,这意味着:
必须被视为单个视频。
之后,您需要使用 LTXVAddGuideMulti 节点将引导视频传入模型。
为确保推理结果与训练设置一致,颜色至关重要:
(255, 0, 255)(0, 255, 0)我的数据集中包含遮罩更区块化的样本。换句话说,默认模式使用8x8的区块。
为了在推理时更好地复现训练条件,您可以使用:
Blockify Mask(区块化遮罩)这有助于使遮罩的分布更接近模型在训练时所见到的情况。
对于新的基于参考图的修复LoRA,这一点尤为重要:
Lightricks/LTX-2.3对于本仓库中的修复LoRA:
ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors**最佳方法是在您的工作流程中比较这几个模型,因为偏好可能会根据场景、遮罩和提示词的不同而有所变化。
训练状态:此训练仍在进行中,随着新实验和检查点的测试,该模型可能会不定期更新。
本仓库还包含一个用于视频编辑的实验性“编辑一切”LoRA。
模型文件:ltx23_edit_anything_global_rank128_v1_9000steps_adamw.safetensors
模型位置:https://huggingface.co/Alissonerdx/LTX-LoRAs/blob/main/ltx23_edit_anything_global_rank128_v1_9000steps_adamw.safetensors
推荐工作流:ltx23_edit_anything_v1
此LoRA是在8000对视频样本上训练的,其设计更多是作为研究/实验性检查点,而非完全 polished 的专业生产模型。
因此,应对其抱有相应的期望:
训练标注围绕四种核心任务类型进行组织:
添加
在场景中的[精确位置]添加一个具有[清晰视觉属性]的[主体/物体]。
移除
移除[位置或识别描述]处的[主体/物体]。
替换
将[位置]处的[原始主体/物体]替换为一个具有[清晰视觉属性]的[新主体/物体]。
转换/风格化
将视频转换为[风格名称]风格。
效果最佳的提示词通常具有以下特点:
训练提示词中一些最常见的物体类别包括:
实际上,模型处理了大量:
训练提示词中包含的一些较有趣的风格有:
该模型的一个最大推理因素是CFG(分类器自由引导)。
一个良好的起点是首先测试蒸馏模型,并将CFG 设置为 1。
如果编辑效果太弱或模型未能充分遵循提示词,提高CFG可能是关键。
在某些情况下,将蒸馏 LoRA 的强度增加到约1.2也可能有所帮助。
另一种有用的设置是将基础模型与蒸馏 LoRA结合使用,因为这样可以提供更大的调整空间来平衡:
这通常是达成以下方面更稳定平衡的更好方法:
提示词:
在木质柜台的右侧添加一台带有白色按键和银色装饰的黑色复古打字机。
提示词:
移除画面中央站立的人。
提示词:
将道路上的蓝色汽车替换为一艘占据原位置的大型白蓝相间的轮船。
提示词:
将视频转换为水彩画风格。
模型: ltx23_inpaint_rank128_v1_02500steps.safetensors
视频: videos/sample_1_inpaint_2500.mp4
提示词:
模型: ltx23_inpaint_rank128_v1_10000steps.safetensors
视频: videos/sample_1_inpaint_10000.mp4
提示词:
此 LoRA 有两种使用方式:
需要注意的一个实际问题是 身份泄露。在某些场景中,如果提示词不够具体,模型可能会从源场景中已有的其他角色复制身份特征或视觉细节,而非严格遵循预期的参考图。这对于全身参考图尤为重要,因此提示词的特异性至关重要。
模型: ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors
视频: videos/sample_1_masked_r2v_3000.mp4
提示词:
一个酷似唐纳德·特朗普的男子在舞台上弹奏电吉他,做出充满活力的表演动作,姿态自信,肢体语言富有表现力,展现出动态的摇滚明星态度。他在表演时戏剧性地抱着吉他,配合舞台灯光、动作和热烈的音乐会氛围。
说明: 本示例使用了全身参考图。提示词必须非常具体,否则模型会从场景中已有的另一个角色泄露身份细节,而不是遵循预期的参考图。在实际应用中,这意味着提示词的明确性对于减少身份泄露至关重要。
模型: ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors
视频: videos/sample_2_masked_r2v_3000.mp4
提示词:
一个夜间山路漂移场景,一辆特斯拉Cybertruck在急转弯处进行戏剧性的高速漂移,车身侧滑过沥青路面,动作凌厉,充满强劲的驾驶能量。Cybertruck具有标志性的棱角分明的三角形楔形车身、金属面板、锐利的几何轮廓、明亮的前大灯和清晰可见的未来主义设计。轮胎烟雾和漂移轨迹尾随车辆,与原始动作场景的速度和强度相匹配。街灯照亮道路,背景森林黑暗茂密,相机视角低而富有电影感,强调动作、速度和控制力。Cybertruck完全融入场景,具有真实的比例、灯光、阴影、反射和地面接触效果。
模型: ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors
视频: videos/sample_3_masked_r2v_3000.mp4
提示词:
一个夜间山路漂移场景,一辆经典大众甲壳虫在急转弯处进行戏剧性的高速漂移,车身侧滑过沥青路面,充满强烈的动感和驾驶活力。甲壳虫具有其标志性的圆润车身、紧凑的复古造型、圆形前大灯、弧形车顶线以及清晰可见的独特经典设计。轮胎烟雾和漂移轨迹尾随车后,与原始动作场景的速度和强度相匹配。路灯照亮道路,森林背景保持黑暗茂密,相机视角低而富有电影感,强调动感、速度和控制力。甲壳虫以真实的比例、光照、阴影、反射和地面接触完美融入场景。
注意: 此示例表明,遮罩 R2V 模型也可以像纯文本修复模型一样使用,无需真实参考图。要实现这一点,只需发送一张空白图像来代替参考图像。
模型: ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors
视频: videos/sample_4_masked_r2v_3000.mp4
提示词:
一名男子在白天的乡村道路上骑老虎,老虎以戏剧性的类似 wheelie(后轮站立)的姿势向上扬起,与原始摩托车的动态动作和位置相匹配。老虎体型庞大、强壮且逼真,橙色皮毛、黑色条纹、强健肌肉和自然解剖结构清晰可见。男子平衡地骑在老虎背上,仿佛在特技表演中控制着它,身体姿势自然可信,充满强烈的运动能量。保持道路、相机角度、光照、阴影、背景和整体构图不变。场景应给人一种户外真实动作瞬间被捕捉的感觉。