这是在LTX-2.3-22b基础上训练的IC-LoRA,可使LTX模型生成16位高动态范围内容。它支持文本/图像驱动的内容生成,以及从8位SDR到16位HDR的视频转换。
该模型基于LTX-2基础模型构建。
IC LoRA能够在推理时基于参考视频帧对视频生成进行条件控制,从而在文本到视频基础模型之上实现精细的视频到视频控制。 它还允许将初始图像用于图像到视频转换,并生成视听输出。
IC LoRA使用参考控制信号,即与生成视频位置对齐并包含上下文参考的视频。 为提高效率,参考视频可以更小,从而减少 token 消耗。 参考缩小因子决定了参考视频相对于生成分辨率的预期缩小比例。 为表明预期的参考尺寸,检查点名称中会包含“ref”分母,后跟相对于输出分辨率的比例。
ltx-2.3-22b-ic-lora-hdr-x.x.safetensors
详见LTX-2-community-license以获取完整条款。
models/loras 目录。该模型使用专有 HDR 数据集进行训练。
@article{hacohen2025ltx2,
title={LTX-2: Efficient Joint Audio-Visual Foundation Model},
author={HaCohen, Yoav and Brazowski, Benny and Chiprut, Nisan and Bitterman, Yaki and Kvochko, Andrew and Berkowitz, Avishai and Shalem, Daniel and Lifschitz, Daphna and Moshe, Dudu and Porat, Eitan and others},
journal={arXiv preprint arXiv:2601.03233},
year={2025}
}
@misc{LTXVideoTrainer2025,
title={LTX-Video Community Trainer},
author={Matan Ben Yosef and Naomi Ken Korem and Tavi Halperin},
year={2025},
publisher={GitHub},
}