基于 VBVR(A Very Big Video Reasoning Suite,超大规模视频推理套件)数据集对 LTX-2.3 22B 模型进行 LoRA 微调得到的权重。
为确保训练质量,我们对官方数据集中的全部 100 万条视频进行了预处理,并在训练过程中进行随机采样以保持数据多样性。我们采用官方参数,设置 batch_size=16、rank=32,以防止因 rank 过大而导致的灾难性遗忘。
VBVR 数据集包含 100 个推理任务类别,每个任务约有 10,000 个变体,总计约 100 万条视频。主要任务类型包括:
| 项目 | 详情 |
|---|---|
| 基础模型 | ltx-2.3-22b-dev |
| 训练方法 | LoRA 微调 |
| LoRA 秩 | 32 |
| 有效批大小 | 16 |
| 混合精度 | BF16 |
| 数据集 | 视频数量 | 状态 |
|---|---|---|
| VBVR-96K | 96,000 | ✅ 已发布 |
| VBVR-240K | 240,000 | ✅ 已发布 |
| VBVR-final | 240K+150K | 🔄 处理中 |
此 LoRA 适配器增强了基础 LTX-2 模型在生产级视频生成工作流中的表现:
复杂提示理解能力增强:准确解读包含多物体、多条件的提示,以及详细的空间描述和时间序列,减少生产场景中的提示误解问题。
运动动态效果提升:生成平滑且符合物理规律的物体运动,具备自然的加速、减速和轨迹曲线,避免机械或不自然的运动模式。
时间一致性:在整个视频序列中保持物体外观、光照和场景的连贯性,减少生成视频中常见的闪烁和帧间伪影。
精确时序控制:能够基于提示语义,对动作持续时间、节奏以及多个运动元素之间的同步进行精确控制。
多物体交互:处理包含多个物体同时交互的复杂场景,包括碰撞、跟随、避让和协同运动。
相机与构图稳定性:在整个序列中保持一致的相机视角和构图,避免不必要的相机抖动或意外的视角变化。
| 配置项 | 数值 |
|---|---|
| 学习率 | 1e-4 |
| 调度器 | Cosine |
| 梯度累积 | 16 步 |
| 梯度裁剪 | 1.0 |
| 优化器 | AdamW |
原始模型
官方 VBVR LoRA
我们的 VBVR LoRA(240K)
本模型基于 video-reason.com 提供的 VBVR(Video Benchmark for Video Reasoning,视频推理视频基准)数据集进行训练。
如有问题或建议,请在 Hugging Face 上提交 issue,或直接联系作者。