LTX-2 VBVR LoRA - 视频推理

基于 VBVR（A Very Big Video Reasoning Suite，超大规模视频推理套件）数据集对 LTX-2.3 22B 模型进行 LoRA 微调得到的权重。

训练数据

为确保训练质量，我们对官方数据集中的全部 100 万条视频进行了预处理，并在训练过程中进行随机采样以保持数据多样性。我们采用官方参数，设置 batch_size=16、rank=32，以防止因 rank 过大而导致的灾难性遗忘。

VBVR 数据集包含 100 个推理任务类别，每个任务约有 10,000 个变体，总计约 100 万条视频。主要任务类型包括：

物体轨迹：物体移动至目标位置
物理推理：球体滚动、碰撞、重力作用
因果关系：条件触发、连锁反应
空间关系：相对位置、路径规划

模型详情

项目	详情
基础模型	ltx-2.3-22b-dev
训练方法	LoRA 微调
LoRA 秩	32
有效批大小	16
混合精度	BF16

待办清单

数据集发布计划

数据集	视频数量	状态
VBVR-96K	96,000	✅ 已发布
VBVR-240K	240,000	✅ 已发布
VBVR-final	240K+150K	🔄 处理中

LoRA 功能

此 LoRA 适配器增强了基础 LTX-2 模型在生产级视频生成工作流中的表现：

复杂提示理解能力增强：准确解读包含多物体、多条件的提示，以及详细的空间描述和时间序列，减少生产场景中的提示误解问题。
运动动态效果提升：生成平滑且符合物理规律的物体运动，具备自然的加速、减速和轨迹曲线，避免机械或不自然的运动模式。
时间一致性：在整个视频序列中保持物体外观、光照和场景的连贯性，减少生成视频中常见的闪烁和帧间伪影。
精确时序控制：能够基于提示语义，对动作持续时间、节奏以及多个运动元素之间的同步进行精确控制。
多物体交互：处理包含多个物体同时交互的复杂场景，包括碰撞、跟随、避让和协同运动。
相机与构图稳定性：在整个序列中保持一致的相机视角和构图，避免不必要的相机抖动或意外的视角变化。

训练配置

配置项	数值
学习率	1e-4
调度器	Cosine
梯度累积	16 步
梯度裁剪	1.0
优化器	AdamW

视频演示

训练进度对比

原始模型

官方 VBVR LoRA

我们的 VBVR LoRA（240K）

数据集

本模型基于 video-reason.com 提供的 VBVR（Video Benchmark for Video Reasoning，视频推理视频基准）数据集进行训练。

联系方式

如有问题或建议，请在 Hugging Face 上提交 issue，或直接联系作者。

训练数据

VBVR 数据集包含 100 个推理任务类别，每个任务约有 10,000 个变体，总计约 100 万条视频。主要任务类型包括：

物体轨迹：物体移动至目标位置

物理推理：球体滚动、碰撞、重力作用

因果关系：条件触发、连锁反应

空间关系：相对位置、路径规划

项目

详情

基础模型

ltx-2.3-22b-dev

训练方法

LoRA 微调

LoRA 秩

有效批大小

混合精度

BF16

数据集

视频数量

状态

VBVR-96K

96,000

✅ 已发布

VBVR-240K

240,000

✅ 已发布

VBVR-final

240K+150K

🔄 处理中

LoRA 功能

此 LoRA 适配器增强了基础 LTX-2 模型在生产级视频生成工作流中的表现：

复杂提示理解能力增强：准确解读包含多物体、多条件的提示，以及详细的空间描述和时间序列，减少生产场景中的提示误解问题。

运动动态效果提升：生成平滑且符合物理规律的物体运动，具备自然的加速、减速和轨迹曲线，避免机械或不自然的运动模式。

时间一致性：在整个视频序列中保持物体外观、光照和场景的连贯性，减少生成视频中常见的闪烁和帧间伪影。

精确时序控制：能够基于提示语义，对动作持续时间、节奏以及多个运动元素之间的同步进行精确控制。

多物体交互：处理包含多个物体同时交互的复杂场景，包括碰撞、跟随、避让和协同运动。

相机与构图稳定性：在整个序列中保持一致的相机视角和构图，避免不必要的相机抖动或意外的视角变化。

配置项

数值

学习率

1e-4

调度器

Cosine

梯度累积

16 步

梯度裁剪

1.0

优化器

AdamW