HuggingFace镜像/Ltx2.3-VBVR-lora-I2V
模型介绍文件和版本分析
下载使用量0

LTX-2 VBVR LoRA - 视频推理

基于 VBVR(A Very Big Video Reasoning Suite,超大规模视频推理套件)数据集对 LTX-2.3 22B 模型进行 LoRA 微调得到的权重。

训练数据

为确保训练质量,我们对官方数据集中的全部 100 万条视频进行了预处理,并在训练过程中进行随机采样以保持数据多样性。我们采用官方参数,设置 batch_size=16、rank=32,以防止因 rank 过大而导致的灾难性遗忘。

VBVR 数据集包含 100 个推理任务类别,每个任务约有 10,000 个变体,总计约 100 万条视频。主要任务类型包括:

  • 物体轨迹:物体移动至目标位置
  • 物理推理:球体滚动、碰撞、重力作用
  • 因果关系:条件触发、连锁反应
  • 空间关系:相对位置、路径规划

模型详情

项目详情
基础模型ltx-2.3-22b-dev
训练方法LoRA 微调
LoRA 秩32
有效批大小16
混合精度BF16

待办清单

数据集发布计划

数据集视频数量状态
VBVR-96K96,000✅ 已发布
VBVR-240K240,000✅ 已发布
VBVR-final240K+150K🔄 处理中

LoRA 功能

此 LoRA 适配器增强了基础 LTX-2 模型在生产级视频生成工作流中的表现:

  • 复杂提示理解能力增强:准确解读包含多物体、多条件的提示,以及详细的空间描述和时间序列,减少生产场景中的提示误解问题。

  • 运动动态效果提升:生成平滑且符合物理规律的物体运动,具备自然的加速、减速和轨迹曲线,避免机械或不自然的运动模式。

  • 时间一致性:在整个视频序列中保持物体外观、光照和场景的连贯性,减少生成视频中常见的闪烁和帧间伪影。

  • 精确时序控制:能够基于提示语义,对动作持续时间、节奏以及多个运动元素之间的同步进行精确控制。

  • 多物体交互:处理包含多个物体同时交互的复杂场景,包括碰撞、跟随、避让和协同运动。

  • 相机与构图稳定性:在整个序列中保持一致的相机视角和构图,避免不必要的相机抖动或意外的视角变化。

训练配置

配置项数值
学习率1e-4
调度器Cosine
梯度累积16 步
梯度裁剪1.0
优化器AdamW

视频演示

训练进度对比

原始模型

官方 VBVR LoRA

我们的 VBVR LoRA(240K)

数据集

本模型基于 video-reason.com 提供的 VBVR(Video Benchmark for Video Reasoning,视频推理视频基准)数据集进行训练。

联系方式

如有问题或建议,请在 Hugging Face 上提交 issue,或直接联系作者。