LTX2.3-ICEdit-Insight

LTX2.3-ICEdit-Insight 是由 JoyFox Lab 开发的任务感知型视频修复与编辑模型系列，构建于 LTX-2.3 DiT 音视频基础模型 之上。

本版本聚焦于四大实用视频编辑方向：

视频修复：退化恢复、压缩痕迹清除、模糊与降噪处理、受损细节修复。
视频高清增强：超分辨率重建、细节还原、纹理锐化、感知质量提升。
水印去除：标志清理、半透明叠加层移除、遮挡感知背景重建。
字幕去除：硬字幕消除、标题清理、文字叠加层移除、时间稳定修复。

与传统帧级增强流水线不同，该模型系列在视频潜在空间中作为 生成式视频修复系统 运行。其设计旨在重建缺失或退化视觉内容的同时，保留全局结构、相机运动、物体身份及时间一致性。

项目链接：GitHub 项目 | JoyFox Hugging Face 主页

📦 模型文件

文件	用途
`ltx-2.3-edit-insight-dev-fp8.safetensors`	LTX-2.3 编辑任务统一 Insight 基础 checkpoint
`ltx2.3-video-restoration-general.safetensors`	视频修复、 artifact 清理、模糊与噪声恢复
`ltx2.3-ic-video-upscale-general.safetensors`	视频高清增强、超分辨率及细节恢复
`ltx2.3-ic-watermark-remove-general.safetensors`	水印去除与遮挡感知重建
`ltx2.3-ic-subtitles-remove-general.safetensors`	字幕去除与文字叠加层清理

🎬 功能展示

视频修复	视频高清增强

水印去除	字幕去除

视频修复	视频高清增强

水印去除	字幕去除

🚀 脚本使用说明

请从项目根目录运行所有脚本。

bash run_restoration.sh
bash run_hd.sh
bash run_hd.sh /path/to/input.mp4
bash run_watermark_rm.sh
bash run_watermark_rm.sh /path/to/input.mp4
bash run_subtitle_rm.sh
bash run_subtitle_rm.sh /path/to/input.mp4

💻 命令示例

视频修复

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python run_pipeline.py \
  --mode restoration \
  --video ./inputs/input_480p.mp4 \
  --prompt "Convert the video to ultra-high-definition quality while removing artifacts and rebuilding high-frequency details." \
  --output ./outputs/output_restoration.mp4 \
  --height 1184 --width 704 --num-frames 97 \
  --fps 24.0 --seed 42 \
  --sigma-profile workflow \
  --streaming-prefetch-count 2 \
  --model-checkpoint ./models/checkpoints/ltx-2.3-edit-insight-dev-fp8.safetensors \
  --lora ./models/loras/ltx2.3-train/ltx2.3-video-restoration-general.safetensors

视频高清增强

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python run_pipeline.py \
  --mode hd \
  --video ./inputs/input_480p.mp4 \
  --prompt "Convert the video to ultra-high-definition quality, significantly improving clarity, fine detail richness, texture fidelity, and overall perceptual sharpness." \
  --output ./outputs/output_hd.mp4 \
  --height 1184 --width 704 --num-frames 97 \
  --fps 24.0 --seed 42 \
  --sigma-profile workflow \
  --streaming-prefetch-count 2 \
  --model-checkpoint ./models/checkpoints/ltx-2.3-edit-insight-dev-fp8.safetensors \
  --lora ./models/loras/ltx2.3-train/ltx2.3-ic-video-upscale-general.safetensors

水印去除

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python run_pipeline.py \
  --mode watermark_rm \
  --video ./inputs/input_480p.mp4 \
  --prompt "Remove short-video platform watermarks and related occlusions from the video, restoring a clean, clear, and natural original image." \
  --output ./outputs/output_watermark_rm.mp4 \
  --height 1184 --width 704 --num-frames 97 \
  --fps 24.0 --seed 1546 \
  --sigma-profile workflow \
  --streaming-prefetch-count 2 \
  --model-checkpoint ./models/checkpoints/ltx-2.3-edit-insight-dev-fp8.safetensors \
  --lora ./models/loras/ltx2.3-train/ltx2.3-ic-watermark-remove-general.safetensors

字幕去除

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python run_pipeline.py \
  --mode subtitle_rm \
  --video ./inputs/input_480p.mp4 \
  --prompt "Remove subtitles, captions, and related text occlusions from the video, restoring a clean and natural underlying image." \
  --output ./outputs/output_subtitle_rm.mp4 \
  --height 1184 --width 704 --num-frames 97 \
  --fps 24.0 --seed 42 \
  --sigma-profile workflow \
  --streaming-prefetch-count 2 \
  --model-checkpoint ./models/checkpoints/ltx-2.3-edit-insight-dev-fp8.safetensors \
  --lora ./models/loras/ltx2.3-train/ltx2.3-ic-subtitles-remove-general.safetensors

✨ 主要改进

任务感知型 IC-Edit 框架

我们为 LTX2.3 引入了任务感知型 IC-Edit 训练框架，其中每个修复方向都通过专用的指令条件和任务特定的 IC-LoRA 适配器进行优化。

该模型的训练不仅旨在提升视觉质量，还致力于理解不同修复任务背后的编辑目标，包括水印去除、字幕清理、受损区域恢复以及高清增强。

LTX-2.3 DiT 骨干网络适配

该模型系列构建于 LTX-2.3 基础架构之上，这是一种扩散变换器视频模型，专为高保真图像到视频及视频生成工作流而设计。

我们的适配针对视频修复，通过改进以下方面实现：

latent-space 可编辑性
指令遵循行为
帧间稳定性
高频细节恢复
退化或遮挡区域周围的局部重建

时空一致性优化

视频修复不仅需要强大的单帧质量。我们对时间一致性进行优化，确保修复区域在相邻帧之间保持稳定。

这减少了常见的伪影，例如：

纹理闪烁
重建背景不稳定
水印去除不一致
字幕残影
帧间颜色偏移
运动过程中的细节突现

退化感知型训练课程

训练课程涵盖了真实的视频缺陷，包括：

压缩伪影
运动模糊
传感器噪声
低比特率视频
文字叠加
硬字幕
半透明水印
平台徽标
局部遮挡
低分辨率输入

这提高了在短视频、社交媒体片段、手机素材、下载视频和压缩制作素材上的泛化能力。

遮挡感知型重建

针对水印和字幕去除，该模型经过优化，能够重建遮挡区域背后隐藏的视觉内容。

它不是对目标区域进行涂抹或模糊处理，而是利用周围的空间上下文和时间线索来推断合理的背景结构、物体边界、光照和纹理连续性。

频率增强高清修复

在高清增强方面，该模型通过频率感知修复训练提升了感知锐度和精细视觉细节。

这对于恢复以下内容尤其有帮助：

发丝
织物纹理
皮肤细节
产品边缘
背景图案
类排版精细结构
自然图像清晰度

🧠 推理说明

大多数编辑任务建议使用单阶段推理。
两阶段优化可提升视觉效果，但可能会削弱特定任务的LoRA约束。
当遮挡区域稳定且不过大时，水印和字幕去除效果最佳。
高清增强质量取决于输入分辨率、运动复杂度和压缩程度。
更高的输出分辨率能提升细节，但需要更多显存（VRAM）。
对于强运动视频，建议使用保守的去噪设置以保留时间结构。
帧数应遵循“8k + 1”规则。
单阶段推理中，输出高度和宽度应为32的倍数。

🏗️ 训练

该模型系列由JoyFox Lab（成都玄狐科技有限公司）训练和优化。

训练流程包括：

任务感知视频修复数据构建
退化合成与课程训练
针对四个编辑方向的IC-LoRA专项优化
时间一致性正则化
遮挡感知重建训练
高频感知增强
指令引导视频编辑优化

📬 联系方式

如需研究合作、商业授权或工作流集成，请联系：

z@vvicat.com

📜 许可证

基于Apache 2.0许可证授权。

使用或再分发衍生检查点时，还请同时查阅上游LTX-2.3基础模型的许可条款。