HuggingFace镜像/LTX2.3-ICEdit-Insight
模型介绍文件和版本分析
下载使用量0

LTX2.3-ICEdit-Insight

Video restoration previewVideo HD enhancement preview
Watermark removal previewSubtitle removal preview

LTX2.3-ICEdit-Insight 是由 JoyFox Lab 开发的任务感知型视频修复与编辑模型系列,构建于 LTX-2.3 DiT 音视频基础模型 之上。

本版本聚焦于四大实用视频编辑方向:

  • 视频修复:退化恢复、压缩痕迹清除、模糊与降噪处理、受损细节修复。
  • 视频高清增强:超分辨率重建、细节还原、纹理锐化、感知质量提升。
  • 水印去除:标志清理、半透明叠加层移除、遮挡感知背景重建。
  • 字幕去除:硬字幕消除、标题清理、文字叠加层移除、时间稳定修复。

与传统帧级增强流水线不同,该模型系列在视频潜在空间中作为 生成式视频修复系统 运行。其设计旨在重建缺失或退化视觉内容的同时,保留全局结构、相机运动、物体身份及时间一致性。

项目链接:GitHub 项目 | JoyFox Hugging Face 主页

📦 模型文件

文件用途
ltx-2.3-edit-insight-dev-fp8.safetensorsLTX-2.3 编辑任务统一 Insight 基础 checkpoint
ltx2.3-video-restoration-general.safetensors视频修复、 artifact 清理、模糊与噪声恢复
ltx2.3-ic-video-upscale-general.safetensors视频高清增强、超分辨率及细节恢复
ltx2.3-ic-watermark-remove-general.safetensors水印去除与遮挡感知重建
ltx2.3-ic-subtitles-remove-general.safetensors字幕去除与文字叠加层清理

🎬 功能展示

视频修复视频高清增强
Video restoration previewVideo HD enhancement preview
水印去除字幕去除
Watermark removal previewSubtitle removal preview

视频修复视频高清增强
Video restoration preview 2Video HD enhancement preview 2
水印去除字幕去除
Watermark removal preview 2Subtitle removal preview 2

🚀 脚本使用说明

请从项目根目录运行所有脚本。

bash run_restoration.sh
bash run_hd.sh
bash run_hd.sh /path/to/input.mp4
bash run_watermark_rm.sh
bash run_watermark_rm.sh /path/to/input.mp4
bash run_subtitle_rm.sh
bash run_subtitle_rm.sh /path/to/input.mp4

💻 命令示例

视频修复

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python run_pipeline.py \
  --mode restoration \
  --video ./inputs/input_480p.mp4 \
  --prompt "Convert the video to ultra-high-definition quality while removing artifacts and rebuilding high-frequency details." \
  --output ./outputs/output_restoration.mp4 \
  --height 1184 --width 704 --num-frames 97 \
  --fps 24.0 --seed 42 \
  --sigma-profile workflow \
  --streaming-prefetch-count 2 \
  --model-checkpoint ./models/checkpoints/ltx-2.3-edit-insight-dev-fp8.safetensors \
  --lora ./models/loras/ltx2.3-train/ltx2.3-video-restoration-general.safetensors

视频高清增强

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python run_pipeline.py \
  --mode hd \
  --video ./inputs/input_480p.mp4 \
  --prompt "Convert the video to ultra-high-definition quality, significantly improving clarity, fine detail richness, texture fidelity, and overall perceptual sharpness." \
  --output ./outputs/output_hd.mp4 \
  --height 1184 --width 704 --num-frames 97 \
  --fps 24.0 --seed 42 \
  --sigma-profile workflow \
  --streaming-prefetch-count 2 \
  --model-checkpoint ./models/checkpoints/ltx-2.3-edit-insight-dev-fp8.safetensors \
  --lora ./models/loras/ltx2.3-train/ltx2.3-ic-video-upscale-general.safetensors

水印去除

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python run_pipeline.py \
  --mode watermark_rm \
  --video ./inputs/input_480p.mp4 \
  --prompt "Remove short-video platform watermarks and related occlusions from the video, restoring a clean, clear, and natural original image." \
  --output ./outputs/output_watermark_rm.mp4 \
  --height 1184 --width 704 --num-frames 97 \
  --fps 24.0 --seed 1546 \
  --sigma-profile workflow \
  --streaming-prefetch-count 2 \
  --model-checkpoint ./models/checkpoints/ltx-2.3-edit-insight-dev-fp8.safetensors \
  --lora ./models/loras/ltx2.3-train/ltx2.3-ic-watermark-remove-general.safetensors

字幕去除

PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True \
python run_pipeline.py \
  --mode subtitle_rm \
  --video ./inputs/input_480p.mp4 \
  --prompt "Remove subtitles, captions, and related text occlusions from the video, restoring a clean and natural underlying image." \
  --output ./outputs/output_subtitle_rm.mp4 \
  --height 1184 --width 704 --num-frames 97 \
  --fps 24.0 --seed 42 \
  --sigma-profile workflow \
  --streaming-prefetch-count 2 \
  --model-checkpoint ./models/checkpoints/ltx-2.3-edit-insight-dev-fp8.safetensors \
  --lora ./models/loras/ltx2.3-train/ltx2.3-ic-subtitles-remove-general.safetensors

✨ 主要改进

任务感知型 IC-Edit 框架

我们为 LTX2.3 引入了任务感知型 IC-Edit 训练框架,其中每个修复方向都通过专用的指令条件和任务特定的 IC-LoRA 适配器进行优化。

该模型的训练不仅旨在提升视觉质量,还致力于理解不同修复任务背后的编辑目标,包括水印去除、字幕清理、受损区域恢复以及高清增强。

LTX-2.3 DiT 骨干网络适配

该模型系列构建于 LTX-2.3 基础架构之上,这是一种扩散变换器视频模型,专为高保真图像到视频及视频生成工作流而设计。

我们的适配针对视频修复,通过改进以下方面实现:

  • latent-space 可编辑性
  • 指令遵循行为
  • 帧间稳定性
  • 高频细节恢复
  • 退化或遮挡区域周围的局部重建

时空一致性优化

视频修复不仅需要强大的单帧质量。我们对时间一致性进行优化,确保修复区域在相邻帧之间保持稳定。

这减少了常见的伪影,例如:

  • 纹理闪烁
  • 重建背景不稳定
  • 水印去除不一致
  • 字幕残影
  • 帧间颜色偏移
  • 运动过程中的细节突现

退化感知型训练课程

训练课程涵盖了真实的视频缺陷,包括:

  • 压缩伪影
  • 运动模糊
  • 传感器噪声
  • 低比特率视频
  • 文字叠加
  • 硬字幕
  • 半透明水印
  • 平台徽标
  • 局部遮挡
  • 低分辨率输入

这提高了在短视频、社交媒体片段、手机素材、下载视频和压缩制作素材上的泛化能力。

遮挡感知型重建

针对水印和字幕去除,该模型经过优化,能够重建遮挡区域背后隐藏的视觉内容。

它不是对目标区域进行涂抹或模糊处理,而是利用周围的空间上下文和时间线索来推断合理的背景结构、物体边界、光照和纹理连续性。

频率增强高清修复

在高清增强方面,该模型通过频率感知修复训练提升了感知锐度和精细视觉细节。

这对于恢复以下内容尤其有帮助:

  • 发丝
  • 织物纹理
  • 皮肤细节
  • 产品边缘
  • 背景图案
  • 类排版精细结构
  • 自然图像清晰度

🧠 推理说明

  • 大多数编辑任务建议使用单阶段推理。
  • 两阶段优化可提升视觉效果,但可能会削弱特定任务的LoRA约束。
  • 当遮挡区域稳定且不过大时,水印和字幕去除效果最佳。
  • 高清增强质量取决于输入分辨率、运动复杂度和压缩程度。
  • 更高的输出分辨率能提升细节,但需要更多显存(VRAM)。
  • 对于强运动视频,建议使用保守的去噪设置以保留时间结构。
  • 帧数应遵循“8k + 1”规则。
  • 单阶段推理中,输出高度和宽度应为32的倍数。

🏗️ 训练

该模型系列由JoyFox Lab(成都玄狐科技有限公司)训练和优化。

训练流程包括:

  • 任务感知视频修复数据构建
  • 退化合成与课程训练
  • 针对四个编辑方向的IC-LoRA专项优化
  • 时间一致性正则化
  • 遮挡感知重建训练
  • 高频感知增强
  • 指令引导视频编辑优化

📬 联系方式

如需研究合作、商业授权或工作流集成,请联系:

  • z@vvicat.com

📜 许可证

基于Apache 2.0许可证授权。

使用或再分发衍生检查点时,还请同时查阅上游LTX-2.3基础模型的许可条款。