Echo-LongVideo generated video gallery

Echo-LongVideo

🎬 探索长视频生成的前沿领域

官方模型权重，用于分钟级多镜头音视频生成，具备蒸馏DMD生成器、配对跨模态记忆及故事级一致性。

📄 技术报告 | 💻 推理代码 | 🧬 模型 | 🚀 使用方法 | 📊 结果 | 📝 引用

Text-to-Video Audio + Video 5 minute long video Model Weights

模型概述

Echo-LongVideo（又名JoyAI-Echo）是一款长时长、多镜头的音视频生成模型。其跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性，而结合基于记忆的强化学习与分布匹配蒸馏（DMD）的训练后处理流程，则实现了7.5倍的推理速度提升，同时确保质量不受损。

在人工评估中，Echo-LongVideo在长视频生成任务上显著优于HappyOyster（导演模式），并在以人为中心的任务上超越了短视频专业模型Wan 2.6。

本仓库包含已发布的检查点。推理代码将单独发布——详见使用方法部分。

模型详情

开发团队： 京东 Joy Future Academy 回声团队
模型类型： 文本到（音频+视频）扩散转换器，DMD 8步
模态： 文本→同步视频+音频
基础架构： 基于 LTX-Video 构建
文本编码器： google/gemma-3-12b-it（需单独下载）
默认分辨率/长度： 1280 × 736，每镜头 241 帧 @ 25 fps
最长故事时长： 可达 5 分钟（多镜头）
许可证： LTX-2 社区许可协议

亮点

🎞️ 单提示 JSON 生成分钟级多镜头故事。
⚡ DMD 蒸馏少步推理，比原始 pipeline 快约 7.5 倍。
🔊 单一 pipeline 内联合音视频生成。
🧠 配对跨模态记忆库，确保故事级别的角色身份与语音一致性。

使用方法

推理需通过独立的 Echo-LongVideo 推理仓库运行。

1. 下载检查点

huggingface-cli download <org>/Echo-LongVideo \
  --local-dir checkpoints

同时下载 Gemma 文本编码器：

huggingface-cli download google/gemma-3-12b-it \
  --local-dir checkpoints/gemma-3-12b

预期布局：

checkpoints/
├── echo-longvideo-release.safetensors
└── gemma-3-12b/

2. 获取推理代码

git clone https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo.git
cd JoyAI-Echo

环境：Python 3.11 + PyTorch 2.8 + CUDA 12.8（详见推理仓库的 environment.yml / requirements.txt）。

3. 编写故事提示词

请先优化您的提示词。 我们提供了提示词优化器——一种系统提示词，可将简短的故事或想法扩展为格式规范的镜头提示词：prompts/long_story_writer_system_prompt.md 适用于长篇、多镜头视频，prompts/short_story_writer_system_prompt.md 适用于单镜头短视频。我们强烈建议在推理前通过匹配的优化器处理您的输入；未经优化的提示词往往会产生明显较差的结果。

在 prompts/ 目录下创建一个 JSON 文件。每个文件为单个对象，包含一个 prompts 列表，其中每个字符串代表一个完整的镜头。单个字符串生成一个镜头；多个字符串生成一个多镜头故事，每个新镜头通过配对的音视频记忆库以前一个镜头为条件进行生成。

在每个字符串中，请按以下顺序编写这些部分：

部分	描述内容
角色与主体	描述所有可见人物的外貌，包括年龄、体型、发型、面容、服饰，以及适用时的说话语音音色。
动作与对话	主体的行为和所说的话。
风格	整体的视觉和情感美学——例如，写实的赛车电影语言、清爽的日光、克制的电影张力。
镜头运动	镜头类型、取景或运动方式——例如，稳定的面部特写，或从腰部以上拍摄的中景。
背景	主体身后的场景设置和细节。
音效与背景音乐	场景中的声音和背景音乐——例如，室内环境音、风声、脚步声和布料摩擦声，对话下方有轻柔低沉的音乐铺垫，或无背景音乐

我们将发布一个更便捷的提示词编写工作流，即导演智能体，供大家使用。

4. 运行

python inference.py

输出文件保存在 inference_result/outputs/<prompt-name>/inference_<timestamp>/ 目录下。

硬件要求

在默认的 1280 × 736 × 241 帧设置下，GPU 峰值内存约为 46–50 GB，单张 H100/A100（80 GB）或 48 GB GPU 即可满足需求。对于显存较小的 GPU，可降低分辨率或减少帧数：

python inference.py --num-frames 121 --video-height 480 --video-width 832

结果

报告规模

项目	数值
🎬 长时长连贯故事长度	5分钟
⚡ 相较原始多步骤流程的加速比	7.5倍
📚 基准故事数量	100个
🎞️ 生成的评估镜头数量	3,000个
🕒 每镜头帧数	241帧 @ 25 fps

人工评估

GSB 用户研究。数值为用户偏好百分比。

评估维度（长视频）	JoyAI-Echo	平局	HappyOyster (Directing)
视觉美感	63.6%	8.8%	27.6%
音频质量	81.7%	6.5%	11.8%
提示词遵循度	80.6%	13.5%	5.9%
IP 一致性	59.4%	12.9%	27.7%

评估维度（短视频）	JoyAI-Echo	平局	Wan 2.6
视觉美感	58.8%	14.7%	26.5%
音频质量	32.3%	30.9%	36.8%
提示词遵循度	33.8%	36.8%	29.4%

致谢

我们衷心感谢 LTX-Video 提供的基础视频生成器，Gemma 提供的文本编码器，以及更广泛的开源社区。

引用

如果 Echo-LongVideo 对您的研究或产品有所帮助，请引用：

@techreport{echo2026longvideo,
  title        = {Echo-LongVideo: Pushing the Frontier of Long Video Generation},
  author       = {{Echo Team @ Joy Future Academy, JD}},
  institution  = {Joy Future Academy, JD},
  year         = {2026},
  month        = {June},
  url          = {https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo}
}

许可协议

本项目根据LTX-2 社区许可协议发布。下载或使用这些权重，即表示您同意其条款。捆绑的 Gemma 文本编码器受 Google 单独的 Gemma 许可协议约束。