🎬 探索长视频生成的前沿领域
官方模型权重,用于分钟级多镜头音视频生成,具备蒸馏DMD生成器、配对跨模态记忆及故事级一致性。
📄 技术报告 | 💻 推理代码 | 🧬 模型 | 🚀 使用方法 | 📊 结果 | 📝 引用
Echo-LongVideo(又名JoyAI-Echo)是一款长时长、多镜头的音视频生成模型。其跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性,而结合基于记忆的强化学习与分布匹配蒸馏(DMD)的训练后处理流程,则实现了7.5倍的推理速度提升,同时确保质量不受损。
在人工评估中,Echo-LongVideo在长视频生成任务上显著优于HappyOyster(导演模式),并在以人为中心的任务上超越了短视频专业模型Wan 2.6。
本仓库包含已发布的检查点。推理代码将单独发布——详见使用方法部分。
google/gemma-3-12b-it(需单独下载)推理需通过独立的 Echo-LongVideo 推理仓库运行。
huggingface-cli download <org>/Echo-LongVideo \
--local-dir checkpoints同时下载 Gemma 文本编码器:
huggingface-cli download google/gemma-3-12b-it \
--local-dir checkpoints/gemma-3-12b预期布局:
checkpoints/
├── echo-longvideo-release.safetensors
└── gemma-3-12b/git clone https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo.git
cd JoyAI-Echo环境:Python 3.11 + PyTorch 2.8 + CUDA 12.8(详见推理仓库的 environment.yml / requirements.txt)。
请先优化您的提示词。 我们提供了提示词优化器——一种系统提示词,可将简短的故事或想法扩展为格式规范的镜头提示词:prompts/long_story_writer_system_prompt.md 适用于长篇、多镜头视频,prompts/short_story_writer_system_prompt.md 适用于单镜头短视频。我们强烈建议在推理前通过匹配的优化器处理您的输入;未经优化的提示词往往会产生明显较差的结果。
在 prompts/ 目录下创建一个 JSON 文件。每个文件为单个对象,包含一个 prompts 列表,其中每个字符串代表一个完整的镜头。单个字符串生成一个镜头;多个字符串生成一个多镜头故事,每个新镜头通过配对的音视频记忆库以前一个镜头为条件进行生成。
在每个字符串中,请按以下顺序编写这些部分:
| 部分 | 描述内容 |
|---|---|
| 角色与主体 | 描述所有可见人物的外貌,包括年龄、体型、发型、面容、服饰,以及适用时的说话语音音色。 |
| 动作与对话 | 主体的行为和所说的话。 |
| 风格 | 整体的视觉和情感美学——例如,写实的赛车电影语言、清爽的日光、克制的电影张力。 |
| 镜头运动 | 镜头类型、取景或运动方式——例如,稳定的面部特写,或从腰部以上拍摄的中景。 |
| 背景 | 主体身后的场景设置和细节。 |
| 音效与背景音乐 | 场景中的声音和背景音乐——例如,室内环境音、风声、脚步声和布料摩擦声,对话下方有轻柔低沉的音乐铺垫,或无背景音乐 |
我们将发布一个更便捷的提示词编写工作流,即导演智能体,供大家使用。
python inference.py输出文件保存在 inference_result/outputs/<prompt-name>/inference_<timestamp>/ 目录下。
在默认的 1280 × 736 × 241 帧设置下,GPU 峰值内存约为 46–50 GB,单张 H100/A100(80 GB)或 48 GB GPU 即可满足需求。对于显存较小的 GPU,可降低分辨率或减少帧数:
python inference.py --num-frames 121 --video-height 480 --video-width 832| 项目 | 数值 |
|---|---|
| 🎬 长时长连贯故事长度 | 5分钟 |
| ⚡ 相较原始多步骤流程的加速比 | 7.5倍 |
| 📚 基准故事数量 | 100个 |
| 🎞️ 生成的评估镜头数量 | 3,000个 |
| 🕒 每镜头帧数 | 241帧 @ 25 fps |
GSB 用户研究。数值为用户偏好百分比。
| 评估维度(长视频) | JoyAI-Echo | 平局 | HappyOyster (Directing) |
|---|---|---|---|
| 视觉美感 | 63.6% | 8.8% | 27.6% |
| 音频质量 | 81.7% | 6.5% | 11.8% |
| 提示词遵循度 | 80.6% | 13.5% | 5.9% |
| IP 一致性 | 59.4% | 12.9% | 27.7% |
| 评估维度(短视频) | JoyAI-Echo | 平局 | Wan 2.6 |
|---|---|---|---|
| 视觉美感 | 58.8% | 14.7% | 26.5% |
| 音频质量 | 32.3% | 30.9% | 36.8% |
| 提示词遵循度 | 33.8% | 36.8% | 29.4% |
我们衷心感谢 LTX-Video 提供的基础视频生成器,Gemma 提供的文本编码器,以及更广泛的开源社区。
如果 Echo-LongVideo 对您的研究或产品有所帮助,请引用:
@techreport{echo2026longvideo,
title = {Echo-LongVideo: Pushing the Frontier of Long Video Generation},
author = {{Echo Team @ Joy Future Academy, JD}},
institution = {Joy Future Academy, JD},
year = {2026},
month = {June},
url = {https://github.com/Echo-Team-Joy-Future-Academy-JD/JoyAI-Echo}
}本项目根据LTX-2 社区许可协议发布。下载或使用这些权重,即表示您同意其条款。捆绑的 Gemma 文本编码器受 Google 单独的 Gemma 许可协议约束。