我们推出 LongCat-Video,这是一款拥有 136 亿参数的基础视频生成模型,在文本生成视频(Text-to-Video)、图像生成视频(Image-to-Video)和视频续拍(Video-Continuation)任务中均展现出卓越性能。该模型尤其擅长高效生成高质量长视频,是我们迈向世界模型(world models)的第一步。
更多详情,请参阅完整的LongCat-Video 技术报告。
克隆仓库:
git clone https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video安装依赖项:
# create conda environment
conda create -n longcat-video python=3.10
conda activate longcat-video
# install torch (configure according to your CUDA version)
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
# install flash-attn-2
pip install ninja
pip install psutil
pip install packaging
pip install flash_attn==2.7.4.post1
# install other requirements
pip install -r requirements.txt模型配置中默认启用了 FlashAttention-2;您也可以修改模型配置以使用 FlashAttention-3 或 xformers。
| 模型 | 下载链接 |
|---|---|
| LongCat-Video | 🤗 Huggingface |
使用 huggingface-cli 下载模型:
pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video# Single-GPU inference
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Multi-GPU inference
torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile# Single-GPU inference
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Multi-GPU inference
torchrun --nproc_per_node=2 run_demo_image_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile# Single-GPU inference
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Multi-GPU inference
torchrun --nproc_per_node=2 run_demo_video_continuation.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile# Single-GPU inference
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Multi-GPU inference
torchrun --nproc_per_node=2 run_demo_long_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile# Single-GPU inference
torchrun run_demo_interactive_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Multi-GPU inference
torchrun --nproc_per_node=2 run_demo_interactive_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile# Single-GPU inference
streamlit run ./run_streamlit.py --server.fileWatcherType none --server.headless=false以下是在我们内部基准测试上的文本生成视频 MOS 评估结果。
| MOS 分数 | Veo3 | PixVerse-V5 | Wan 2.2-T2V-A14B | LongCat-Video |
|---|---|---|---|---|
| 可访问性 | 专有 | 专有 | 开源 | 开源 |
| 架构 | - | - | MoE | 密集型 |
| 总参数量 | - | - | 280 亿 | 136 亿 |
| 激活参数量 | - | - | 140 亿 | 136 亿 |
| 文本一致性↑ | 3.99 | 3.81 | 3.70 | 3.76 |
| 视觉质量↑ | 3.23 | 3.13 | 3.26 | 3.25 |
| 运动质量↑ | 3.86 | 3.81 | 3.78 | 3.74 |
| 整体质量↑ | 3.48 | 3.36 | 3.35 | 3.38 |
以下是在我们内部基准测试上的图像生成视频 MOS 评估结果。
| MOS 分数 | Seedance 1.0 | Hailuo-02 | Wan 2.2-I2V-A14B | LongCat-Video |
|---|---|---|---|---|
| 可访问性 | 专有 | 专有 | 开源 | 开源 |
| 架构 | - | - | MoE | 密集型 |
| 总参数量 | - | - | 280 亿 | 136 亿 |
| 激活参数量 | - | - | 140 亿 | 136 亿 |
| 图像一致性↑ | 4.12 | 4.18 | 4.18 | 4.04 |
| 文本一致性↑ | 3.70 | 3.85 | 3.33 | 3.49 |
| 视觉质量↑ | 3.22 | 3.18 | 3.23 | 3.27 |
| 运动质量↑ | 3.77 | 3.80 | 3.79 | 3.59 |
| 整体质量↑ | 3.35 | 3.27 | 3.26 | 3.17 |
欢迎社区贡献!请通过 PR 或在 Issue 中告知我们以添加您的成果。
模型权重以MIT 许可证发布。
除非另有说明,对本仓库的任何贡献均采用 MIT 许可证。本许可证不授予使用美团商标或专利的任何权利。
完整许可文本详见 LICENSE 文件。
本模型并非针对所有可能的下游应用场景进行专门设计或全面评估。
开发者应考虑大型语言模型的已知局限性,包括在不同语言间的性能差异,并在将模型部署于敏感或高风险场景前,仔细评估其准确性、安全性和公平性。开发者和下游用户有责任了解并遵守与其使用场景相关的所有适用法律法规,包括但不限于数据保护、隐私和内容安全要求。
本模型卡片中的任何内容均不应被解释为修改或限制模型发布所依据的MIT许可证条款。
如果您发现我们的工作有用,我们恳请您对其进行引用。
@misc{meituanlongcatteam2025longcatvideotechnicalreport,
title={LongCat-Video Technical Report},
author={Meituan LongCat Team and Xunliang Cai and Qilong Huang and Zhuoliang Kang and Hongyu Li and Shijun Liang and Liya Ma and Siyu Ren and Xiaoming Wei and Rixu Xie and Tong Zhang},
year={2025},
eprint={2510.22200},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2510.22200},
}感谢 Wan、UMT5-XXL、Diffusers 和 HuggingFace 代码仓库的贡献者们所开展的开放研究工作。
如有任何问题,请通过邮箱 longcat-team@meituan.com 与我们联系,或加入我们的微信群。