我们很高兴地宣布 LongCat-Video-Avatar 1.5 版本正式发布。这是一款经过升级的开源框架,专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建,可生成高度稳定的商用级虚拟人视频,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务,并能无缝兼容单流与多流音频输入。
更多详情,请参阅完整的 LongCat-Video-Avatar-1.5 技术报告。
LongCat-Video-Avatar 1.5 支持多样化的应用场景,包括广播、表演、歌唱、电商营销、多人对话、动画及动物角色等。
我们针对音频驱动数字人生成任务,专门构建了一套全面的人工评估基准。该基准涵盖6个应用场景(新闻播报、知识教育、日常生活、娱乐、歌唱、商业推广)、2种语言(中文/英文)以及2种视觉风格(写实/动画),共包含508组图像-音频源对。评估方法如下:(1)主观评估:770名众包评估人员对每个生成视频的“类人度”进行1-5分评分,累计获得13,240条评价数据。(2)客观评估:10位领域专家从物理合理性、音画协调性、时间稳定性及身份一致性四个维度进行结构化质量分析。
评估结果如图所示:(a)专家级客观质量四维度评估 (b)与主流商业模型的主观类人度对比。
克隆仓库
git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video安装依赖项
# create conda environment
conda create -n longcat-video python=3.10
conda activate longcat-video
# install torch (configure according to your CUDA version)
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
# install flash-attn-2
pip install ninja
pip install psutil
pip install packaging
pip install flash_attn==2.7.4.post1
# install other requirements
pip install -r requirements.txt
# install longcat-video-avatar requirements
conda install -c conda-forge librosa
conda install -c conda-forge ffmpeg
pip install -r requirements_avatar.txt模型配置中默认启用 FlashAttention-2;您也可以修改模型配置以使用 FlashAttention-3 或 xformers。
| 模型 | 描述 | 下载链接 |
|---|---|---|
| LongCat-Video | 基础视频生成 | 🤗 Huggingface |
| LongCat-Video-Avatar-1.5 | 单角色与多角色音频驱动视频生成 | 🤗 Huggingface |
使用 huggingface-cli 下载模型:
pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5使用提示
- 唇形同步精度:Audio CFG 在 3–5 之间效果最佳。提高 audio CFG 值可获得更好的同步效果。
- 提示词增强:较长且描述性强的提示词比简短提示词能产生更一致、更自然的效果。我们建议包含丰富细节,例如人物外貌、动作和场景背景(例如:"一位留着黑色长发的年轻女子正在说话并微笑,穿着白色衬衫,坐在明亮的咖啡馆里")以获得最佳结果。
- 减轻重复动作:将参考图像索引(--ref_img_index,默认值为 10)设置在 0 到 24 之间可确保更好的一致性;将其设置为 30 有助于减少重复动作。此外,增加遮罩帧范围(--mask_frame_range,默认值为 3)可进一步帮助减轻重复动作,但过大的值可能会引入伪影。
- 超分辨率:我们的模型兼容 480P 和 720P,可通过 --resolution 进行控制。
- 双音频模式:合并模式(将 audio_type 设置为 para)需要两个等长的音频片段,结果音频通过将两个片段相加获得;拼接模式(将 audio_type 设置为 add)不需要等长输入,结果音频通过将两个片段按顺序拼接,并对任何间隙进行静音填充形成,默认情况下 person1 先发言,person2 后发言。
- 模型版本:
--model_type avatar-v1.0使用 wav2vec2 音频编码器(默认);--model_type avatar-v1.5使用 Whisper-large-v3 音频编码器,可获得更好的唇形同步质量。- 蒸馏模式:添加
--use_distill以启用蒸馏采样(步骤更少,推理更快)。使用--model_type avatar-v1.5时必须启用此模式。- INT8 量化:添加
--use_int8以加载 INT8 量化的 DiT 模型,从而减少显存占用。仅在--model_type avatar-v1.5下支持。
# Audio-Text-to-Video
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8
# Audio-Image-to-Video
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=ai2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8
# Audio-Text-to-Video and Video-Continuation
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --num_segments=5 --ref_img_index=10 --mask_frame_range=3 --use_distill --model_type avatar-v1.5 --use_int8
# Audio-Image-to-Video and Video-Continuation
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=ai2v --input_json=assets/avatar/single_example_1.json --num_segments=5 --ref_img_index=10 --mask_frame_range=3 --use_distill --model_type avatar-v1.5 --use_int8# Audio-Image-to-Video
torchrun --nproc_per_node=2 run_demo_avatar_multi_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --input_json=assets/avatar/multi_example_1.json --use_distill --model_type avatar-v1.5 --use_int8
# Audio-Image-to-Video and Video-Continuation
torchrun --nproc_per_node=2 run_demo_avatar_multi_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --input_json=assets/avatar/multi_example_1.json --num_segments=5 --ref_img_index=10 --mask_frame_range=3 --use_distill --model_type avatar-v1.5 --use_int8模型权重以MIT 许可协议发布。
除非另有说明,对本仓库的任何贡献均采用 MIT 许可协议。本许可协议不授予使用美团商标或专利的任何权利。
完整许可文本详见 LICENSE 文件。
本模型并非针对所有可能的下游应用进行专门设计或全面评估。
开发人员应考虑到大型语言模型的已知局限性,包括在不同语言间的性能差异,并在将模型部署到敏感或高风险场景前,仔细评估其准确性、安全性和公平性。开发人员和下游用户有责任了解并遵守与其使用场景相关的所有适用法律法规,包括但不限于数据保护、隐私和内容安全要求。
本模型卡片中的任何内容均不应被解释为修改或限制模型发布所依据的 MIT 许可协议条款。
如果您发现我们的工作有用,我们恳请您引用我们的成果。
@misc{meituanlongcatteam2025longcatvideoavatar15technicalreport,
title={LongCat-Video-Avatar 1.5 Technical Report},
author={Meituan LongCat Team},
year={2026},
eprint={},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={},
}感谢 Wan、UMT5-XXL、Diffusers 和 HuggingFace 代码仓库的贡献者们所开展的开源研究工作。
如有任何问题,请通过邮箱 longcat-team@meituan.com 与我们联系,或加入我们的微信群。