我们提出MultiTalk,这是一款开源的音频驱动多人对话视频生成模型,具备最先进的唇形同步精度。 主要特性:
- 💬 逼真对话 - 支持单人及多人视频生成
- 👥 交互式角色控制 - 通过提示词直接操控虚拟人物
- 🎤 泛化性能 - 支持卡通角色生成及歌唱场景
- 📺 分辨率灵活性:支持480p和720p输出,且可适应任意宽高比
- ⏱️ 长视频生成:支持最长15秒视频生成
本仓库包含MultiTalk的模型权重。有关安装、使用说明及更多文档,请访问我们的GitHub仓库。
我们提出了一种新颖的框架MultiTalk,用于音频驱动的多人对话视频生成。我们研究了多种音频注入方案,并引入了标签旋转位置嵌入(L-RoPE)方法。通过为音频嵌入和视频潜变量分配相同标签,该方法能有效激活音频交叉注意力图中的特定区域,从而解决错误绑定问题。为了定位指定人物区域,我们引入了自适应人物定位技术,通过计算参考图像中给定人物区域的特征与整个视频所有特征之间的相似度来实现。

如果您认为我们的研究工作对您有所帮助,请引用我们的成果。
@article{kong2025let,
title={Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation},
author={Kong, Zhe and Gao, Feng and Zhang, Yong and Kang, Zhuoliang and Wei, Xiaoming and Cai, Xunliang and Chen, Guanying and Luo, Wenhan},
journal={arXiv preprint arXiv:2505.22647},
year={2025}
}本仓库中的模型采用 Apache 2.0 许可协议进行许可。我们对您生成的内容不主张任何权利,授予您使用这些内容的自由,同时确保您的使用符合本许可协议的规定。您对模型的使用负全部责任,不得涉及分享任何违反适用法律、对个人或群体造成伤害、传播用于伤害目的的个人信息、散布错误信息或针对弱势群体的内容。