OpenMOSS/MOVA-720p
模型介绍文件和版本Pull Requests讨论分析

MOVA:迈向可扩展且同步的视频-音频生成

我们推出MOVA(MOSS Video and Audio),这是一个旨在打破开源视频生成“无声时代”的基础模型。与将声音生成为事后补充的级联流水线不同,MOVA可同时合成视频和音频,实现完美对齐。

🌟核心亮点

  • 原生双模态生成:超越繁琐的级联流水线。MOVA通过单次推理即可生成高保真视频和同步音频,消除了误差累积。
  • 精准唇形同步与音效:在多语言唇形同步和环境感知音效方面达到了最先进的性能。
  • 完全开源:在一个由闭源模型(Sora 2、Veo 3、Kling)主导的领域,我们将发布模型权重、推理代码、训练流水线以及LoRA微调脚本。
  • 非对称双塔架构:利用预训练视频塔和音频塔的能力,通过双向交叉注意力机制进行融合,实现丰富的模态交互。

演示

模型详情

模型描述

MOVA通过提供用于图像到视频-音频(IT2VA)和文本到视频-音频(T2VA)任务的完全开源框架,解决了Sora 2和Veo 3等专有系统的局限性。该模型采用通过双向交叉注意力机制融合的非对称双塔架构,并利用混合专家(MoE)设计,总参数达320亿(推理时激活180亿),以确保高质量合成与高效部署。除模型权重外,我们还提供细粒度的双模态数据流水线,并支持LoRA微调,助力社区推进同步电影级合成的研究。

模型来源

  • GitHub: https://github.com/OpenMOSS/MOVA
  • 论文: MOVA: Towards Scalable and Synchronized Video-Audio Generation
  • 项目页面: https://mosi.cn/models/mova

模型使用

有关模型使用方法和推理脚本,请参考 GitHub 页面上的 快速入门 部分。

评估

我们通过客观基准测试和主观人工评估对模型进行评估。以下是 MOVA 与现有开源模型相比的 Elo 分数和胜率。

引用

@article{yu2026mova,
  title={MOVA: Towards Scalable and Synchronized Video-Audio Generation},
  author={Yu, Donghua and Chen, Mingshu and Chen, Qi and Luo, Qi and Wu, Qianyi and Cheng, Qinyuan and Li, Ruixiao and Liang, Tianyi and Zhang, Wenbo and Tu, Wenming and others},
  journal={arXiv preprint arXiv:2602.08794},
  year={2026}
}
下载使用量0