MOVA-720p:打破开源视频生成“无声时代”，支持图像/文本到视频音频同步生成，单步推理实现高保真视频与精准唇音同步、环境音效，提供完整开源方案。【此简介由AI生成】

MOVA：迈向可扩展且同步的视频-音频生成

我们推出MOVA（MOSS Video and Audio），这是一个旨在打破开源视频生成“无声时代”的基础模型。与将声音生成为事后补充的级联流水线不同，MOVA可同时合成视频和音频，实现完美对齐。

🌟核心亮点

原生双模态生成：超越繁琐的级联流水线。MOVA通过单次推理即可生成高保真视频和同步音频，消除了误差累积。
精准唇形同步与音效：在多语言唇形同步和环境感知音效方面达到了最先进的性能。
完全开源：在一个由闭源模型（Sora 2、Veo 3、Kling）主导的领域，我们将发布模型权重、推理代码、训练流水线以及LoRA微调脚本。
非对称双塔架构：利用预训练视频塔和音频塔的能力，通过双向交叉注意力机制进行融合，实现丰富的模态交互。

演示

模型详情

模型描述

MOVA通过提供用于图像到视频-音频（IT2VA）和文本到视频-音频（T2VA）任务的完全开源框架，解决了Sora 2和Veo 3等专有系统的局限性。该模型采用通过双向交叉注意力机制融合的非对称双塔架构，并利用混合专家（MoE）设计，总参数达320亿（推理时激活180亿），以确保高质量合成与高效部署。除模型权重外，我们还提供细粒度的双模态数据流水线，并支持LoRA微调，助力社区推进同步电影级合成的研究。

模型来源

GitHub： https://github.com/OpenMOSS/MOVA
论文： MOVA: Towards Scalable and Synchronized Video-Audio Generation
项目页面： https://mosi.cn/models/mova

模型使用

有关模型使用方法和推理脚本，请参考 GitHub 页面上的快速入门部分。

评估

我们通过客观基准测试和主观人工评估对模型进行评估。以下是 MOVA 与现有开源模型相比的 Elo 分数和胜率。

引用

@article{yu2026mova,
  title={MOVA: Towards Scalable and Synchronized Video-Audio Generation},
  author={Yu, Donghua and Chen, Mingshu and Chen, Qi and Luo, Qi and Wu, Qianyi and Cheng, Qinyuan and Li, Ruixiao and Liang, Tianyi and Zhang, Wenbo and Tu, Wenming and others},
  journal={arXiv preprint arXiv:2602.08794},
  year={2026}
}

MOVA：迈向可扩展且同步的视频-音频生成

🌟核心亮点

原生双模态生成：超越繁琐的级联流水线。MOVA通过单次推理即可生成高保真视频和同步音频，消除了误差累积。

精准唇形同步与音效：在多语言唇形同步和环境感知音效方面达到了最先进的性能。

完全开源：在一个由闭源模型（Sora 2、Veo 3、Kling）主导的领域，我们将发布模型权重、推理代码、训练流水线以及LoRA微调脚本。

非对称双塔架构：利用预训练视频塔和音频塔的能力，通过双向交叉注意力机制进行融合，实现丰富的模态交互。

模型详情

模型描述

模型来源

模型使用

有关模型使用方法和推理脚本，请参考 GitHub 页面上的快速入门部分。

引用

@article{yu2026mova,
  title={MOVA: Towards Scalable and Synchronized Video-Audio Generation},
  author={Yu, Donghua and Chen, Mingshu and Chen, Qi and Luo, Qi and Wu, Qianyi and Cheng, Qinyuan and Li, Ruixiao and Liang, Tianyi and Zhang, Wenbo and Tu, Wenming and others},
  journal={arXiv preprint arXiv:2602.08794},
  year={2026}
}