我们推出MOVA(MOSS Video and Audio),这是一个旨在打破开源视频生成“无声时代”的基础模型。与将声音生成为事后补充的级联流水线不同,MOVA可同时合成视频和音频,实现完美对齐。
🌟核心亮点
MOVA通过提供用于图像到视频-音频(IT2VA)和文本到视频-音频(T2VA)任务的完全开源框架,解决了Sora 2和Veo 3等专有系统的局限性。该模型采用通过双向交叉注意力机制融合的非对称双塔架构,并利用混合专家(MoE)设计,总参数达320亿(推理时激活180亿),以确保高质量合成与高效部署。除模型权重外,我们还提供细粒度的双模态数据流水线,并支持LoRA微调,助力社区推进同步电影级合成的研究。
有关模型使用方法和推理脚本,请参考 GitHub 页面上的 快速入门 部分。
我们通过客观基准测试和主观人工评估对模型进行评估。以下是 MOVA 与现有开源模型相比的 Elo 分数和胜率。
@article{yu2026mova,
title={MOVA: Towards Scalable and Synchronized Video-Audio Generation},
author={Yu, Donghua and Chen, Mingshu and Chen, Qi and Luo, Qi and Wu, Qianyi and Cheng, Qinyuan and Li, Ruixiao and Liang, Tianyi and Zhang, Wenbo and Tu, Wenming and others},
journal={arXiv preprint arXiv:2602.08794},
year={2026}
}