本报告将分享我们构建轻量且高性能视觉语言模型(VLM)MiMo-VL-7B的相关工作。MiMo-VL-7B 由三部分组成:(1)原生分辨率 ViT 编码器,可保留细粒度视觉细节;(2)MLP 投影器,实现高效跨模态对齐;(3)我们的 MiMo-7B 语言模型,该模型针对复杂推理任务进行了专门优化。
MiMo-VL-7B 的开发包含两个连续的训练阶段:(1)四阶段预训练阶段,包括投影器预热、视觉-语言对齐、通用多模态预训练和长上下文监督微调(SFT)。此阶段得到 MiMo-VL-7B-SFT 模型。(2)后续的后训练阶段,我们引入了混合策略强化学习(Mixed On-policy Reinforcement Learning, MORL)——一种新颖的框架,可无缝整合涵盖感知准确性、视觉定位精度、逻辑推理能力以及人类/AI 偏好的多样化奖励信号。此阶段得到 MiMo-VL-7B-RL 模型。
我们开源了 MiMo-VL-7B 系列,包括 SFT 和 RL 模型的检查点。 我们相信本报告及相关模型将为开发高性能推理型 VLM 提供宝贵见解,造福更广泛的社区。
模型可在 Huggingface Collections: MiMo-VL 和 ModelScope Collections: MiMo-VL 获取
| 模型 | 描述 | 下载(HuggingFace) | 下载(ModelScope) |
|---|---|---|---|
| MiMo-VL-7B-SFT | 经过四阶段预训练后,具备卓越推理潜力的视觉语言模型(VLM) | 🤗 XiaomiMiMo/MiMo-VL-7B-SFT | 🤖️ XiaomiMiMo/MiMo-VL-7B-SFT |
| MiMo-VL-7B-RL | 超越现有开源模型的强化学习(RL)模型 | 🤗 XiaomiMiMo/MiMo-VL-7B-RL | 🤖️ XiaomiMiMo/MiMo-VL-7B-RL |
在通用视觉语言理解方面,MiMo-VL-7B模型取得了开源领域的最先进成果。
在多模态推理任务中,SFT模型和RL模型在这些基准测试上均显著优于所有对比的开源基线模型。
[!IMPORTANT] 标有*的结果是使用我们的评估框架获得的。 标有的任务由GPT-4o进行评估。
MiMo-VL-7B-RL具备卓越的GUI理解和定位能力。作为通用型视觉语言模型,MiMo-VL的性能与GUI专用模型相当,甚至更优。
通过我们内部的评估数据集和GPT-4o的评判,MiMo-VL-7B-RL在所有评估的开源视觉语言模型中获得了最高的Elo评分,在参数规模从7B到72B的模型中排名第一。
MiMo-VL-7B系列在部署和推理方面与Qwen2_5_VLForConditionalGeneration架构保持完全兼容。
@misc{coreteam2025mimovltechnicalreport,
title={MiMo-VL Technical Report},
author={LLM-Core-Team Xiaomi},
year={2025},
eprint={2506.03569},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2506.03569},
}如有任何问题,请通过 mimo@xiaomi.com 与我们联系,或提交 issue。