MiMo-VL-7B-RL:MiMo-VL 技术报告

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-VL 技术报告
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

一、引言

本报告将分享我们构建轻量且高性能视觉语言模型（VLM）MiMo-VL-7B的相关工作。MiMo-VL-7B 由三部分组成：（1）原生分辨率 ViT 编码器，可保留细粒度视觉细节；（2）MLP 投影器，实现高效跨模态对齐；（3）我们的 MiMo-7B 语言模型，该模型针对复杂推理任务进行了专门优化。

MiMo-VL-7B 的开发包含两个连续的训练阶段：（1）四阶段预训练阶段，包括投影器预热、视觉-语言对齐、通用多模态预训练和长上下文监督微调（SFT）。此阶段得到 MiMo-VL-7B-SFT 模型。（2）后续的后训练阶段，我们引入了混合策略强化学习（Mixed On-policy Reinforcement Learning, MORL）——一种新颖的框架，可无缝整合涵盖感知准确性、视觉定位精度、逻辑推理能力以及人类/AI 偏好的多样化奖励信号。此阶段得到 MiMo-VL-7B-RL 模型。

我们开源了 MiMo-VL-7B 系列，包括 SFT 和 RL 模型的检查点。我们相信本报告及相关模型将为开发高性能推理型 VLM 提供宝贵见解，造福更广泛的社区。

🛤️ 在此次探索过程中，我们发现

从预训练阶段就融入高质量、覆盖广泛的推理数据，对于提升模型性能至关重要
- 我们通过识别多样化的查询、利用大型推理模型生成带有长链思维（CoT）的回复，并采用拒绝采样确保质量，从而精心构建高质量的推理数据。
- 我们没有将此类数据视为补充性的微调数据，而是将大量合成推理数据直接整合到后续的预训练阶段。在这些阶段中，延长训练时间能够带来持续的性能提升，而不会出现饱和现象。
混合策略强化学习（Mixed On-policy Reinforcement Learning）可进一步提升模型性能，但实现各方面的稳定同步改进仍面临挑战
- 我们将强化学习应用于多种能力的提升，包括推理、感知、接地以及人类偏好对齐，并跨越文本、图像和视频等多种模态。尽管这种混合训练方法进一步释放了模型的潜力，但数据领域之间的干扰仍然是一个难题。

II. 模型详情

模型可在 Huggingface Collections: MiMo-VL 和 ModelScope Collections: MiMo-VL 获取

模型	描述	下载（HuggingFace）	下载（ModelScope）
MiMo-VL-7B-SFT	经过四阶段预训练后，具备卓越推理潜力的视觉语言模型（VLM）	🤗 XiaomiMiMo/MiMo-VL-7B-SFT	🤖️ XiaomiMiMo/MiMo-VL-7B-SFT
MiMo-VL-7B-RL	超越现有开源模型的强化学习（RL）模型	🤗 XiaomiMiMo/MiMo-VL-7B-RL	🤖️ XiaomiMiMo/MiMo-VL-7B-RL

III. 评估结果

通用能力

在通用视觉语言理解方面，MiMo-VL-7B模型取得了开源领域的最先进成果。

推理任务

在多模态推理任务中，SFT模型和RL模型在这些基准测试上均显著优于所有对比的开源基线模型。

[!IMPORTANT] 标有*的结果是使用我们的评估框架获得的。标有 ${\dagger}$ 的任务由GPT-4o进行评估。

GUI任务

MiMo-VL-7B-RL具备卓越的GUI理解和定位能力。作为通用型视觉语言模型，MiMo-VL的性能与GUI专用模型相当，甚至更优。

Elo评分

通过我们内部的评估数据集和GPT-4o的评判，MiMo-VL-7B-RL在所有评估的开源视觉语言模型中获得了最高的Elo评分，在参数规模从7B到72B的模型中排名第一。

IV. 部署

MiMo-VL-7B系列在部署和推理方面与Qwen2_5_VLForConditionalGeneration架构保持完全兼容。

V. 引用

@misc{coreteam2025mimovltechnicalreport,
      title={MiMo-VL Technical Report}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      eprint={2506.03569},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2506.03569}, 
}

VI. 联系方式

如有任何问题，请通过 mimo@xiaomi.com 与我们联系，或提交 issue。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-VL 技术报告
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

一、引言

我们开源了 MiMo-VL-7B 系列，包括 SFT 和 RL 模型的检查点。我们相信本报告及相关模型将为开发高性能推理型 VLM 提供宝贵见解，造福更广泛的社区。

🛤️ 在此次探索过程中，我们发现

从预训练阶段就融入高质量、覆盖广泛的推理数据，对于提升模型性能至关重要
- 我们通过识别多样化的查询、利用大型推理模型生成带有长链思维（CoT）的回复，并采用拒绝采样确保质量，从而精心构建高质量的推理数据。
- 我们没有将此类数据视为补充性的微调数据，而是将大量合成推理数据直接整合到后续的预训练阶段。在这些阶段中，延长训练时间能够带来持续的性能提升，而不会出现饱和现象。
混合策略强化学习（Mixed On-policy Reinforcement Learning）可进一步提升模型性能，但实现各方面的稳定同步改进仍面临挑战
- 我们将强化学习应用于多种能力的提升，包括推理、感知、接地以及人类偏好对齐，并跨越文本、图像和视频等多种模态。尽管这种混合训练方法进一步释放了模型的潜力，但数据领域之间的干扰仍然是一个难题。

II. 模型详情

模型可在 Huggingface Collections: MiMo-VL 和 ModelScope Collections: MiMo-VL 获取

模型	描述	下载（HuggingFace）	下载（ModelScope）
MiMo-VL-7B-SFT	经过四阶段预训练后，具备卓越推理潜力的视觉语言模型（VLM）	🤗 XiaomiMiMo/MiMo-VL-7B-SFT	🤖️ XiaomiMiMo/MiMo-VL-7B-SFT
MiMo-VL-7B-RL	超越现有开源模型的强化学习（RL）模型	🤗 XiaomiMiMo/MiMo-VL-7B-RL	🤖️ XiaomiMiMo/MiMo-VL-7B-RL

III. 评估结果

通用能力

在通用视觉语言理解方面，MiMo-VL-7B模型取得了开源领域的最先进成果。

推理任务

在多模态推理任务中，SFT模型和RL模型在这些基准测试上均显著优于所有对比的开源基线模型。

[!IMPORTANT] 标有*的结果是使用我们的评估框架获得的。标有 ${\dagger}$ 的任务由GPT-4o进行评估。

GUI任务

MiMo-VL-7B-RL具备卓越的GUI理解和定位能力。作为通用型视觉语言模型，MiMo-VL的性能与GUI专用模型相当，甚至更优。

Elo评分

通过我们内部的评估数据集和GPT-4o的评判，MiMo-VL-7B-RL在所有评估的开源视觉语言模型中获得了最高的Elo评分，在参数规模从7B到72B的模型中排名第一。

IV. 部署

MiMo-VL-7B系列在部署和推理方面与Qwen2_5_VLForConditionalGeneration架构保持完全兼容。

V. 引用

@misc{coreteam2025mimovltechnicalreport,
      title={MiMo-VL Technical Report}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      eprint={2506.03569},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2506.03569}, 
}

VI. 联系方式

如有任何问题，请通过 mimo@xiaomi.com 与我们联系，或提交 issue。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ MiMo-VL 技术报告 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

一、引言

🛤️ 在此次探索过程中，我们发现

II. 模型详情

III. 评估结果

通用能力

推理任务

GUI任务

Elo评分

IV. 部署

V. 引用

VI. 联系方式

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ MiMo-VL 技术报告 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

一、引言

🛤️ 在此次探索过程中，我们发现

II. 模型详情

III. 评估结果

通用能力

推理任务

GUI任务

Elo评分

IV. 部署

V. 引用

VI. 联系方式

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-VL 技术报告
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-VL 技术报告
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━