Xiaomi MiMo/MiMo-VL-7B-SFT-GGUF
模型介绍文件和版本Pull Requests讨论分析
下载使用量0
Xiaomi-MiMo

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
MiMo-VL 技术报告
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━


| 🤗 HuggingFace  | 🤖️ 魔搭社区 (ModelScope)  | 📔 技术报告  | 💻 GitHub 代码库  |

一、引言

本报告旨在分享我们构建轻量且高性能的视觉语言模型(VLM)——MiMo-VL-7B的相关工作。MiMo-VL-7B 由三部分组成:(1) 原生分辨率 ViT 编码器,用于保留细粒度视觉细节;(2) MLP 投影器,实现高效的跨模态对齐;(3) 我们专为复杂推理任务优化的 MiMo-7B 语言模型。

MiMo-VL-7B 的开发包含两个连续的训练阶段:(1) 四阶段预训练,包括投影器预热、视觉-语言对齐、通用多模态预训练以及长上下文监督微调(SFT),此阶段得到 MiMo-VL-7B-SFT 模型。(2) 后续的后训练阶段,我们提出了混合策略强化学习(MORL)这一新颖框架,该框架无缝整合了涵盖感知准确性、视觉定位精度、逻辑推理能力以及人类/AI 偏好的多样化奖励信号,此阶段得到 MiMo-VL-7B-RL 模型。

我们开源了 MiMo-VL-7B 系列模型,包括 SFT 和 RL 模型的检查点。 我们相信本报告及相关模型将为开发高性能推理型 VLM 提供有价值的见解,并造福更广泛的社区。

🛤️ 在这一过程中,我们发现

  • 在预训练阶段融入高质量、覆盖广泛的推理数据对于提升模型性能至关重要
    • 我们通过识别多样化的查询、利用大型推理模型生成带长链思维(CoT)的回复,并采用拒绝采样确保质量,从而构建高质量的推理数据。
    • 我们并未将其视为补充性的微调数据,而是将大量此类合成推理数据直接整合到后期的预训练阶段。经实践,延长训练时间能够带来持续的性能提升,且未出现饱和现象。
  • 混合在线策略强化学习(Mixed On-policy Reinforcement Learning)可进一步提升模型性能,但实现稳定的同步改进仍面临挑战
    • 我们将强化学习应用于多种能力的训练,包括推理、感知、接地以及人类偏好对齐,覆盖文本、图像和视频等多种模态。尽管这种混合训练方法进一步释放了模型的潜力,但数据域之间的干扰仍是一个有待解决的问题。

II. 模型详情

模型可在 Huggingface Collections: MiMo-VL 和 ModelScope Collections: MiMo-VL 获取

ModelDescriptionDownload (HuggingFace)Download (ModelScope)
MiMo-VL-7B-SFTVLM with extraordinary reasoning potential after 4-stage pre-training🤗 XiaomiMiMo/MiMo-VL-7B-SFT🤖️ XiaomiMiMo/MiMo-VL-7B-SFT
MiMo-VL-7B-RLRL model leapfrogging existing open-source models🤗 XiaomiMiMo/MiMo-VL-7B-RL🤖️ XiaomiMiMo/MiMo-VL-7B-RL

III. 评估结果

通用能力

在通用视觉语言理解方面,MiMo-VL-7B 模型取得了开源领域的最先进成果。

推理任务

在多模态推理任务中,SFT 和 RL 模型在这些基准测试中均显著优于所有对比的开源基线模型。

[!IMPORTANT] 标有 * 的结果是使用我们的评估框架获得的。 标有 †{\dagger}† 的任务由 GPT-4o 进行评估。

GUI 任务

MiMo-VL-7B-RL 具备卓越的 GUI 理解和定位能力。作为通用型视觉语言模型,MiMo-VL 的性能与 GUI 专用模型相当,甚至更优。

Elo 评分

通过我们内部的评估数据集和 GPT-4o 的评判,MiMo-VL-7B-RL 在所有评估的开源视觉语言模型中获得了最高的 Elo 评分,在参数规模从 70 亿到 720 亿的模型中排名第一。

IV. 部署

MiMo-VL-7B 系列在部署和推理方面与 Qwen2_5_VLForConditionalGeneration 架构完全兼容。

V. 引用

@misc{coreteam2025mimovltechnicalreport,
      title={MiMo-VL Technical Report}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      eprint={2506.03569},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2506.03569}, 
}

VI. 联系方式

如有任何问题,请通过 mimo@xiaomi.com 与我们联系,或提交 issue。