Xiaomi-MiMo-VL-Miloco-7B:可用于家庭场景中的日常活动识别与手势识读，如电子竞技、比耶手势等。该项目基于MiMo-VL-7B视觉-语言基座，通过SFT和RL训练策略，在提升家庭场景理解能力的同时保持通用任务竞争力。【此简介由AI生成】

🤗 HuggingFace | 🤖️ ModelScope

介绍

欢迎体验Xiaomi MiMo-VL-Miloco开源项目——首个开源的、多模态的家庭场景理解大模型！

🤗 核心亮点

基于MiMo-VL-7B：强大的视觉-语言基座，具备可靠的视频理解与指令遵循能力。
为家庭场景而设计：能识别日常活动（电子竞技、健身锻炼、看电视、阅读等），并识读常见的手势，如比耶、点赞、张开手掌、OK，甚至比6手势。
通用能力保持：训练策略结合了SFT和RL，MiMo-Vl-Miloco不仅拥有出色家庭场景理解能力，而且在通用任务上依然有较强的竞争力。

🌟 训练笔记

我们精心设计了两阶段优化策略，在保持模型基础的通用能力的同时，大幅提升模型的家庭场景理解能力。

阶段一: 监督微调 (SFT)

我们首先关注如何提升模型在家庭场景中的理解能力。通过构建少量高质量的数据集，我们在模型高效学习与推理效率之间取得了良好的平衡。

构造思维链数据：我们通过构造思维链数据，让模型高效学习家庭场景知识。
优化推理效率：通过采用“受限预算”的推理方式训练，能促使模型在推理阶段生成简洁明了的回答。

阶段二: 强化学习 (RL)

在监督微调的基础上，我们引入基于GRPO的强化学习算法来提升模型的综合性能:

高效的训练数据：我们采用了Time-R1 (我们的工作已经被NeurIPS 2025接受）的数据策略来构建多domain的高效训练数据。
通用能力保持：在进行家庭场景专项优化时，维持原有的理解与语言生成能力。

简而言之：Xiaomi MiMo-VL-Miloco 就像你的模范室友——既友善又目光敏锐，擅长识别家中的日常事务，同时依然能适应更广阔的世界。

😉 模型指南

模型权重及其量化版本均已开源：

MiMo-VL-Miloco-7B
- 适合绝大多数用户深度体验。
MiMo-VL-Miloco-7B-GGUF
- 混合精度量化版本。适合计算资源受限的场景。

性能表现

家庭场景理解能力评估 (F1-Score)

MiMo-VL-Miloco-7B无论是在手势识别的场景，还是在常见的家庭场景理解上，都达到了领先水平。

通用能力评估

在家庭场景理解下，我们重点关注的是视频、图像感知能力，以及模型的推理能力。

在Video的三个benchmark上（Video-MME/Video-MMMU/Charades-STA）基座能力得到了明显的提升
在通用能力的MMMU-Pro上，基座能力也都得到了显著的提升（10+%）
令人意外的是，随着视频、图像理解能力的提升，纯文本任务MMLU-Pro也取得了一定的提升。
在文档理解、OCR、数学类等任务上出现了一定程度的下降，这在预期之内，对本模型的目标场景没有影响。

引用

@misc{xiaomimimovlmiloco,
  author       = {Jiaze Li, Yuxun Qu, Jingyang Chen, Shijie Xu, Zhenru Lin, Junyou Zhu, Boshen Xu, Wenhui Tan, Pei Fu, JianZhong Ju, Zhenbo Luo, Jian Luan},
  title        = {Xiaomi MiMo-VL-Miloco},
  year         = {2025},
  howpublished = {\url{https://github.com/XiaoMi/xiaomi-mimo-vl-miloco}},
}

联系方式

欢迎通过邮箱联系我们：milm-plus@xiaomi.com。如果您有任何问题，可以随时在issue中提问。

🤗 HuggingFace | 🤖️ ModelScope

介绍

欢迎体验Xiaomi MiMo-VL-Miloco开源项目——首个开源的、多模态的家庭场景理解大模型！

🤗 核心亮点

基于MiMo-VL-7B：强大的视觉-语言基座，具备可靠的视频理解与指令遵循能力。
为家庭场景而设计：能识别日常活动（电子竞技、健身锻炼、看电视、阅读等），并识读常见的手势，如比耶、点赞、张开手掌、OK，甚至比6手势。
通用能力保持：训练策略结合了SFT和RL，MiMo-Vl-Miloco不仅拥有出色家庭场景理解能力，而且在通用任务上依然有较强的竞争力。

🌟 训练笔记

我们精心设计了两阶段优化策略，在保持模型基础的通用能力的同时，大幅提升模型的家庭场景理解能力。

阶段一: 监督微调 (SFT)

我们首先关注如何提升模型在家庭场景中的理解能力。通过构建少量高质量的数据集，我们在模型高效学习与推理效率之间取得了良好的平衡。

构造思维链数据：我们通过构造思维链数据，让模型高效学习家庭场景知识。
优化推理效率：通过采用“受限预算”的推理方式训练，能促使模型在推理阶段生成简洁明了的回答。

阶段二: 强化学习 (RL)

在监督微调的基础上，我们引入基于GRPO的强化学习算法来提升模型的综合性能:

高效的训练数据：我们采用了Time-R1 (我们的工作已经被NeurIPS 2025接受）的数据策略来构建多domain的高效训练数据。
通用能力保持：在进行家庭场景专项优化时，维持原有的理解与语言生成能力。

简而言之：Xiaomi MiMo-VL-Miloco 就像你的模范室友——既友善又目光敏锐，擅长识别家中的日常事务，同时依然能适应更广阔的世界。

😉 模型指南

模型权重及其量化版本均已开源：

MiMo-VL-Miloco-7B
- 适合绝大多数用户深度体验。
MiMo-VL-Miloco-7B-GGUF
- 混合精度量化版本。适合计算资源受限的场景。

性能表现

家庭场景理解能力评估 (F1-Score)

MiMo-VL-Miloco-7B无论是在手势识别的场景，还是在常见的家庭场景理解上，都达到了领先水平。

通用能力评估

在家庭场景理解下，我们重点关注的是视频、图像感知能力，以及模型的推理能力。

在Video的三个benchmark上（Video-MME/Video-MMMU/Charades-STA）基座能力得到了明显的提升
在通用能力的MMMU-Pro上，基座能力也都得到了显著的提升（10+%）
令人意外的是，随着视频、图像理解能力的提升，纯文本任务MMLU-Pro也取得了一定的提升。
在文档理解、OCR、数学类等任务上出现了一定程度的下降，这在预期之内，对本模型的目标场景没有影响。

引用

@misc{xiaomimimovlmiloco,
  author       = {Jiaze Li, Yuxun Qu, Jingyang Chen, Shijie Xu, Zhenru Lin, Junyou Zhu, Boshen Xu, Wenhui Tan, Pei Fu, JianZhong Ju, Zhenbo Luo, Jian Luan},
  title        = {Xiaomi MiMo-VL-Miloco},
  year         = {2025},
  howpublished = {\url{https://github.com/XiaoMi/xiaomi-mimo-vl-miloco}},
}

联系方式

欢迎通过邮箱联系我们：milm-plus@xiaomi.com。如果您有任何问题，可以随时在issue中提问。

介绍

🤗 核心亮点

🌟 训练笔记

阶段 一: 监督微调 (SFT)

阶段 二: 强化学习 (RL)

😉 模型指南

MiMo-VL-Miloco-7B

MiMo-VL-Miloco-7B-GGUF

性能表现

家庭场景理解能力评估 (F1-Score)

通用能力评估

引用

联系方式

介绍

🤗 核心亮点

🌟 训练笔记

阶段 一: 监督微调 (SFT)

阶段 二: 强化学习 (RL)

😉 模型指南

MiMo-VL-Miloco-7B

MiMo-VL-Miloco-7B-GGUF

性能表现

家庭场景理解能力评估 (F1-Score)

通用能力评估

引用

联系方式

阶段一: 监督微调 (SFT)

阶段二: 强化学习 (RL)

阶段一: 监督微调 (SFT)

阶段二: 强化学习 (RL)