欢迎体验Xiaomi MiMo-VL-Miloco开源项目——首个开源的、多模态的家庭场景理解大模型!
我们精心设计了两阶段优化策略,在保持模型基础的通用能力的同时,大幅提升模型的家庭场景理解能力。
我们首先关注如何提升模型在家庭场景中的理解能力。通过构建少量高质量的数据集,我们在模型高效学习与推理效率之间取得了良好的平衡。
在监督微调的基础上,我们引入基于GRPO的强化学习算法来提升模型的综合性能:
简而言之:Xiaomi MiMo-VL-Miloco 就像你的模范室友——既友善又目光敏锐,擅长识别家中的日常事务,同时依然能适应更广阔的世界。
模型权重及其量化版本均已开源:
在家庭场景理解下,我们重点关注的是视频、图像感知能力,以及模型的推理能力。
@misc{xiaomimimovlmiloco,
author = {Jiaze Li, Yuxun Qu, Jingyang Chen, Shijie Xu, Zhenru Lin, Junyou Zhu, Boshen Xu, Wenhui Tan, Pei Fu, JianZhong Ju, Zhenbo Luo, Jian Luan},
title = {Xiaomi MiMo-VL-Miloco},
year = {2025},
howpublished = {\url{https://github.com/XiaoMi/xiaomi-mimo-vl-miloco}},
}欢迎通过邮箱联系我们:milm-plus@xiaomi.com。如果您有任何问题,可以随时在issue中提问。