Xiaomi MiMo/MiMo-V2.5-Base
模型介绍文件和版本Pull Requests讨论分析
下载使用量0



Xiaomi-MiMo

| 🤗 HuggingFace  | 📰 博客  | 🎨 Xiaomi MiMo API 平台  | 🗨️ Xiaomi MiMo 工作室  |

社区
微信群  |  Discord  |  Telegram  |  Reddit

MiMo-V2.5

1. 简介

MiMo-V2.5 是一款具备强大智能体能力的原生全模态模型,在统一架构下支持文本、图像、视频及音频理解。该模型基于 MiMo-V2-Flash 骨干网络构建,并扩展了专用的视觉和音频编码器,在多模态感知、长上下文推理和智能体工作流方面均展现出卓越性能。其主要特性包括:

  • 混合注意力架构:继承 MiMo-V2-Flash 的混合设计,以 5:1 的比例交错使用滑动窗口注意力(SWA)和全局注意力(GA),滑动窗口大小为 128。通过可学习的注意力汇聚偏差(attention sink bias),在保持长上下文性能的同时,将 KV 缓存存储量降低近 6 倍。

  • 原生全模态编码器:配备 7.29 亿参数的视觉Transformer(ViT),采用混合窗口注意力机制;同时集成基于 MiMo-Audio 权重初始化的专用音频编码器,实现高质量的图像、视频和音频理解。

  • 多 token 预测(MTP):三个轻量级 MTP 模块搭配密集前馈网络(FFNs),通过推测解码加速推理过程,并提升强化学习(RL)训练效率。

  • 高效预训练:采用 FP8 混合精度在约 48T tokens 规模的数据集上完成训练,上下文窗口支持最多 100 万 tokens。

  • 智能体能力:通过后续训练整合了监督微调(SFT)、大规模智能体强化学习(RL)以及多教师在线策略蒸馏(MOPD),在智能体任务和多模态理解基准测试中均取得优异表现。

MiMo-V2.5 Architecture

模型概述

  • 架构:稀疏混合专家模型(Sparse MoE),总参数 3100 亿 / 激活参数 150 亿
  • 上下文长度:最长支持 100 万 tokens
  • 模态支持:文本、图像、视频、音频
  • 视觉编码器:7.29 亿参数 ViT(28 层:24 层滑动窗口注意力 + 4 层全注意力)
  • 音频编码器:2.61 亿参数音频 Transformer(24 层:12 层滑动窗口注意力 + 12 层全注意力)
  • 多 Token 预测(MTP):3.29 亿参数,3 层

2. 下载

模型上下文长度下载地址
MiMo-V2.5-Base25.6K🤗 HuggingFace
🤖 ModelScope
MiMo-V2.51M🤗 HuggingFace
🤖 ModelScope

3. 评估结果

多模态基准测试

MiMo-V2.5 Multimodal Benchmark Results

代码与智能体基准测试

MiMo-V2.5 Coding and Agentic Benchmark Results

长上下文基准测试

MiMo-V2.5 Graphwalks

4. 模型架构

大语言模型主干

MiMo-V2.5 的核心语言主干继承自 MiMo-V2-Flash 架构,这是一种采用混合滑动窗口注意力机制的稀疏混合专家模型。

组件MiMo-V2.5-ProMiMo-V2.5
总参数1.02T310B
激活参数42B15B
隐藏层维度61444096
层数70(1 层密集 + 69 层 MoE)48(1 层密集 + 47 层 MoE)
全注意力层数109
滑动窗口注意力层数6039
注意力头数12864
KV 头数8(GQA)8(GA)/ 4(SWA)
头维度(QK / V)192 / 128192 / 128
路由专家数384256
每 Token 专家数88
MoE 中间层维度20482048
密集中间层维度16384(仅第 0 层)16384(仅第 0 层)
滑动窗口注意力窗口大小128128
最大上下文长度1M1M
MTP 层数33

视觉编码器

我们训练了一个专用的 MiMo ViT,它采用滑动窗口注意力机制以实现高效的视觉编码。

配置项数值
总层数28
滑动窗口注意力层数24
全注意力层数4
窗口注意力模式[-1] + [0,0,0,0,1,1,1,1,-1] × 3
注意力头数(Q / KV)32 / 8
头维度(QK / V)64 / 64
滑动窗口大小(L / R)64 / 64

窗口模式说明:-1 = 全注意力,0 = 一维行窗口,1 = 一维列窗口。

音频编码器

我们的音频编码器初始化为 MiMo-Audio-Tokenizer 的权重,并进一步微调以支持高质量的音频理解。

配置项数值
总层数24
滑动窗口注意力层数12
全注意力层数12
滑动窗口大小128
注意力头数(Q / KV)16 / 16
头维度(QK / V)64 / 64

5. 训练过程

MiMo-V2.5 的训练数据总量约为 48T tokens。

  1. 文本预训练:我们收集多样化的文本数据用于预训练 LLM 主干网络。
  2. 投影器预热:对多模态投影器(音频和视觉 MLP 投影器)进行短时间的预热。
  3. 多模态预训练:收集高质量的多模态数据进行大规模预训练。
  4. SFT 与智能体后训练:使用多样化的智能体数据进行有监督微调。在此阶段,上下文窗口从 32K 逐步扩展到 256K,再到 1M。
  5. RL 与 MOPD 训练:通过强化学习提升感知、推理和智能体能力。

6. 部署

由于推理引擎在不断更新和优化,本指南仅提供部署示例供参考。为了获得最佳性能,我们强烈建议遵循我们推荐的方法,以获取最新的最佳实践和最优性能。

SGLang 部署

为获得最佳性能,我们强烈建议使用此方法进行部署,该方法得到 SGLang 社区的官方支持。最新部署指南请参考 SGLang MiMo-V2.5 Cookbook。

以下是使用 SGLang 运行模型的示例,引用自 sgl-project/sglang#23811:

python3 -m sglang.launch_server \
    --model-path XiaomiMiMo/MiMo-V2.5 \
    --served-model-name mimo-v2.5 \
    --log-level-http warning \
    --enable-cache-report \
    --pp-size 1 \
    --dp-size 2 \
    --tp-size 8 \
    --enable-dp-attention \
    --moe-a2a-backend deepep \
    --deepep-mode auto \
    --decode-log-interval 1 \
    --page-size 1 \
    --host 0.0.0.0 \
    --port 9001 \
    --trust-remote-code \
    --watchdog-timeout 1000000 \
    --mem-fraction-static 0.65 \
    --chunked-prefill-size 16384 \
    --reasoning-parser qwen3 \
    --tool-call-parser mimo \
    --context-length 262144 \
    --collect-tokens-histogram \
    --enable-metrics \
    --load-balance-method round_robin \
    --allow-auto-truncate \
    --enable-metrics-for-all-schedulers \
    --quantization fp8 \
    --skip-server-warmup \
    --moe-dense-tp-size 1 \
    --enable-dp-lm-head \
    --disable-tokenizer-batch-decode \
    --mm-enable-dp-encoder \
    --attention-backend fa3 \
    --mm-attention-backend fa3

vLLM 部署

为获得最佳性能,我们强烈建议采用此方法进行部署,该方法得到 vLLM 社区的官方支持。最新部署指南请参考 vLLM MiMo-V2-Flash Cookbook。

本地部署时,建议将采样参数设置为 temperature=1.0、top_p=0.95。

引用

@misc{mimov25,
  title={MiMo-V2.5},
  year={2026},
  howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}

联系方式

如有任何问题或反馈,请通过mimo@xiaomi.com与我们联系,或加入我们的社区:

  • 微信群
  • Discord
  • Telegram
  • Reddit