MiMo-V2.5 是一款具备强大智能体能力的原生全模态模型,在统一架构下支持文本、图像、视频及音频理解。该模型基于 MiMo-V2-Flash 骨干网络构建,并扩展了专用的视觉和音频编码器,在多模态感知、长上下文推理和智能体工作流方面均展现出卓越性能。其主要特性包括:
混合注意力架构:继承 MiMo-V2-Flash 的混合设计,以 5:1 的比例交错使用滑动窗口注意力(SWA)和全局注意力(GA),滑动窗口大小为 128。通过可学习的注意力汇聚偏差(attention sink bias),在保持长上下文性能的同时,将 KV 缓存存储量降低近 6 倍。
原生全模态编码器:配备 7.29 亿参数的视觉Transformer(ViT),采用混合窗口注意力机制;同时集成基于 MiMo-Audio 权重初始化的专用音频编码器,实现高质量的图像、视频和音频理解。
多 token 预测(MTP):三个轻量级 MTP 模块搭配密集前馈网络(FFNs),通过推测解码加速推理过程,并提升强化学习(RL)训练效率。
高效预训练:采用 FP8 混合精度在约 48T tokens 规模的数据集上完成训练,上下文窗口支持最多 100 万 tokens。
智能体能力:通过后续训练整合了监督微调(SFT)、大规模智能体强化学习(RL)以及多教师在线策略蒸馏(MOPD),在智能体任务和多模态理解基准测试中均取得优异表现。
| 模型 | 上下文长度 | 下载地址 |
|---|---|---|
| MiMo-V2.5-Base | 25.6K | 🤗 HuggingFace 🤖 ModelScope |
| MiMo-V2.5 | 1M | 🤗 HuggingFace 🤖 ModelScope |
MiMo-V2.5 的核心语言主干继承自 MiMo-V2-Flash 架构,这是一种采用混合滑动窗口注意力机制的稀疏混合专家模型。
| 组件 | MiMo-V2.5-Pro | MiMo-V2.5 |
|---|---|---|
| 总参数 | 1.02T | 310B |
| 激活参数 | 42B | 15B |
| 隐藏层维度 | 6144 | 4096 |
| 层数 | 70(1 层密集 + 69 层 MoE) | 48(1 层密集 + 47 层 MoE) |
| 全注意力层数 | 10 | 9 |
| 滑动窗口注意力层数 | 60 | 39 |
| 注意力头数 | 128 | 64 |
| KV 头数 | 8(GQA) | 8(GA)/ 4(SWA) |
| 头维度(QK / V) | 192 / 128 | 192 / 128 |
| 路由专家数 | 384 | 256 |
| 每 Token 专家数 | 8 | 8 |
| MoE 中间层维度 | 2048 | 2048 |
| 密集中间层维度 | 16384(仅第 0 层) | 16384(仅第 0 层) |
| 滑动窗口注意力窗口大小 | 128 | 128 |
| 最大上下文长度 | 1M | 1M |
| MTP 层数 | 3 | 3 |
我们训练了一个专用的 MiMo ViT,它采用滑动窗口注意力机制以实现高效的视觉编码。
| 配置项 | 数值 |
|---|---|
| 总层数 | 28 |
| 滑动窗口注意力层数 | 24 |
| 全注意力层数 | 4 |
| 窗口注意力模式 | [-1] + [0,0,0,0,1,1,1,1,-1] × 3 |
| 注意力头数(Q / KV) | 32 / 8 |
| 头维度(QK / V) | 64 / 64 |
| 滑动窗口大小(L / R) | 64 / 64 |
窗口模式说明:-1 = 全注意力,0 = 一维行窗口,1 = 一维列窗口。
我们的音频编码器初始化为 MiMo-Audio-Tokenizer 的权重,并进一步微调以支持高质量的音频理解。
| 配置项 | 数值 |
|---|---|
| 总层数 | 24 |
| 滑动窗口注意力层数 | 12 |
| 全注意力层数 | 12 |
| 滑动窗口大小 | 128 |
| 注意力头数(Q / KV) | 16 / 16 |
| 头维度(QK / V) | 64 / 64 |
MiMo-V2.5 的训练数据总量约为 48T tokens。
由于推理引擎在不断更新和优化,本指南仅提供部署示例供参考。为了获得最佳性能,我们强烈建议遵循我们推荐的方法,以获取最新的最佳实践和最优性能。
为获得最佳性能,我们强烈建议使用此方法进行部署,该方法得到 SGLang 社区的官方支持。最新部署指南请参考 SGLang MiMo-V2.5 Cookbook。
以下是使用 SGLang 运行模型的示例,引用自 sgl-project/sglang#23811:
python3 -m sglang.launch_server \
--model-path XiaomiMiMo/MiMo-V2.5 \
--served-model-name mimo-v2.5 \
--log-level-http warning \
--enable-cache-report \
--pp-size 1 \
--dp-size 2 \
--tp-size 8 \
--enable-dp-attention \
--moe-a2a-backend deepep \
--deepep-mode auto \
--decode-log-interval 1 \
--page-size 1 \
--host 0.0.0.0 \
--port 9001 \
--trust-remote-code \
--watchdog-timeout 1000000 \
--mem-fraction-static 0.65 \
--chunked-prefill-size 16384 \
--reasoning-parser qwen3 \
--tool-call-parser mimo \
--context-length 262144 \
--collect-tokens-histogram \
--enable-metrics \
--load-balance-method round_robin \
--allow-auto-truncate \
--enable-metrics-for-all-schedulers \
--quantization fp8 \
--skip-server-warmup \
--moe-dense-tp-size 1 \
--enable-dp-lm-head \
--disable-tokenizer-batch-decode \
--mm-enable-dp-encoder \
--attention-backend fa3 \
--mm-attention-backend fa3为获得最佳性能,我们强烈建议采用此方法进行部署,该方法得到 vLLM 社区的官方支持。最新部署指南请参考 vLLM MiMo-V2-Flash Cookbook。
本地部署时,建议将采样参数设置为 temperature=1.0、top_p=0.95。
@misc{mimov25,
title={MiMo-V2.5},
year={2026},
howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}如有任何问题或反馈,请通过mimo@xiaomi.com与我们联系,或加入我们的社区: