社区
微信群 | Discord | Telegram | Reddit

MiMo-V2.5

1. 简介

MiMo-V2.5 是一款具备强大智能体能力的原生全模态模型，在统一架构下支持文本、图像、视频及音频理解。该模型基于 MiMo-V2-Flash 骨干网络构建，并扩展了专用的视觉和音频编码器，在多模态感知、长上下文推理和智能体工作流方面均展现出卓越性能。其主要特性包括：

混合注意力架构：继承 MiMo-V2-Flash 的混合设计，以 5:1 的比例交错使用滑动窗口注意力（SWA）和全局注意力（GA），滑动窗口大小为 128。通过可学习的注意力汇聚偏差（attention sink bias），在保持长上下文性能的同时，将 KV 缓存存储量降低近 6 倍。
原生全模态编码器：配备 7.29 亿参数的视觉Transformer（ViT），采用混合窗口注意力机制；同时集成基于 MiMo-Audio 权重初始化的专用音频编码器，实现高质量的图像、视频和音频理解。
多 token 预测（MTP）：三个轻量级 MTP 模块搭配密集前馈网络（FFNs），通过推测解码加速推理过程，并提升强化学习（RL）训练效率。
高效预训练：采用 FP8 混合精度在约 48T tokens 规模的数据集上完成训练，上下文窗口支持最多 100 万 tokens。
智能体能力：通过后续训练整合了监督微调（SFT）、大规模智能体强化学习（RL）以及多教师在线策略蒸馏（MOPD），在智能体任务和多模态理解基准测试中均取得优异表现。

模型概述

架构：稀疏混合专家模型（Sparse MoE），总参数 3100 亿 / 激活参数 150 亿
上下文长度：最长支持 100 万 tokens
模态支持：文本、图像、视频、音频
视觉编码器：7.29 亿参数 ViT（28 层：24 层滑动窗口注意力 + 4 层全注意力）
音频编码器：2.61 亿参数音频 Transformer（24 层：12 层滑动窗口注意力 + 12 层全注意力）
多 Token 预测（MTP）：3.29 亿参数，3 层

2. 下载

模型	上下文长度	下载地址
MiMo-V2.5-Base	25.6K	🤗 HuggingFace 🤖 ModelScope
MiMo-V2.5	1M	🤗 HuggingFace 🤖 ModelScope

3. 评估结果

多模态基准测试

代码与智能体基准测试

MiMo-V2.5 Coding and Agentic Benchmark Results

长上下文基准测试

4. 模型架构

大语言模型主干

MiMo-V2.5 的核心语言主干继承自 MiMo-V2-Flash 架构，这是一种采用混合滑动窗口注意力机制的稀疏混合专家模型。

组件	MiMo-V2.5-Pro	MiMo-V2.5
总参数	1.02T	310B
激活参数	42B	15B
隐藏层维度	6144	4096
层数	70（1 层密集 + 69 层 MoE）	48（1 层密集 + 47 层 MoE）
全注意力层数	10	9
滑动窗口注意力层数	60	39
注意力头数	128	64
KV 头数	8（GQA）	8（GA）/ 4（SWA）
头维度（QK / V）	192 / 128	192 / 128
路由专家数	384	256
每 Token 专家数	8	8
MoE 中间层维度	2048	2048
密集中间层维度	16384（仅第 0 层）	16384（仅第 0 层）
滑动窗口注意力窗口大小	128	128
最大上下文长度	1M	1M
MTP 层数	3	3

视觉编码器

我们训练了一个专用的 MiMo ViT，它采用滑动窗口注意力机制以实现高效的视觉编码。

配置项	数值
总层数	28
滑动窗口注意力层数	24
全注意力层数	4
窗口注意力模式	[-1] + [0,0,0,0,1,1,1,1,-1] × 3
注意力头数（Q / KV）	32 / 8
头维度（QK / V）	64 / 64
滑动窗口大小（L / R）	64 / 64

窗口模式说明：-1 = 全注意力，0 = 一维行窗口，1 = 一维列窗口。

音频编码器

我们的音频编码器初始化为 MiMo-Audio-Tokenizer 的权重，并进一步微调以支持高质量的音频理解。

配置项	数值
总层数	24
滑动窗口注意力层数	12
全注意力层数	12
滑动窗口大小	128
注意力头数（Q / KV）	16 / 16
头维度（QK / V）	64 / 64

5. 训练过程

MiMo-V2.5 的训练数据总量约为 48T tokens。

文本预训练：我们收集多样化的文本数据用于预训练 LLM 主干网络。
投影器预热：对多模态投影器（音频和视觉 MLP 投影器）进行短时间的预热。
多模态预训练：收集高质量的多模态数据进行大规模预训练。
SFT 与智能体后训练：使用多样化的智能体数据进行有监督微调。在此阶段，上下文窗口从 32K 逐步扩展到 256K，再到 1M。
RL 与 MOPD 训练：通过强化学习提升感知、推理和智能体能力。

6. 部署

由于推理引擎在不断更新和优化，本指南仅提供部署示例供参考。为了获得最佳性能，我们强烈建议遵循我们推荐的方法，以获取最新的最佳实践和最优性能。

SGLang 部署

为获得最佳性能，我们强烈建议使用此方法进行部署，该方法得到 SGLang 社区的官方支持。最新部署指南请参考 SGLang MiMo-V2.5 Cookbook。

以下是使用 SGLang 运行模型的示例，引用自 sgl-project/sglang#23811：

python3 -m sglang.launch_server \
    --model-path XiaomiMiMo/MiMo-V2.5 \
    --served-model-name mimo-v2.5 \
    --log-level-http warning \
    --enable-cache-report \
    --pp-size 1 \
    --dp-size 2 \
    --tp-size 8 \
    --enable-dp-attention \
    --moe-a2a-backend deepep \
    --deepep-mode auto \
    --decode-log-interval 1 \
    --page-size 1 \
    --host 0.0.0.0 \
    --port 9001 \
    --trust-remote-code \
    --watchdog-timeout 1000000 \
    --mem-fraction-static 0.65 \
    --chunked-prefill-size 16384 \
    --reasoning-parser qwen3 \
    --tool-call-parser mimo \
    --context-length 262144 \
    --collect-tokens-histogram \
    --enable-metrics \
    --load-balance-method round_robin \
    --allow-auto-truncate \
    --enable-metrics-for-all-schedulers \
    --quantization fp8 \
    --skip-server-warmup \
    --moe-dense-tp-size 1 \
    --enable-dp-lm-head \
    --disable-tokenizer-batch-decode \
    --mm-enable-dp-encoder \
    --attention-backend fa3 \
    --mm-attention-backend fa3

vLLM 部署

为获得最佳性能，我们强烈建议采用此方法进行部署，该方法得到 vLLM 社区的官方支持。最新部署指南请参考 vLLM MiMo-V2-Flash Cookbook。

本地部署时，建议将采样参数设置为 temperature=1.0、top_p=0.95。

引用

@misc{mimov25,
  title={MiMo-V2.5},
  year={2026},
  howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}

联系方式

如有任何问题或反馈，请通过mimo@xiaomi.com与我们联系，或加入我们的社区：