社区
微信群 | Discord | Telegram | Reddit

⚠️ 重要提示：配置更新通知

本仓库中的 config.json 和 tokenizer_config.json 文件自初始发布后已进行更新。如果您在此次提交（4da2748）之前下载了 MiMo-V2.5，请重新拉取或手动更新这两个文件，以确保模型正常运行。使用过时的配置可能会导致模型性能下降。对于由此带来的任何不便，我们深表歉意。

快速修复：

hf download XiaomiMiMo/MiMo-V2.5 config.json tokenizer_config.json --local-dir ./MiMo-V2.5

MiMo-V2.5

1. 引言

MiMo-V2.5 是一款具备强大智能体能力的原生全模态模型，在统一架构下支持文本、图像、视频及音频理解。该模型基于 MiMo-V2-Flash 骨干网络构建，并扩展了专用的视觉和音频编码器，在多模态感知、长上下文推理及智能体工作流方面均展现出卓越性能。其主要特性包括：

混合注意力架构：继承 MiMo-V2-Flash 的混合设计，以 5:1 的比例交错使用滑动窗口注意力（SWA）和全局注意力（GA），滑动窗口大小为 128。通过可学习的注意力汇聚偏置，在保持长上下文性能的同时，将 KV 缓存存储量减少近 6 倍。
原生全模态编码器：配备一个具有混合窗口注意力机制的 7.29 亿参数视觉Transformer（ViT），以及一个从 MiMo-Audio 权重初始化的专用音频编码器，可实现高质量的图像、视频和音频理解。
多令牌预测（MTP）：三个带有密集前馈网络（FFN）的轻量级 MTP 模块，通过投机解码加速推理，并提高强化学习（RL）训练效率。
高效预训练：采用 FP8 混合精度在约 48T 令牌数据集上进行训练。上下文窗口支持最多 100 万令牌。
智能体能力：训练后期融入了监督微调（SFT）、大规模智能体强化学习（RL）以及多教师在线策略蒸馏（MOPD），在智能体任务和多模态理解基准测试中均取得优异表现。

模型概要

架构：稀疏混合专家模型（MoE），总参数 3100 亿 / 激活参数 150 亿
上下文长度：最多 100 万令牌
模态：文本、图像、视频、音频
视觉编码器：7.29 亿参数 ViT（28 层：24 层 SWA + 4 层全注意力）
音频编码器：2.61 亿参数音频 Transformer（24 层：12 层 SWA + 12 层全注意力）
多令牌预测（MTP）：3.29 亿参数，3 层

2. 下载

模型	上下文长度	下载链接
MiMo-V2.5-Base	256K	🤗 HuggingFace 🤖 ModelScope
MiMo-V2.5	1M	🤗 HuggingFace 🤖 ModelScope

3. 评估结果

多模态基准测试

代码与智能体基准测试

MiMo-V2.5 Coding and Agentic Benchmark Results

长上下文基准测试

4. 模型架构

大语言模型骨干网络

MiMo-V2.5 的核心语言骨干网络继承自 MiMo-V2-Flash 架构，这是一种具有混合滑动窗口注意力机制的稀疏 MoE 模型。

组件	MiMo-V2.5-Pro	MiMo-V2.5
总参数量	1.02T	310B
激活参数量	42B	15B
隐藏层维度	6144	4096
网络层数	70（1 层密集 + 69 层 MoE）	48（1 层密集 + 47 层 MoE）
全注意力层数	10	9
滑动窗口注意力层数	60	39
注意力头数	128	64
键值头数	8（GQA）	8（GA）/ 4（SWA）
头维度（QK / V）	192 / 128	192 / 128
路由专家数量	384	256
每 token 专家数	8	8
MoE 中间层维度	2048	2048
密集中间层维度	16384（仅第 0 层）	16384（仅第 0 层）
滑动窗口注意力窗口大小	128	128
最大上下文长度	1M	1M
MTP 层数	3	3

视觉编码器

我们训练了专用的 MiMo ViT，该模型采用滑动窗口注意力机制以实现高效的视觉编码。

配置项	数值
总层数	28
滑动窗口注意力层数	24
全注意力层数	4
窗口注意力模式	[-1] + [0,0,0,0,1,1,1,1,-1] × 3
注意力头数（Q / KV）	32 / 8
头维度（QK / V）	64 / 64
滑动窗口大小（长 / 宽）	64 / 64

窗口模式说明：-1 = 全注意力，0 = 一维行窗口，1 = 一维列窗口。

音频编码器

我们的音频编码器初始化为 MiMo-Audio-Tokenizer 的权重，并经过进一步微调以支持高质量的音频理解。

配置项	数值
总层数	24
滑动窗口注意力层数	12
全注意力层数	12
滑动窗口大小	128
注意力头数（Q / KV）	16 / 16
头维度（QK / V）	64 / 64

5. 训练过程

MiMo-V2.5 的训练共使用约 48T tokens。

文本预训练：收集多样化文本数据用于预训练 LLM 骨干网络。
投影器预热：对多模态投影器（音频和视觉 MLP 投影器）进行短时间预热。
多模态预训练：收集高质量多模态数据进行大规模预训练。
SFT 与智能体后续训练：使用多样化智能体数据进行有监督微调。在此阶段，上下文窗口从 32K 逐步扩展至 256K，最终达到 1M。
RL 与 MOPD 训练：通过强化学习提升感知、推理及智能体能力。

6. 部署

由于推理引擎在持续更新和优化，本指南仅提供部署示例供参考。为获得最佳性能，我们强烈建议遵循我们推荐的方法，以获取最新的最佳实践和最优性能。

SGLang 部署

为获得最佳性能，我们强烈推荐使用此方法进行部署，该方法得到 SGLang 社区的官方支持。最新部署指南请参考 SGLang MiMo-V2.5 Cookbook。

以下是使用 SGLang 运行模型的示例，引用自 sgl-project/sglang#23811：

python3 -m sglang.launch_server \
    --model-path XiaomiMiMo/MiMo-V2.5 \
    --served-model-name mimo-v2.5 \
    --log-level-http warning \
    --enable-cache-report \
    --pp-size 1 \
    --dp-size 2 \
    --tp-size 8 \
    --enable-dp-attention \
    --moe-a2a-backend deepep \
    --deepep-mode auto \
    --decode-log-interval 1 \
    --page-size 1 \
    --host 0.0.0.0 \
    --port 9001 \
    --trust-remote-code \
    --watchdog-timeout 1000000 \
    --mem-fraction-static 0.65 \
    --chunked-prefill-size 16384 \
    --reasoning-parser qwen3 \
    --tool-call-parser mimo \
    --context-length 262144 \
    --collect-tokens-histogram \
    --enable-metrics \
    --load-balance-method round_robin \
    --allow-auto-truncate \
    --enable-metrics-for-all-schedulers \
    --quantization fp8 \
    --skip-server-warmup \
    --moe-dense-tp-size 1 \
    --enable-dp-lm-head \
    --disable-tokenizer-batch-decode \
    --mm-enable-dp-encoder \
    --attention-backend fa3 \
    --mm-attention-backend fa3

vLLM 部署

为获得最佳性能，我们强烈建议采用此方法进行部署，该方法得到了 vLLM 社区的官方支持。最新部署指南请参考 vLLM MiMo-V2-Flash 实用指南。

本地部署时，建议将采样参数设置为 temperature=1.0，top_p=0.95。

引用

@misc{mimov25,
  title={MiMo-V2.5},
  year={2026},
  howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}

联系方式

如有任何问题或反馈，请通过mimo@xiaomi.com与我们联系，或加入我们的社区：