config.json 和 tokenizer_config.json 文件自初始发布后已进行更新。如果您在此次 提交(4da2748) 之前下载了 MiMo-V2.5,请重新拉取或手动更新这两个文件,以确保模型正常运行。使用过时的配置可能会导致模型性能下降。对于由此带来的任何不便,我们深表歉意。hf download XiaomiMiMo/MiMo-V2.5 config.json tokenizer_config.json --local-dir ./MiMo-V2.5
MiMo-V2.5 是一款具备强大智能体能力的原生全模态模型,在统一架构下支持文本、图像、视频及音频理解。该模型基于 MiMo-V2-Flash 骨干网络构建,并扩展了专用的视觉和音频编码器,在多模态感知、长上下文推理及智能体工作流方面均展现出卓越性能。其主要特性包括:
混合注意力架构:继承 MiMo-V2-Flash 的混合设计,以 5:1 的比例交错使用滑动窗口注意力(SWA)和全局注意力(GA),滑动窗口大小为 128。通过可学习的注意力汇聚偏置,在保持长上下文性能的同时,将 KV 缓存存储量减少近 6 倍。
原生全模态编码器:配备一个具有混合窗口注意力机制的 7.29 亿参数视觉Transformer(ViT),以及一个从 MiMo-Audio 权重初始化的专用音频编码器,可实现高质量的图像、视频和音频理解。
多令牌预测(MTP):三个带有密集前馈网络(FFN)的轻量级 MTP 模块,通过投机解码加速推理,并提高强化学习(RL)训练效率。
高效预训练:采用 FP8 混合精度在约 48T 令牌数据集上进行训练。上下文窗口支持最多 100 万令牌。
智能体能力:训练后期融入了监督微调(SFT)、大规模智能体强化学习(RL)以及多教师在线策略蒸馏(MOPD),在智能体任务和多模态理解基准测试中均取得优异表现。
| 模型 | 上下文长度 | 下载链接 |
|---|---|---|
| MiMo-V2.5-Base | 256K | 🤗 HuggingFace 🤖 ModelScope |
| MiMo-V2.5 | 1M | 🤗 HuggingFace 🤖 ModelScope |
MiMo-V2.5 的核心语言骨干网络继承自 MiMo-V2-Flash 架构,这是一种具有混合滑动窗口注意力机制的稀疏 MoE 模型。
| 组件 | MiMo-V2.5-Pro | MiMo-V2.5 |
|---|---|---|
| 总参数量 | 1.02T | 310B |
| 激活参数量 | 42B | 15B |
| 隐藏层维度 | 6144 | 4096 |
| 网络层数 | 70(1 层密集 + 69 层 MoE) | 48(1 层密集 + 47 层 MoE) |
| 全注意力层数 | 10 | 9 |
| 滑动窗口注意力层数 | 60 | 39 |
| 注意力头数 | 128 | 64 |
| 键值头数 | 8(GQA) | 8(GA)/ 4(SWA) |
| 头维度(QK / V) | 192 / 128 | 192 / 128 |
| 路由专家数量 | 384 | 256 |
| 每 token 专家数 | 8 | 8 |
| MoE 中间层维度 | 2048 | 2048 |
| 密集中间层维度 | 16384(仅第 0 层) | 16384(仅第 0 层) |
| 滑动窗口注意力窗口大小 | 128 | 128 |
| 最大上下文长度 | 1M | 1M |
| MTP 层数 | 3 | 3 |
我们训练了专用的 MiMo ViT,该模型采用滑动窗口注意力机制以实现高效的视觉编码。
| 配置项 | 数值 |
|---|---|
| 总层数 | 28 |
| 滑动窗口注意力层数 | 24 |
| 全注意力层数 | 4 |
| 窗口注意力模式 | [-1] + [0,0,0,0,1,1,1,1,-1] × 3 |
| 注意力头数(Q / KV) | 32 / 8 |
| 头维度(QK / V) | 64 / 64 |
| 滑动窗口大小(长 / 宽) | 64 / 64 |
窗口模式说明:-1 = 全注意力,0 = 一维行窗口,1 = 一维列窗口。
我们的音频编码器初始化为 MiMo-Audio-Tokenizer 的权重,并经过进一步微调以支持高质量的音频理解。
| 配置项 | 数值 |
|---|---|
| 总层数 | 24 |
| 滑动窗口注意力层数 | 12 |
| 全注意力层数 | 12 |
| 滑动窗口大小 | 128 |
| 注意力头数(Q / KV) | 16 / 16 |
| 头维度(QK / V) | 64 / 64 |
MiMo-V2.5 的训练共使用约 48T tokens。
由于推理引擎在持续更新和优化,本指南仅提供部署示例供参考。为获得最佳性能,我们强烈建议遵循我们推荐的方法,以获取最新的最佳实践和最优性能。
为获得最佳性能,我们强烈推荐使用此方法进行部署,该方法得到 SGLang 社区的官方支持。最新部署指南请参考 SGLang MiMo-V2.5 Cookbook。
以下是使用 SGLang 运行模型的示例,引用自 sgl-project/sglang#23811:
python3 -m sglang.launch_server \
--model-path XiaomiMiMo/MiMo-V2.5 \
--served-model-name mimo-v2.5 \
--log-level-http warning \
--enable-cache-report \
--pp-size 1 \
--dp-size 2 \
--tp-size 8 \
--enable-dp-attention \
--moe-a2a-backend deepep \
--deepep-mode auto \
--decode-log-interval 1 \
--page-size 1 \
--host 0.0.0.0 \
--port 9001 \
--trust-remote-code \
--watchdog-timeout 1000000 \
--mem-fraction-static 0.65 \
--chunked-prefill-size 16384 \
--reasoning-parser qwen3 \
--tool-call-parser mimo \
--context-length 262144 \
--collect-tokens-histogram \
--enable-metrics \
--load-balance-method round_robin \
--allow-auto-truncate \
--enable-metrics-for-all-schedulers \
--quantization fp8 \
--skip-server-warmup \
--moe-dense-tp-size 1 \
--enable-dp-lm-head \
--disable-tokenizer-batch-decode \
--mm-enable-dp-encoder \
--attention-backend fa3 \
--mm-attention-backend fa3为获得最佳性能,我们强烈建议采用此方法进行部署,该方法得到了 vLLM 社区的官方支持。最新部署指南请参考 vLLM MiMo-V2-Flash 实用指南。
本地部署时,建议将采样参数设置为 temperature=1.0,top_p=0.95。
@misc{mimov25,
title={MiMo-V2.5},
year={2026},
howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}如有任何问题或反馈,请通过mimo@xiaomi.com与我们联系,或加入我们的社区: