Xiaomi MiMo/MiMo-V2.5-Pro
模型介绍文件和版本Pull Requests讨论分析
下载使用量0



Xiaomi-MiMo

| 🤗 HuggingFace  | 📰 博客  | 🎨 Xiaomi MiMo API 平台  | 🗨️ Xiaomi MiMo Studio  |

社区
微信群  |  Discord  |  Telegram  |  Reddit

MiMo-V2.5-Pro

MiMo-V2.5-Pro 是一款开源的混合专家(MoE)语言模型,总参数量达 1.02T,激活参数量为 42B。它采用了 MiMo-V2-Flash 中引入的混合注意力架构和 3 层多 token 预测(MTP)技术,上下文长度最高支持 100 万 token。

Benchmark Results

1. 简介

MiMo-V2.5-Pro 是我们目前性能最强的模型,专为最具挑战性的智能体任务、复杂软件工程以及长周期任务而设计。它能在 100 万 token 的上下文窗口内,凭借出色的指令遵循能力和连贯性,支持包含数千次工具调用的复杂任务流程。主要特性包括:

  • 混合注意力架构:以 6:1 的比例交错使用滑动窗口注意力(SWA)和全局注意力(GA),滑动窗口大小为 128。通过可学习的注意力汇聚偏差,在保持长上下文性能的同时,将 KV 缓存存储量减少近 7 倍。
  • 多 token 预测(MTP):配备三个基于密集前馈网络(FFN)的轻量级 MTP 模块。这使得推理时的输出速度提升三倍,并将有助于加速强化学习训练中的轨迹生成。
  • 高效预训练:采用 FP8 混合精度和原生 32k 序列长度,在 27T token 数据集上完成训练。上下文窗口支持高达 100 万 token。
  • 智能体能力:通过指令微调(SFT)、大规模智能体强化学习以及多教师在线策略蒸馏(MOPD)等技术进行后训练,在最具挑战性的智能体任务、复杂软件工程和长周期任务上实现了卓越性能。

2. 模型下载

模型总参数激活参数上下文长度精度下载
MiMo-V2.5-Pro1.02T42B1MFP8 (E4M3) 混合精度🤗 HuggingFace
MiMo-V2.5-Pro-Base1.02T42B256KFP8 (E4M3) 混合精度🤗 HuggingFace

3. 评估结果

基础模型评估

类别基准测试设置MiMo-V2.5-Pro BaseMiMo-V2.5 BaseDeepSeek-V4-Pro BaseDeepSeek-V4-Flash BaseKimi-K2 Base
参数#激活参数 / #总参数-42B / 1.02T15B / 310B49B / 1.6T13B / 284B32B / 1.04T
通用能力BBH3-shot88.487.287.586.988.7
MMLU5-shot89.486.390.188.787.8
MMLU-Redux5-shot92.889.890.889.490.2
MMLU-Pro5-shot68.565.873.568.369.2
DROP3-shot86.383.788.788.683.6
ARC-Challenge25-shot97.296.5--96.2
HellaSwag10-shot89.888.688.085.794.6
WinoGrande5-shot85.684.781.579.585.3
TriviaQA5-shot81.380.785.682.885.1
GPQA-Diamond5-shot66.758.1--48.1
数学能力GSM8K8-shot99.683.392.690.892.1
MATH4-shot86.267.764.557.470.2
AIME 24&252-shot37.336.9--31.6
代码能力HumanEval+1-shot75.671.3--84.8
MBPP+3-shot74.170.9--73.8
LiveCodeBench v61-shot39.635.5--26.3
SWE-Bench (AgentLess)3-shot35.730.8--28.2
中文能力C-Eval5-shot91.588.693.192.192.5
CMMLU5-shot90.288.290.890.490.9
多语言能力GlobalMMLU5-shot83.677.4--80.7

长文本上下文评估

Post-training Evaluation

GraphWalks 是 OpenAI 推出的一项长文本上下文基准测试,它在提示词中嵌入由十六进制哈希节点构成的有向图,并要求模型执行广度优先搜索(找出深度恰好为 N 的节点)或列出某个节点的父节点。我们在 32k 至 100 万输入 tokens 的完整范围内进行了评估,并采用了 Anthropic 所述的相同评估修正方法。

MiMo V2.5 Pro 在长文本上下文推理方面实现了重大飞跃。超过 128k tokens 后,V2 Pro 的性能便迅速下降,在 100 万 tokens 时两项子任务的得分均降至 0.00;而 V2.5 Pro 在 512k tokens 时仍能获得 0.56(BFS 任务)/ 0.92(父节点任务)的分数,在 100 万 tokens 时也保持在 0.37 / 0.62。

4. 模型架构与训练过程

MiMo-V2.5-Pro 通过交错使用局部滑动窗口注意力(SWA)和全局注意力(GA),解决了长文本上下文带来的二次复杂度问题。与传统的投机解码不同,我们的 MTP 模块在训练和推理阶段均实现了原生集成。

Model Architecture

模型概要

组件MiMo-V2.5-ProMiMo-V2.5
总参数数量1.02T310B
激活参数数量42B15B
隐藏层维度61444096
网络层数70(1 层密集 + 69 层 MoE)48(1 层密集 + 47 层 MoE)
全注意力层数109
滑动窗口注意力(SWA)层数6039
注意力头数量12864
KV 头数量8(GQA)8(GA)/ 4(SWA)
头维度(QK / V)192 / 128192 / 128
路由专家数量384256
每 token 专家数88
MoE 中间层维度20482048
密集中间层维度16384(仅第 0 层)16384(仅第 0 层)
SWA 窗口大小128128
最大上下文长度1M1M
MTP 层数33

训练过程

在后期训练阶段,MiMo-V2.5-Pro 采用了 MiMo-V2-Flash 中提出的三阶段后期训练范式,以实现卓越性能。该范式首先通过监督微调(SFT),利用精选的数据对构建强大的基础指令遵循能力。接下来,在领域专项训练阶段,针对从数学、安全到复杂智能体工具使用等不同领域,使用特定领域的强化学习奖励对多样化的教师模型进行单独优化。最后,通过多教师在线策略蒸馏(MOPD)完成整个训练过程。通过动态在线策略强化学习,单个学生模型从自身输出中迭代学习,并持续接收来自专家教师的精确 token 级指导,从而无缝整合广泛能力。

5. 部署

由于推理引擎在持续更新和优化,本指南仅提供部署示例供参考。为获得最佳性能,我们强烈建议遵循我们引用的方法,以获取最新的最佳实践和最优性能。

SGLang 部署

为获得最佳性能,我们强烈建议采用此部署方式,该方式得到 SGLang 社区的官方支持。最新部署指南请参考 SGLang MiMo-V2.5-Pro Cookbook。

以下是使用 SGLang 运行模型的示例,引用自 sgl-project/sglang#23808:

SGLANG_ENABLE_SPEC_V2=1
SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=256
python3 -m sglang.launch_server \
              --model-path XiaomiMiMo/MiMo-V2.5-Pro \
              --trust-remote-code \
              --pp-size 1 \
              --dp-size 2 \
              --ep-size 16 \
              --tp-size 16 \
              --moe-dense-tp-size 1 \
              --enable-dp-attention \
              --moe-a2a-backend deepep \
              --dist-init-addr ${LWS_LEADER_IP}:20000 \
              --node-rank ${LWS_WORKER_INDEX} \
              --nnodes ${LWS_GROUP_SIZE} \
              --page-size 64 \
              --attention-backend fa3 \
              --quantization fp8 \
              --mem-fraction-static 0.7 \
              --max-running-requests 128 \
              --cuda-graph-max-bs 64 \
              --chunked-prefill-size 32768 \
              --context-length 1048576 \
              --tokenizer-worker-num 64 \
              --speculative-algorithm EAGLE \
              --speculative-num-steps 3 \
              --speculative-eagle-topk 1 \
              --speculative-num-draft-tokens 4 \
              --enable-multi-layer-eagle \
              --host 0.0.0.0 \
              --port 9001 \
              --reasoning-parser mimo \
              --tool-call-parser mimo \
              --watchdog-timeout 3600 \
              --model-loader-extra-config '{"enable_multithread_load": "true","num_threads": 64}'

vLLM 部署

为获得最佳性能,我们强烈建议采用此方法进行部署,该方法得到了 vLLM 社区的官方支持。最新部署指南请参考 vLLM MiMo-V2.5-Pro Cookbook。

对于本地部署,我们建议将采样参数设置为 temperature=1.0,top_p=0.95。

引用

@misc{mimo2026v25pro,
  title={MiMo-V2.5-Pro},
  author={{Xiaomi MiMo Team}},
  year={2026},
  howpublished={\url{https://huggingface.co/collections/XiaomiMiMo/mimo-v25}},
}

联系方式

如您有任何问题或反馈,请通过mimo@xiaomi.com与我们联系,或加入我们的社区:

  • 微信群
  • Discord
  • Telegram
  • Reddit