| 🤗 HuggingFace | 📔 技术报告 | 📰 博客 |

立即体验！ 🗨️ Xiaomi MiMo Studio 🎨 Xiaomi MiMo API 平台

MiMo-V2-Flash

MiMo-V2-Flash 是一款混合专家（Mixture-of-Experts, MoE）语言模型，总参数量达 3090 亿，激活参数量为 150 亿。该模型专为高速推理和智能体工作流设计，采用创新的混合注意力架构和多 token 预测（Multi-Token Prediction, MTP）技术，在实现业界领先性能的同时，大幅降低了推理成本。

1. 简介

MiMo-V2-Flash 在长上下文建模能力与推理效率之间实现了新的平衡。其核心特性包括：

混合注意力架构：以 5:1 的比例交错使用滑动窗口注意力（Sliding Window Attention, SWA）和全局注意力（Global Attention, GA），并采用 128 token 的压缩窗口。通过可学习的 注意力汇聚偏差（attention sink bias），在将 KV 缓存存储量降低近 6 倍的同时，仍保持了长上下文性能。
- 多 Token 预测（MTP）：配备轻量级 MTP 模块（每模块 0.33B 参数），采用密集型前馈网络（FFN）。该模块将推理阶段的输出速度提升 3 倍，并有助于加速强化学习（RL）训练中的策略展开（rollout）过程。
- 高效预训练：基于 27 万亿 tokens 数据集，采用 FP8 混合精度训练，原生支持 32k 序列长度，上下文窗口可扩展至 256k。
- 智能体能力：通过多教师在线策略蒸馏（Multi-Teacher On-Policy Distillation, MOPD）和大规模智能体强化学习（agentic RL）进行后训练，在 SWE-Bench 及复杂推理任务上表现卓越。

2. 模型下载

模型名称	总参数量	激活参数量	上下文长度	下载地址
MiMo-V2-Flash-Base	309B	15B	256k	🤗 HuggingFace
MiMo-V2-Flash	309B	15B	256k	🤗 HuggingFace

[!IMPORTANT] 我们还开源了3层MTP权重，以促进社区研究。

3. 评估结果

基础模型评估

MiMo-V2-Flash-Base在各项标准基准测试中均展现出强劲性能，超越了参数量显著更大的模型。

类别	基准测试	设置/长度	MiMo-V2-Flash Base	Kimi-K2 Base	DeepSeek-V3.1 Base	DeepSeek-V3.2 Exp Base
参数量	激活参数量 / 总参数量	-	15B / 309B	32B / 1043B	37B / 671B	37B / 671B
通用能力	BBH	3-shot	88.5	88.7	88.2	88.7
	MMLU	5-shot	86.7	87.8	87.4	87.8
	MMLU-Redux	5-shot	90.6	90.2	90.0	90.4
	MMLU-Pro	5-shot	73.2	69.2	58.8	62.1
	DROP	3-shot	84.7	83.6	86.3	86.6
	ARC-Challenge	25-shot	95.9	96.2	95.6	95.5
	HellaSwag	10-shot	88.5	94.6	89.2	89.4
	WinoGrande	5-shot	83.8	85.3	85.9	85.6
	TriviaQA	5-shot	80.3	85.1	83.5	83.9
	GPQA-Diamond	5-shot	55.1	48.1	51.0	52.0
	SuperGPQA	5-shot	41.1	44.7	42.3	43.6
	SimpleQA	5-shot	20.6	35.3	26.3	27.0
数学能力	GSM8K	8-shot	92.3	92.1	91.4	91.1
	MATH	4-shot	71.0	70.2	62.6	62.5
	AIME 24&25	2-shot	35.3	31.6	21.6	24.8
代码能力	HumanEval+	1-shot	70.7	84.8	64.6	67.7
	MBPP+	3-shot	71.4	73.8	72.2	69.8
	CRUXEval-I	1-shot	67.5	74.0	62.1	63.9
	CRUXEval-O	1-shot	79.1	83.5	76.4	74.9
	MultiPL-E HumanEval	0-shot	59.5	60.5	45.9	45.7
	MultiPL-E MBPP	0-shot	56.7	58.8	52.5	50.6
	BigCodeBench	0-shot	70.1	61.7	63.0	62.9
	LiveCodeBench v6	1-shot	30.8	26.3	24.8	24.9
	SWE-Bench (AgentLess)	3-shot	30.8	28.2	24.8	9.4*
中文能力	C-Eval	5-shot	87.9	92.5	90.0	91.0
	CMMLU	5-shot	87.4	90.9	88.8	88.9
	C-SimpleQA	5-shot	61.5	77.6	70.9	68.0
多语言能力	GlobalMMLU	5-shot	76.6	80.7	81.9	82.0
	INCLUDE	5-shot	71.4	75.3	77.2	77.2
长上下文能力	NIAH-Multi	32K	99.3	99.8	99.7	85.6*
		64K	99.9	100.0	98.6	85.9*
		128K	98.6	99.5	97.2	94.3*
		256K	96.7	-	-	-
	GSM-Infinite Hard	16K	37.7	34.6	41.5	50.4
		32K	33.7	26.1	38.8	45.2
		64K	31.5	16.0	34.7	32.6
		128K	29.0	8.8	28.7	25.7

* 表示模型可能无法遵循提示或格式要求。

训练后模型评估

遵循我们结合MOPD和智能体强化学习的训练后范式，该模型实现了SOTA级别的推理能力和智能体性能。

基准测试	MiMo-V2 Flash	Kimi-K2 Thinking	DeepSeek-V3.2 Thinking	Gemini-3.0 Pro	Claude Sonnet 4.5	GPT-5 High
推理能力
MMLU-Pro	84.9	84.6	85.0	90.1	88.2	87.5
GPQA-Diamond	83.7	84.5	82.4	91.9	83.4	85.7
HLE（无工具）	22.1	23.9	25.1	37.5	13.7	26.3
AIME 2025	94.1	94.5	93.1	95.0	87.0	94.6
HMMT 2025年2月	84.4	89.4	92.5	97.5	79.2	88.3
LiveCodeBench-v6	80.6	83.1	83.3	90.7	64.0	84.5
通用写作
Arena-Hard（困难提示）	54.1	71.9	53.4	72.6	63.3	71.9
Arena-Hard（创意写作）	86.2	80.1	88.8	93.6	76.7	92.2
长上下文
LongBench V2	60.6	45.1	58.4	65.6	61.8	-
MRCR	45.7	44.2	55.5	89.7	55.4	-
代码智能体
SWE-Bench Verified	73.4	71.3	73.1	76.2	77.2	74.9
SWE-Bench Multilingual	71.7	61.1	70.2	-	68.0	55.3
Terminal-Bench Hard	30.5	30.6	35.4	39.0	33.3	30.5
Terminal-Bench 2.0	38.5	35.7	46.4	54.2	42.8	35.2
通用智能体
BrowseComp	45.4	-	51.4	-	24.1	54.9
BrowseComp（含上下文管理）	58.3	60.2	67.6	59.2	-	-
$\tau^2$-Bench	80.3	74.3	80.3	85.4	84.7	80.2

4. 模型架构

混合滑动窗口注意力

MiMo-V2-Flash通过交替使用局部滑动窗口注意力（SWA）和全局注意力（GA），解决了长上下文带来的二次复杂度问题。

配置：由$M=8$个混合块堆叠而成。每个块包含$N=5$个SWA层，随后是1个GA层。
- 效率：SWA层采用128个token的窗口大小，显著减少了KV缓存。
- 汇聚偏置：应用可学习的注意力汇聚偏置，以在窗口大小设置得较大的情况下仍保持性能。

轻量级多Token预测（MTP）

与传统的投机解码不同，我们的MTP模块原生集成于训练和推理过程中。

结构：使用密集前馈网络（FFN，而非MoE）和SWA（而非GA），以保持较低的参数数量（每个块0.33B）。
- 性能：支持自我投机解码，将生成速度提高三倍，并在小批量强化学习训练期间减少GPU空闲时间。

5. 训练后技术亮点

MiMo-V2-Flash利用训练后处理流程，通过创新的蒸馏和强化学习策略，最大限度地提升推理能力和智能体能力。

5.1 多教师在线策略蒸馏（MOPD）

我们提出了多教师在线策略蒸馏（MOPD），这是一种将知识蒸馏构建为强化学习过程的新范式。

密集Token级指导：与依赖稀疏序列级反馈的方法不同，MOPD利用特定领域的专家模型（教师）在每个token位置提供监督。
在线策略优化：学生模型从自身生成的响应中学习，而非固定数据集。这消除了暴露偏差，并确保梯度更新更小、更稳定。
内在奖励鲁棒性：奖励源自学生与教师之间的分布差异，使该过程天然具备抵抗奖励攻击的能力。

5.2 规模化智能体强化学习

我们显著扩展了智能体训练环境，以提升智能水平和泛化能力。

大规模代码智能体环境：我们利用真实世界的GitHub issues创建了超过100,000个可验证任务。我们的自动化流水线维护着一个Kubernetes集群，能够运行超过10,000个并发pod，环境设置成功率达70%。
Web开发多模态验证器：针对Web开发任务，我们采用基于视觉的验证器，通过录制视频而非静态截图来评估代码执行情况。这减少了视觉幻觉，并确保功能正确性。
跨领域泛化：我们的实验表明，在代码智能体上进行大规模强化学习训练能够有效地泛化到其他领域，提升数学和通用智能体任务的性能。

5.3 高级强化学习基础设施

为了支持大规模MoE模型的高吞吐量强化学习训练，我们在SGLang和Megatron-LM的基础上实现了多项基础设施优化。

Rollout Routing Replay (R3)：解决了MoE路由在推理和训练之间的数值精度不一致问题。R3在训练过程中重用rollout阶段确切的路由专家，确保一致性的同时带来可忽略的开销。
请求级前缀缓存：在多轮智能体训练中，此缓存存储来自先前轮次的KV状态和路由专家。它避免了重复计算，并确保跨轮次的采样一致性。
细粒度数据调度器：我们扩展了rollout引擎，以调度细粒度序列而非微批次。结合部分rollout，这显著减少了由长尾拖慢者导致的GPU空闲时间。
工具箱与工具管理器：采用基于Ray actor池的两层设计来处理资源竞争。它消除了工具执行的冷启动延迟，并将任务逻辑与系统策略隔离开来。

6. 推理与部署

MiMo-V2-Flash支持FP8混合精度推理。我们建议使用SGLang以获得最佳性能。

使用建议：我们建议将采样参数设置为temprature=0.8, top_p=0.95。

使用 SGLang 快速入门

pip install sglang

# Launch server
python3 -m sglang.launch_server \
        --model-path XiaomiMiMo/MiMo-V2-Flash \
        --served-model-name mimo-v2-flash \
        --pp-size 1 \
        --dp-size 2 \
        --enable-dp-attention \
        --tp-size 8 \
        --moe-a2a-backend deepep \
        --page-size 1 \
        --host 0.0.0.0 \
        --port 9001 \
        --trust-remote-code \
        --mem-fraction-static 0.75 \
        --max-running-requests 128 \
        --chunked-prefill-size 16384 \
        --reasoning-parser qwen3 \
        --tool-call-parser mimo \
        --context-length 262144 \
        --attention-backend fa3 \
        --speculative-algorithm EAGLE \
        --speculative-num-steps 3 \
        --speculative-eagle-topk 1 \
        --speculative-num-draft-tokens 4 \
        --enable-mtp

# Send request
curl -i http://localhost:9001/v1/chat/completions \
    -H 'Content-Type:application/json' \
    -d  '{
            "messages" : [{
                "role": "user",
                "content": "Nice to meet you MiMo"
            }],
            "model": "mimo-v2-flash",
            "max_tokens": 4096,
            "temperature": 0.8,
            "top_p": 0.95,
            "stream": true,
            "chat_template_kwargs": {
                "enable_thinking": true
            }
        }'

通知

1. 系统提示

[!IMPORTANT] 强烈建议使用以下系统提示，请从英文和中文版本中选择。

英文

You are MiMo, an AI assistant developed by Xiaomi.

Today's date: {date} {week}. Your knowledge cutoff date is December 2024.

中文

你是MiMo（中文名称也是MiMo），是小米公司研发的AI智能助手。

今天的日期：{date} {week}，你的知识截止日期是2024年12月。

2. 采样参数

[!IMPORTANT] 推荐采样参数：

top_p=0.95

数学、写作、网络开发任务建议 temperature=0.8

智能体任务（例如，氛围编码、工具使用）建议 temperature=0.3

3. 工具使用实践

[!IMPORTANT] 在多轮工具调用的思考模式下，模型会在 tool_calls 字段之外返回一个 reasoning_content 字段。为继续对话，用户必须在后续每个请求的 messages 数组中保留所有历史 reasoning_content。

7. 引用

如果您发现我们的工作有帮助，请引用我们的技术报告：

@misc{mimo2025flash,
  title={MiMo-V2-Flash Technical Report},
  author={LLM-Core Xiaomi},
  year={2025},
  url={https://github.com/XiaomiMiMo/MiMo-V2-Flash/paper.pdf}
}

8. 联系方式

如有任何问题，请通过 mimo@xiaomi.com 与我们联系、加入下方的微信群，或提交 issue。