MiMo-7B-SFT:基于基础模型训练的SFT模型

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
释放语言模型的推理潜能
从预训练到后训练的探索
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

更新日志

[2025.05.30] 我们将SFT数据集从约50万条扩展至600万条，并持续将RL训练窗口大小从32K扩展至48K。MiMo-7B-RL-0530在AIME24上的性能得到持续提升，最终超过DeepSeek R1（79.8）。

评测基准	MiMo-7B-RL	MiMo-7B-RL-0530
数学
MATH500 (Pass@1)	95.8	97.2
AIME 2024 (Pass@1)	68.2	80.1
AIME 2025 (Pass@1)	55.4	70.2
代码
LiveCodeBench v5 (Pass@1)	57.8	60.9
LiveCodeBench v6 (Pass@1)	49.3	52.2
STEM
GPQA-Diamond (Pass@1)	54.4	60.6
通用能力
Alignbench1.1 (由GPT4.1评估)	6.9	7.4

I. 引言

目前，大多数成功的强化学习（RL）研究成果，包括开源研究，都依赖于相对较大的基础模型，例如32B模型，尤其是在增强代码推理能力方面。此外，人们普遍认为，在小型模型中同时实现数学和代码能力的均衡且同步提升具有挑战性。尽管如此，我们认为通过RL训练得到的推理模型的效果取决于基础模型固有的推理潜力。为了充分释放语言模型的推理潜力，不仅要关注训练后的优化，还必须致力于针对推理任务量身定制的预训练策略。

在本研究中，我们提出了MiMo-7B，这是一系列从零开始训练、专为推理任务而生的模型。我们基于MiMo-7B-Base进行的RL实验表明，我们的模型拥有非凡的推理潜力，甚至超越了更大的32B模型。此外，我们在冷启动的SFT模型上进行了RL训练，得到了MiMo-7B-RL，该模型在数学和代码推理任务上均表现出卓越性能，可与OpenAI o1-mini相媲美。

我们开源了MiMo-7B系列模型，包括基础模型、SFT模型、基于基础模型训练的RL模型以及基于SFT模型训练的RL模型的检查点。我们相信本报告以及所开源的模型将为开发强大的推理LLM提供宝贵见解，造福更广泛的社区。

🌟 亮点

预训练：为推理而生的基础模型
- 我们优化了数据预处理 pipeline，增强了文本提取工具包，并应用了多维度数据过滤，以提高预训练数据中推理模式的密度。我们还采用多种策略生成海量多样的合成推理数据。
- 我们在预训练中采用了三阶段数据混合策略。总体而言，MiMo-7B-Base 是在约25万亿 tokens 上进行预训练的。
- 我们将多 token 预测（Multiple-Token Prediction, MTP）作为额外的训练目标，这有助于提升模型性能并加速推理过程。
训练后优化方案：开创性的推理模型
- 我们精心筛选了13万道数学和代码问题作为RL训练数据，这些问题均可通过基于规则的验证器进行验证。每个问题都经过仔细清洗和难度评估，以确保质量。我们仅采用基于规则的准确性奖励，以避免潜在的奖励黑客行为。
- 为了缓解具有挑战性的代码问题的稀疏奖励问题，我们引入了一种由测试难度驱动的代码奖励机制。通过为不同难度级别的测试用例分配细粒度分数，策略可以通过密集的奖励信号得到更有效的优化。
- 我们对简单问题实施了数据重采样策略，以提高 rollout 采样效率并稳定策略更新，尤其是在RL训练的后期阶段。
RL基础设施
- 我们开发了一个无缝 Rollout 引擎（Seamless Rollout Engine），以加速RL训练和验证。我们的设计集成了连续 rollout、异步奖励计算和提前终止机制，以最大限度地减少GPU空闲时间，实现了2.29倍的训练加速和1.96倍的验证加速。
- 我们在 vLLM 中支持 MTP，并增强了RL系统中推理引擎的稳健性。

II. 模型详情

MiMo-7B的MTP层在预训练和SFT阶段进行调优，并在RL阶段冻结。使用一个MTP层进行投机解码时，接受率约为90%。

模型可在 https://huggingface.co/XiaomiMiMo 和 https://www.modelscope.cn/organization/XiaomiMiMo 获取

模型	描述	下载（HuggingFace）	下载（ModelScope）
MiMo-7B-Base	具备卓越推理潜力的基础模型	🤗 XiaomiMiMo/MiMo-7B-Base	🤖️ XiaomiMiMo/MiMo-7B-Base
MiMo-7B-RL-Zero	基于基础模型训练的RL模型	🤗 XiaomiMiMo/MiMo-7B-RL-Zero	🤖️ XiaomiMiMo/MiMo-7B-RL-Zero
MiMo-7B-SFT	基于基础模型训练的SFT模型	🤗 XiaomiMiMo/MiMo-7B-SFT	🤖️ XiaomiMiMo/MiMo-7B-SFT
MiMo-7B-RL	基于SFT模型训练的RL模型，性能优异，可媲美OpenAI o1-mini	🤗 XiaomiMiMo/MiMo-7B-RL	🤖️ XiaomiMiMo/MiMo-7B-RL

III. 评估结果

基准测试	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	QwQ-32B-Preview	R1-Distill-Qwen-14B	R1-Distill-Qwen-7B	MiMo-7B-RL
通用能力
GPQA Diamond (Pass@1)	49.9	65.0	60.0	54.5	59.1	49.1	54.4
SuperGPQA (Pass@1)	42.4	48.2	45.2	43.6	40.6	28.9	40.5
DROP (3-shot F1)	83.7	88.3	83.9	71.2	85.5	77.0	78.7
MMLU-Pro (EM)	72.6	78.0	80.3	52.0	68.8	53.5	58.6
IF-Eval (Prompt Strict)	84.3	86.5	84.8	40.4	78.3	60.5	61.0
数学能力
MATH-500 (Pass@1)	74.6	78.3	90.0	90.6	93.9	92.8	95.8
AIME 2024 (Pass@1)	9.3	16.0	63.6	50.0	69.7	55.5	68.2
AIME 2025 (Pass@1)	11.6	7.4	50.7	32.4	48.2	38.8	55.4
代码能力
LiveCodeBench v5 (Pass@1)	32.9	38.9	53.8	41.9	53.1	37.6	57.8
LiveCodeBench v6 (Pass@1)	30.9	37.2	46.8	39.1	31.9	23.9	49.3

MiMo-7B 系列

基准测试	MiMo-7B-Base	MiMo-7B-RL-Zero	MiMo-7B-SFT	MiMo-7B-RL
数学能力
MATH500 (Pass@1)	37.4	93.6	93.0	95.8
AIME 2024 (Pass@1)	32.9	56.4	58.7	68.2
AIME 2025 (Pass@1)	24.3	46.3	44.3	55.4
代码能力
LiveCodeBench v5 (Pass@1)	32.9	49.1	52.3	57.8
LiveCodeBench v6 (Pass@1)	29.1	42.9	45.5	49.3

[!IMPORTANT] 评估在 temperature=0.6 条件下进行。

AIME24 和 AIME25 为 32 次重复测试的平均得分。LiveCodeBench v5（20240801-20250201）、LiveCodeBench v6（20250201-20250501）、GPQA-Diamond 和 IF-Eval 为 8 次重复测试的平均得分。MATH500 和 SuperGPQA 为单次运行结果。

IV. 部署

SGLang 推理

感谢 SGLang 团队提供的 MiMo 模型支持和 MTP，我们已在 SGLang 主流版本中支持 MiMo。

示例脚本

# Install the latest SGlang from main branch
python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"

# Launch SGLang Server
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-SFT --host 0.0.0.0 --trust-remote-code

# Launch MTP Server
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-SFT --trust-remote-code \
--speculative-algorithm EAGLE --speculative-num-steps 1 --speculative-eagle-topk 1 \
--speculative-num-draft-tokens 2  --mem-fraction 0.5

详细用法可参见 SGLang 文档。

vLLM 推理

[推荐] 我们官方支持通过我们的 vLLM 分支使用 MiMo-MTP 进行推理。

示例脚本

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

conversation = [
    {
        "role": "system",
        "content": ""
    },
    {
        "role": "user",
        "content": "Write an essay about the importance of higher education.",
    },
]

outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

print("=" * 80)

或者，您可以为 MiMo 注册一个 vLLM 加载器，而无需加载 MTP 参数。

您可以将 registry/register_mimo_in_vllm.py 复制到您的目录中，并通过以下方式导入

import register_mimo_in_vllm

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    # num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

HuggingFace 推理

示例脚本

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_id = "XiaomiMiMo/MiMo-7B-SFT"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))

V. 引用

@misc{coreteam2025mimounlockingreasoningpotential,
      title={MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      eprint={2505.07608},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.07608}, 
}

VI. 联系方式

如有任何问题，请通过mimo@xiaomi.com与我们联系，或提交issue。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
释放语言模型的推理潜能
从预训练到后训练的探索
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

| 🤗 HuggingFace | 🤖️ 魔搭社区 | 📔 技术报告 |

更新日志

评测基准	MiMo-7B-RL	MiMo-7B-RL-0530
数学
MATH500 (Pass@1)	95.8	97.2
AIME 2024 (Pass@1)	68.2	80.1
AIME 2025 (Pass@1)	55.4	70.2
代码
LiveCodeBench v5 (Pass@1)	57.8	60.9
LiveCodeBench v6 (Pass@1)	49.3	52.2
STEM
GPQA-Diamond (Pass@1)	54.4	60.6
通用能力
Alignbench1.1 (由GPT4.1评估)	6.9	7.4

I. 引言

🌟 亮点

预训练：为推理而生的基础模型
- 我们优化了数据预处理 pipeline，增强了文本提取工具包，并应用了多维度数据过滤，以提高预训练数据中推理模式的密度。我们还采用多种策略生成海量多样的合成推理数据。
- 我们在预训练中采用了三阶段数据混合策略。总体而言，MiMo-7B-Base 是在约25万亿 tokens 上进行预训练的。
- 我们将多 token 预测（Multiple-Token Prediction, MTP）作为额外的训练目标，这有助于提升模型性能并加速推理过程。
训练后优化方案：开创性的推理模型
- 我们精心筛选了13万道数学和代码问题作为RL训练数据，这些问题均可通过基于规则的验证器进行验证。每个问题都经过仔细清洗和难度评估，以确保质量。我们仅采用基于规则的准确性奖励，以避免潜在的奖励黑客行为。
- 为了缓解具有挑战性的代码问题的稀疏奖励问题，我们引入了一种由测试难度驱动的代码奖励机制。通过为不同难度级别的测试用例分配细粒度分数，策略可以通过密集的奖励信号得到更有效的优化。
- 我们对简单问题实施了数据重采样策略，以提高 rollout 采样效率并稳定策略更新，尤其是在RL训练的后期阶段。
RL基础设施
- 我们开发了一个无缝 Rollout 引擎（Seamless Rollout Engine），以加速RL训练和验证。我们的设计集成了连续 rollout、异步奖励计算和提前终止机制，以最大限度地减少GPU空闲时间，实现了2.29倍的训练加速和1.96倍的验证加速。
- 我们在 vLLM 中支持 MTP，并增强了RL系统中推理引擎的稳健性。

II. 模型详情

MiMo-7B的MTP层在预训练和SFT阶段进行调优，并在RL阶段冻结。使用一个MTP层进行投机解码时，接受率约为90%。

模型可在 https://huggingface.co/XiaomiMiMo 和 https://www.modelscope.cn/organization/XiaomiMiMo 获取

模型	描述	下载（HuggingFace）	下载（ModelScope）
MiMo-7B-Base	具备卓越推理潜力的基础模型	🤗 XiaomiMiMo/MiMo-7B-Base	🤖️ XiaomiMiMo/MiMo-7B-Base
MiMo-7B-RL-Zero	基于基础模型训练的RL模型	🤗 XiaomiMiMo/MiMo-7B-RL-Zero	🤖️ XiaomiMiMo/MiMo-7B-RL-Zero
MiMo-7B-SFT	基于基础模型训练的SFT模型	🤗 XiaomiMiMo/MiMo-7B-SFT	🤖️ XiaomiMiMo/MiMo-7B-SFT
MiMo-7B-RL	基于SFT模型训练的RL模型，性能优异，可媲美OpenAI o1-mini	🤗 XiaomiMiMo/MiMo-7B-RL	🤖️ XiaomiMiMo/MiMo-7B-RL

III. 评估结果

基准测试	GPT-4o-0513	Claude-3.5-Sonnet-1022	OpenAI o1-mini	QwQ-32B-Preview	R1-Distill-Qwen-14B	R1-Distill-Qwen-7B	MiMo-7B-RL
通用能力
GPQA Diamond (Pass@1)	49.9	65.0	60.0	54.5	59.1	49.1	54.4
SuperGPQA (Pass@1)	42.4	48.2	45.2	43.6	40.6	28.9	40.5
DROP (3-shot F1)	83.7	88.3	83.9	71.2	85.5	77.0	78.7
MMLU-Pro (EM)	72.6	78.0	80.3	52.0	68.8	53.5	58.6
IF-Eval (Prompt Strict)	84.3	86.5	84.8	40.4	78.3	60.5	61.0
数学能力
MATH-500 (Pass@1)	74.6	78.3	90.0	90.6	93.9	92.8	95.8
AIME 2024 (Pass@1)	9.3	16.0	63.6	50.0	69.7	55.5	68.2
AIME 2025 (Pass@1)	11.6	7.4	50.7	32.4	48.2	38.8	55.4
代码能力
LiveCodeBench v5 (Pass@1)	32.9	38.9	53.8	41.9	53.1	37.6	57.8
LiveCodeBench v6 (Pass@1)	30.9	37.2	46.8	39.1	31.9	23.9	49.3

MiMo-7B 系列

基准测试	MiMo-7B-Base	MiMo-7B-RL-Zero	MiMo-7B-SFT	MiMo-7B-RL
数学能力
MATH500 (Pass@1)	37.4	93.6	93.0	95.8
AIME 2024 (Pass@1)	32.9	56.4	58.7	68.2
AIME 2025 (Pass@1)	24.3	46.3	44.3	55.4
代码能力
LiveCodeBench v5 (Pass@1)	32.9	49.1	52.3	57.8
LiveCodeBench v6 (Pass@1)	29.1	42.9	45.5	49.3

[!IMPORTANT] 评估在 temperature=0.6 条件下进行。

AIME24 和 AIME25 为 32 次重复测试的平均得分。LiveCodeBench v5（20240801-20250201）、LiveCodeBench v6（20250201-20250501）、GPQA-Diamond 和 IF-Eval 为 8 次重复测试的平均得分。MATH500 和 SuperGPQA 为单次运行结果。

IV. 部署

SGLang 推理

感谢 SGLang 团队提供的 MiMo 模型支持和 MTP，我们已在 SGLang 主流版本中支持 MiMo。

示例脚本

# Install the latest SGlang from main branch
python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory=python"

# Launch SGLang Server
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-SFT --host 0.0.0.0 --trust-remote-code

# Launch MTP Server
python3 -m sglang.launch_server --model-path XiaomiMiMo/MiMo-7B-SFT --trust-remote-code \
--speculative-algorithm EAGLE --speculative-num-steps 1 --speculative-eagle-topk 1 \
--speculative-num-draft-tokens 2  --mem-fraction 0.5

详细用法可参见 SGLang 文档。

vLLM 推理

[推荐] 我们官方支持通过我们的 vLLM 分支使用 MiMo-MTP 进行推理。

示例脚本

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

conversation = [
    {
        "role": "system",
        "content": ""
    },
    {
        "role": "user",
        "content": "Write an essay about the importance of higher education.",
    },
]

outputs = llm.chat(conversation,
                   sampling_params=sampling_params,
                   use_tqdm=False)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

print("=" * 80)

或者，您可以为 MiMo 注册一个 vLLM 加载器，而无需加载 MTP 参数。

您可以将 registry/register_mimo_in_vllm.py 复制到您的目录中，并通过以下方式导入

import register_mimo_in_vllm

from vllm import LLM, SamplingParams

model_path = "/path/to/MiMo"
llm = LLM(
    model=model_path,
    trust_remote_code=True,
    # num_speculative_tokens=1,
    disable_log_stats=False
)
sampling_params = SamplingParams(temperature=0.6)

HuggingFace 推理

示例脚本

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

model_id = "XiaomiMiMo/MiMo-7B-SFT"
model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
inputs = tokenizer(["Today is"], return_tensors='pt')
output = model.generate(**inputs, max_new_tokens = 100)
print(tokenizer.decode(output.tolist()[0]))

V. 引用

@misc{coreteam2025mimounlockingreasoningpotential,
      title={MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      eprint={2505.07608},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2505.07608}, 
}

VI. 联系方式

如有任何问题，请通过mimo@xiaomi.com与我们联系，或提交issue。

更新日志

I. 引言

🌟 亮点

II. 模型详情

III. 评估结果

IV. 部署

SGLang 推理

vLLM 推理

HuggingFace 推理

推荐环境与提示词

V. 引用

VI. 联系方式

更新日志

I. 引言

🌟 亮点

II. 模型详情

III. 评估结果

IV. 部署

SGLang 推理

vLLM 推理

HuggingFace 推理

推荐环境与提示词

V. 引用

VI. 联系方式