今天,我们正式发布并开源 MiniMax-M2——一款为极致编码与智能体工作流打造的精简模型。
MiniMax-M2 重新定义了智能体的效率标准。作为一款紧凑、快速且经济高效的 MoE 模型(总参数达 2300 亿,激活参数仅 100 亿),它在编码和智能体任务上展现出顶尖性能,同时还保持着强大的通用智能。仅凭 100 亿激活参数,MiniMax-M2 就能提供当今领先模型所具备的复杂端到端工具使用能力,但其精简的架构使部署和扩展变得前所未有的轻松。
卓越智能水平。根据 Artificial Analysis 的基准测试,MiniMax-M2 在数学、科学、指令遵循、编码及智能体工具使用等多个领域均展现出极具竞争力的通用智能。其综合评分在全球开源模型中排名第一。
高级编码能力。专为端到端开发者工作流设计,MiniMax-M2 擅长多文件编辑、编码-运行-修复循环以及经测试验证的代码修复。在 Terminal-Bench 和(多语言)SWE-Bench 风格任务上的出色表现,证明了它在终端、IDE 和 CI 环境中跨语言的实际效用。
智能体性能。MiniMax-M2 能够规划并执行复杂、长周期的工具链,涵盖 shell、浏览器、检索和代码运行器。在 BrowseComp 风格的评估中,它能稳定定位难以获取的信息源,保持证据的可追溯性,并能从容地从不稳定步骤中恢复。
高效设计。凭借 100 亿激活参数(总计 2300 亿),MiniMax-M2 为交互式智能体和批量采样提供了更低的延迟、更低的成本和更高的吞吐量——完美契合当前对高部署性模型的需求趋势,同时在编码和智能体任务上依然表现出色。
这些全面的评估测试了现实世界中的端到端编码和智能体工具使用能力:编辑真实仓库、执行命令、浏览网页以及交付功能性解决方案。该套件的性能与开发者在终端、IDE 和 CI 中的日常体验密切相关。
| 基准测试 | MiniMax-M2 | Claude Sonnet 4 | Claude Sonnet 4.5 | Gemini 2.5 Pro | GPT-5 (thinking) | GLM-4.6 | Kimi K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|---|---|
| SWE-bench Verified | 69.4 | 72.7 * | 77.2 * | 63.8 * | 74.9 * | 68 * | 69.2 * | 67.8 * |
| Multi-SWE-Bench | 36.2 | 35.7 * | 44.3 | / | / | 30 | 33.5 | 30.6 |
| SWE-bench Multilingual | 56.5 | 56.9 * | 68 | / | / | 53.8 | 55.9 * | 57.9 * |
| Terminal-Bench | 46.3 | 36.4 * | 50 * | 25.3 * | 43.8 * | 40.5 * | 44.5 * | 37.7 * |
| ArtifactsBench | 66.8 | 57.3* | 61.5 | 57.7* | 73* | 59.8 | 54.2 | 55.8 |
| BrowseComp | 44 | 12.2 | 19.6 | 9.9 | 54.9* | 45.1* | 14.1 | 40.1* |
| BrowseComp-zh | 48.5 | 29.1 | 40.8 | 32.2 | 65 | 49.5 | 28.8 | 47.9* |
| GAIA (text only) | 75.7 | 68.3 | 71.2 | 60.2 | 76.4 | 71.9 | 60.2 | 63.5 |
| xbench-DeepSearch | 72 | 64.6 | 66 | 56 | 77.8 | 70 | 61 | 71 |
| HLE (w/ tools) | 31.8 | 20.3 | 24.5 | 28.4 * | 35.2 * | 30.4 * | 26.9 * | 27.2 * |
| τ²-Bench | 77.2 | 65.5* | 84.7* | 59.2 | 80.1* | 75.9* | 70.3 | 66.7 |
| FinSearchComp-global | 65.5 | 42 | 60.8 | 42.6* | 63.9* | 29.2 | 29.5* | 26.2 |
| AgentCompany | 36 | 37 | 41 | 39.3* | / | 35 | 30 | 34 |
注:标有星号 (*) 的数据点直接取自模型的官方技术报告或博客。所有其他指标均使用下文描述的评估方法获得。
- SWE-bench Verified:我们在 OpenHands 基础上使用与 R2E-Gym(Jain et al. 2025)相同的框架来测试智能体的 SWE 任务。所有分数均在我们的内部基础设施上验证,上下文长度为 128k,最大步骤为 100,且无测试时扩展。所有与 git 相关的内容均被移除,以确保智能体仅能看到问题点的代码。
- Multi-SWE-Bench & SWE-bench Multilingual:所有分数均使用 claude-code CLI(最大步骤 300)作为评估框架,取 8 次运行的平均值。
- Terminal-Bench:所有分数均使用原始 Terminal-Bench 仓库(commit
94bf692)中的官方 claude-code 进行评估,取 8 次运行的平均通过率。- ArtifactsBench:所有分数通过 ArtifactsBench 的官方实现,使用稳定的 Gemini-2.5-Pro 作为评判模型,取三次运行的平均值。
- BrowseComp & BrowseComp-zh & GAIA (text only) & xbench-DeepSearch:所有报告分数均使用与 WebExplorer(Liu et al. 2025)相同的智能体框架,并对工具描述进行了微调。我们按照 WebExplorer(Liu et al. 2025)的方法,使用 103 样本的纯文本 GAIA 验证子集。
- HLE (w/ tools):所有报告分数均通过搜索工具和 Python 工具获得。搜索工具采用与 WebExplorer(Liu et al. 2025)相同的智能体框架,Python 工具在 Jupyter 环境中运行。我们使用纯文本 HLE 子集。
- τ²-Bench:所有报告分数均使用“带工具使用的扩展思考”模式,并采用 GPT-4.1 作为用户模拟器。
- FinSearchComp-global:GPT-5-Thinking、Gemini 2.5 Pro 和 Kimi-K2 的官方结果已报告。其他模型使用开源 FinSearchComp(Hu et al. 2025)框架进行评估,同时使用搜索和 Python 工具以确保一致性。
- AgentCompany:所有报告分数均使用 OpenHands 0.42 智能体框架。
我们与Artificial Analysis保持一致,该机构采用统一方法聚合各类挑战性基准测试,旨在全面反映模型在数学、科学、指令遵循、编码及智能体工具使用等多维度的智能概况。
| 指标(AA) | MiniMax-M2 | Claude Sonnet 4 | Claude Sonnet 4.5 | Gemini 2.5 Pro | GPT-5 (thinking) | GLM-4.6 | Kimi K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|---|---|
| AIME25 | 78 | 74 | 88 | 88 | 94 | 86 | 57 | 88 |
| MMLU-Pro | 82 | 84 | 88 | 86 | 87 | 83 | 82 | 85 |
| GPQA-Diamond | 78 | 78 | 83 | 84 | 85 | 78 | 77 | 80 |
| HLE(无工具) | 12.5 | 9.6 | 17.3 | 21.1 | 26.5 | 13.3 | 6.3 | 13.8 |
| LiveCodeBench(LCB) | 83 | 66 | 71 | 80 | 85 | 70 | 61 | 79 |
| SciCode | 36 | 40 | 45 | 43 | 43 | 38 | 31 | 38 |
| IFBench | 72 | 55 | 57 | 49 | 73 | 43 | 42 | 54 |
| AA-LCR | 61 | 65 | 66 | 66 | 76 | 54 | 52 | 69 |
| τ²-Bench-Telecom | 87 | 65 | 78 | 54 | 85 | 71 | 73 | 34 |
| Terminal-Bench-Hard | 24 | 30 | 33 | 25 | 31 | 23 | 23 | 29 |
| AA Intelligence | 61 | 57 | 63 | 60 | 69 | 56 | 50 | 57 |
AA:MiniMax-M2的所有分数均符合Artificial Analysis智能基准测试方法(https://artificialanalysis.ai/methodology/intelligence-benchmarking)。其他模型的所有分数均引自https://artificialanalysis.ai/。
通过将激活参数控制在100亿左右,智能体工作流中的“规划→执行→验证”循环得以精简,从而提升响应速度并降低计算开销:
简而言之:100亿激活参数 = 响应迅速的智能体循环 + 更优的单位经济效益。
如果您需要前沿级别的编码和智能体能力,却不想承担前沿规模的成本,那么MiniMax-M2便是理想之选:它兼具快速的推理速度、强大的工具使用能力以及易于部署的轻量特性。
我们期待您的反馈,并期望与开发者和研究人员携手合作,共同推动智能协作的未来更进一步。
我们基于MiniMax-M2构建的产品MiniMax Agent现已公开可用,并在限时内免费:https://agent.minimax.io/
MiniMax-M2 API现已在MiniMax开放平台上线,并限时免费:https://platform.minimax.io/docs/guides/text-generation
MiniMax-M2模型权重现已开源,支持本地部署和使用:https://huggingface.co/MiniMaxAI/MiniMax-M2。
从HuggingFace仓库下载模型:https://huggingface.co/MiniMaxAI/MiniMax-M2。我们建议使用以下推理框架(按字母顺序排列)来部署模型:
我们推荐使用SGLang部署MiniMax-M2。SGLang为MiniMax-M2模型提供了完善的初始支持。更多详情请参考我们的SGLang部署指南,同时非常感谢与SGLang团队的合作。
我们推荐使用vLLM部署MiniMax-M2。vLLM为MiniMax-M2模型提供了高效的初始支持,最新部署指南请查看https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html。我们也提供了[官方vLLM部署指南](https://huggingface.co/MiniMaxAI/MiniMax-M2/blob/main/docs/vllm_deploy_guide.md)。
我们推荐使用MLX-LM部署MiniMax-M2。更多详情请参考我们的MLX部署指南。
我们建议使用 Transformers 来部署 MiniMax-M2。更多详情请参考我们的 Transformers 部署指南。
为获得最佳性能,我们建议使用以下参数:temperature=1.0,top_p=0.95,top_k=40。
重要提示:MiniMax-M2 是一个 interleaved thinking 模型。因此,在使用该模型时,务必保留历史消息中助手轮次的思考内容。在模型的输出内容中,我们使用 </think>...</RichMediaReference> 格式来包裹助手的思考内容。使用模型时,您必须确保历史内容以原始格式传回,切勿移除 superscript:...superscript: 部分,否则会对模型性能产生负面影响。
请参考我们的 工具调用指南。
以下项目由社区/合作伙伴构建和维护,并非 MiniMax 官方产品,效果可能因情况而异。
欢迎通过 model@minimax.io | 微信 与我们联系。