MiniMax-AI/MiniMax-M3
模型介绍文件和版本Pull Requests讨论分析
下载使用量0
MiniMax

MiniMax Agent API MiniMax Website
ModelScope MiniMax AI WeChat Discord Hugging Face GitHub arXiv Paper LICENSE

MiniMax-M3 是一款具备 100 万上下文窗口的原生多模态模型,拥有约 4280 亿参数和约 230 亿激活参数。

核心亮点:

  • 原生多模态能力: M3 从训练初始阶段即采用混合模态训练,实现文本、图像、视频的深度语义融合。
  • 稀疏注意力的上下文扩展: M3 引入 MiniMax 稀疏注意力(MSA)提升长上下文效率,在 100 万上下文长度下,预填充速度较 M2 提升 9 倍,解码速度提升 15 倍,单 token 计算量降低至 1/20。
  • 代码与协同办公能力: M3 在长程智能体基准测试中表现领先,在代码编写与协同办公场景均有出色表现。

MiniMax 稀疏注意力(MSA)

M3 由 MiniMax Sparse Attention (MSA) 提供支持,这是一款专为百万级 token 上下文设计的高性能稀疏注意力算子。与 GQA 相比,MSA 在保持模型质量的同时,显著降低了注意力计算量和内存占用。

GQA vs MSA Efficiency Comparison

📄 阅读技术报告:arXiv:2606.13392 · Hugging Face Papers

使用方法

  • MiniMax Agent
  • MiniMax API

M3 通过 thinking 参数支持三种推理模式:

  • enabled — 始终启用推理。
  • adaptive — M3 自动判断何时进行额外推理更有益。
  • disabled — 禁用推理以最小化延迟并最大化吞吐量。

本地部署

下载模型:

hf download MiniMaxAI/MiniMax-M3 --local-dir MiniMax-M3

我们推荐以下推理框架(按字母顺序排列)来部署模型:

  • SGLang - 详见 SGLang 使用指南。

  • vLLM - 详见 vLLM 示例教程。

  • Transformers - 详见 Transformers 文档。

推理参数

为获得最佳性能,我们建议使用以下参数:temperature=1.0,top_p=0.95,top_k=40。

联系我们

如有任何问题,请通过 model@minimax.io 与我们联系。