MiniMax-M3 是一款具备 100 万上下文窗口的原生多模态模型,拥有约 4280 亿参数和约 230 亿激活参数。
核心亮点:
M3 由 MiniMax Sparse Attention (MSA) 提供支持,这是一款专为百万级 token 上下文设计的高性能稀疏注意力算子。与 GQA 相比,MSA 在保持模型质量的同时,显著降低了注意力计算量和内存占用。
📄 阅读技术报告:arXiv:2606.13392 · Hugging Face Papers
M3 通过 thinking 参数支持三种推理模式:
enabled — 始终启用推理。adaptive — M3 自动判断何时进行额外推理更有益。disabled — 禁用推理以最小化延迟并最大化吞吐量。下载模型:
hf download MiniMaxAI/MiniMax-M3 --local-dir MiniMax-M3我们推荐以下推理框架(按字母顺序排列)来部署模型:
SGLang - 详见 SGLang 使用指南。
Transformers - 详见 Transformers 文档。
为获得最佳性能,我们建议使用以下参数:temperature=1.0,top_p=0.95,top_k=40。
如有任何问题,请通过 model@minimax.io 与我们联系。