HuggingFace镜像/Mellum2-12B-A2.5B-Thinking
模型介绍文件和版本分析
下载使用量0
Mellum

Mellum2 Thinking

[!Note] 当您希望在最终答案前获得清晰的思维链时,请使用此模型——适用于复杂调试、多步骤规划、智能体工作流以及数学或推理密集型任务。如果需要直接、低延迟且无推理过程的答案,请改用 Instruct。

Mellum2 Thinking 亮点

Mellum 2 Thinking 是由 JetBrains 训练的经过后训练的推理增强型助手模型。

该模型采用混合专家(Mixture-of-Experts)架构,包含 64 个专家,每个 token 激活 8 个专家。它结合了滑动窗口和全注意力层,上下文长度为 131,072 个 token。

它基于 Mellum2-12B-A2.5B-Base 模型开发,通过监督微调(仅在助手最终轮次计算损失),随后在包含长文本数学子集的更难数据组合上进行带可验证奖励的强化学习(RLVR)。该模型会在最终答案前的 </think>...superscript: 块中输出其推理过程。

Mellum2 模型系列

本仓库包含 Mellum 2 系列的一个检查点。

检查点描述
Base Pretrain长上下文扩展前的基础检查点
Base最终基础模型
Instruct SFT监督指令微调检查点
Thinking SFT监督思维检查点
InstructRL 调优指令模型
ThinkingRL 调优思维模型

模型概述

Mellum2 Thinking 具有以下特性:

  • 层数:28
  • 隐藏层大小:2304
  • 中间层大小:7168
  • MoE 中间层大小:896
  • 专家数量:64
  • 激活专家数量:8
  • 注意力头数量(GQA):Q 为 32,KV 为 4
  • 上下文长度:131,072
  • 滑动窗口:1,024
  • 词汇表大小:98,304
  • 精度:bfloat16
  • 许可证:Apache 2.0

使用 vLLM 进行服务部署

# Without tool calling
vllm serve JetBrains/Mellum2-12B-A2.5B-Thinking \
  --max-model-len 131072 \
  --reasoning-parser qwen3

# With tool calling
vllm serve JetBrains/Mellum2-12B-A2.5B-Thinking \
  --max-model-len 131072 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

快速入门

纯文本输入

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {"role": "user", "content": "Is 1024 a power of 2? Explain your reasoning."},
]

chat_response = client.chat.completions.create(
    model="JetBrains/Mellum2-12B-A2.5B-Thinking",
    messages=messages,
    max_tokens=81920,
    temperature=0.6,
    top_p=0.95,
    extra_body={
        "top_k": 20,
    },
)
print("Chat response:", chat_response)

评估

思维/推理变体的训练后评估。所有数值均为百分比;除HarmBench外,数值越高越好,HarmBench则数值越低越好。所有数值由JetBrains自行报告。

基准测试Mellum2 Thinking SFTMellum2 ThinkingQwen3.5 (4B)Qwen3.5 (9B)OLMo-3 (7B)Ministral 3 (14B)
代码能力
LiveCodeBench v675.169.959.468.359.842.7
工具使用
BFCL v438.845.642.942.7—35.9
BFCL v360.569.473.968.5—52.2
数学能力
AIME20.058.468.373.461.738.3
GSM-Plus62.687.089.390.788.186.5
知识掌握
MMLU-Redux84.886.288.391.771.384.4
GPQA Diamond39.957.676.881.329.346.0
对话能力
IFEval69.176.587.189.884.759.7
JetBrains pairwise64.469.540.556.732.263.8
MixEval63.466.971.976.067.070.8
BS-Bench14.015.063.070.023.09.0
安全性
HarmBench (↓)12.220.615.96.648.770.0
XSTest90.889.696.897.693.296.8

说明:

  • AIME 是AIME 2025和AIME 2026的平均值(各30题)。
  • BFCL v4 是五个子任务(v1、v2、v3、网络搜索、记忆)的宏平均。
  • JetBrains pairwise 是在内部基准测试中与Qwen2.5-7B-Instruct相比的胜率。
  • — 表示该模型缺乏原生工具调用能力(OLMo-3-7B-Thinking)。

更多详情,请参见 Mellum2技术报告。

许可证

本项目基于 Apache 2.0 许可证发布。