[!Note] 当您希望在最终答案前获得清晰的思维链时,请使用此模型——适用于复杂调试、多步骤规划、智能体工作流以及数学或推理密集型任务。如果需要直接、低延迟且无推理过程的答案,请改用 Instruct。
Mellum 2 Thinking 是由 JetBrains 训练的经过后训练的推理增强型助手模型。
该模型采用混合专家(Mixture-of-Experts)架构,包含 64 个专家,每个 token 激活 8 个专家。它结合了滑动窗口和全注意力层,上下文长度为 131,072 个 token。
它基于 Mellum2-12B-A2.5B-Base 模型开发,通过监督微调(仅在助手最终轮次计算损失),随后在包含长文本数学子集的更难数据组合上进行带可验证奖励的强化学习(RLVR)。该模型会在最终答案前的 </think>...superscript: 块中输出其推理过程。
本仓库包含 Mellum 2 系列的一个检查点。
| 检查点 | 描述 |
|---|---|
| Base Pretrain | 长上下文扩展前的基础检查点 |
| Base | 最终基础模型 |
| Instruct SFT | 监督指令微调检查点 |
| Thinking SFT | 监督思维检查点 |
| Instruct | RL 调优指令模型 |
| Thinking | RL 调优思维模型 |
Mellum2 Thinking 具有以下特性:
# Without tool calling
vllm serve JetBrains/Mellum2-12B-A2.5B-Thinking \
--max-model-len 131072 \
--reasoning-parser qwen3
# With tool calling
vllm serve JetBrains/Mellum2-12B-A2.5B-Thinking \
--max-model-len 131072 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser hermes纯文本输入
from openai import OpenAI
# Configured by environment variables
client = OpenAI()
messages = [
{"role": "user", "content": "Is 1024 a power of 2? Explain your reasoning."},
]
chat_response = client.chat.completions.create(
model="JetBrains/Mellum2-12B-A2.5B-Thinking",
messages=messages,
max_tokens=81920,
temperature=0.6,
top_p=0.95,
extra_body={
"top_k": 20,
},
)
print("Chat response:", chat_response)思维/推理变体的训练后评估。所有数值均为百分比;除HarmBench外,数值越高越好,HarmBench则数值越低越好。所有数值由JetBrains自行报告。
| 基准测试 | Mellum2 Thinking SFT | Mellum2 Thinking | Qwen3.5 (4B) | Qwen3.5 (9B) | OLMo-3 (7B) | Ministral 3 (14B) |
|---|---|---|---|---|---|---|
| 代码能力 | ||||||
| LiveCodeBench v6 | 75.1 | 69.9 | 59.4 | 68.3 | 59.8 | 42.7 |
| 工具使用 | ||||||
| BFCL v4 | 38.8 | 45.6 | 42.9 | 42.7 | — | 35.9 |
| BFCL v3 | 60.5 | 69.4 | 73.9 | 68.5 | — | 52.2 |
| 数学能力 | ||||||
| AIME | 20.0 | 58.4 | 68.3 | 73.4 | 61.7 | 38.3 |
| GSM-Plus | 62.6 | 87.0 | 89.3 | 90.7 | 88.1 | 86.5 |
| 知识掌握 | ||||||
| MMLU-Redux | 84.8 | 86.2 | 88.3 | 91.7 | 71.3 | 84.4 |
| GPQA Diamond | 39.9 | 57.6 | 76.8 | 81.3 | 29.3 | 46.0 |
| 对话能力 | ||||||
| IFEval | 69.1 | 76.5 | 87.1 | 89.8 | 84.7 | 59.7 |
| JetBrains pairwise | 64.4 | 69.5 | 40.5 | 56.7 | 32.2 | 63.8 |
| MixEval | 63.4 | 66.9 | 71.9 | 76.0 | 67.0 | 70.8 |
| BS-Bench | 14.0 | 15.0 | 63.0 | 70.0 | 23.0 | 9.0 |
| 安全性 | ||||||
| HarmBench (↓) | 12.2 | 20.6 | 15.9 | 6.6 | 48.7 | 70.0 |
| XSTest | 90.8 | 89.6 | 96.8 | 97.6 | 93.2 | 96.8 |
Qwen2.5-7B-Instruct相比的胜率。— 表示该模型缺乏原生工具调用能力(OLMo-3-7B-Thinking)。更多详情,请参见 Mellum2技术报告。
本项目基于 Apache 2.0 许可证发布。