我们推出了 LongCat-Flash-Thinking-2601 的更新版本,这是一款功能强大且高效的大型推理模型(LRM),拥有 5600 亿总参数,基于创新的混合专家(MoE)架构构建。除了继承我们先前版本中的领域并行训练方法,并在传统推理基准测试中保持极具竞争力的性能外,此次更新通过精心设计的流程系统地增强了智能体思维能力,该流程结合了环境扩展和后续任务合成,随后进行可靠且高效的大规模、多环境强化学习。为了更好地适应现实世界智能体任务中固有的噪声和不确定性,我们对多种类型和级别的环境噪声进行了系统分析和课程训练,使模型在非理想条件下也能表现出稳健的性能。因此,LongCat-Flash-Thinking-2601 不仅在智能体工具使用、智能体搜索和工具集成推理方面取得了顶级的基准测试性能,而且在任意分布外的现实世界智能体场景中的泛化能力也得到了显著提升。我们进一步设计了专门的评估协议来评估其稳健性和泛化能力。此外,我们引入了“深度思考模式”(Heavy Thinking Mode),通过密集的并行思考进一步提升模型在极具挑战性任务上的性能。
我们构建了一系列多样化的高质量环境,作为强化学习的训练场,使模型能够习得高级、可泛化的智能体技能。每个环境包含超过 60 个工具,这些工具以密集的依赖图形式组织,为多样化任务构建和大规模探索提供了足够的复杂性。随着训练环境数量的增加,我们观察到在域外评估中性能持续提升,表明泛化能力得到增强。
高质量任务构建
为确保训练任务集的质量,我们明确控制任务的复杂性和多样性。每个任务都基于从高质量环境中采样的连通子图定义,任务复杂性通过要求在采样子图内协调使用尽可能多的工具来控制。先前选择工具的采样概率会逐渐降低,以促进任务多样性。我们构建了相应的数据库以确保任务的可执行性,并且每个任务都经过验证,确保至少存在一个可执行的解决方案。然而,当环境包含大量工具时,维持数据库之间的一致性变得具有挑战性,并可能导致无法验证的任务。我们设计了专门的策略来解决此问题。
多环境强化学习
在保持高效异步训练和流式rollout特性的同时,我们进一步扩展了我们的强化学习基础设施(DORA),以支持大规模多环境智能体训练,这是我们环境扩展协议的要求。来自多个环境的任务在每个训练批次中以平衡的方式联合组织,并根据其复杂性和当前训练状态分配不同的rollout预算。
由于现实世界的智能体环境本质上是有噪声且不完美的,仅在理想化环境中训练模型是不够的,往往会导致稳健性有限。为解决此问题,我们将环境缺陷明确纳入模型训练过程,以增强稳健性。具体而言,我们系统分析了智能体场景中现实世界噪声的主要来源,然后设计了一个自动管道将此类噪声注入训练环境。在强化学习过程中,我们采用课程学习策略,随着训练的进行,逐步增加噪声的类型和强度。得益于我们的稳健训练,LongCat-Flash-Thinking-2601 对环境不确定性表现出强大的适应力,并在非理想条件下持续取得更好的性能。
为了将推理能力推向当前边界之外,我们建立了“深度思考模式”。具体而言,我们将具有挑战性的问题解决分解为两个互补阶段:并行思考和总结,从而共同扩展推理的深度和广度。对于推理广度扩展,在深度思考模式下,多个轨迹以并行方式独立生成,实现对推理路径的广泛探索。这里应用了合理的高推理温度以确保可能的多样性。对于推理深度扩展,总结阶段中经过提炼的轨迹可以递归地反馈到总结模型中,形成支持逐步深入推理的迭代推理循环。我们还专门设计了一个额外的强化学习阶段来训练总结能力,从而进一步释放此模式的潜力。
我们已在 Longcat AI 平台上推出深度思考模式。欢迎试用:https://longcat.chat/。
| 基准测试 | DeepSeek-V3.2-Thinking | Kimi-K2-Thinking | Qwen3-235B-A22B-Thinking-2507 | GLM-4.7-Thinking | Claude-Opus-4.5-Thinking | Gemini-3-Pro | GPT-5.2-Thinking-xhigh | LongCat-Flash-Thinking-2601 |
|---|---|---|---|---|---|---|---|---|
| 架构 | MoE | MoE | MoE | MoE | - | - | - | MoE |
| 总参数量 | 6710亿 | 1万亿 | 2350亿 | 3550亿 | - | - | - | 5600亿 |
| 激活参数量 | 370亿 | 320亿 | 220亿 | 320亿 | - | - | - | 270亿 |
| 工具辅助数学推理 | ||||||||
| AIME-25(平均@16) | 93.5* | 99.1† | 92.6* | 95.3* | 100.0 | 99.8 | 100.0 | 99.6 / 100.0‡ |
| HMMT-25(平均@16) | 93.5* | 95.1† | 83.9* | 98.1* | 98.6 | 99.8 | 99.6 | 93.4 / 97.5‡ |
| IMO-AnswerBench(平均@4) | 77.7* | 78.7* | 73.0* | 84.0* | 82.8 | 86.7 | - | 78.6 / 86.8‡ |
| AMO-Bench EN(平均@16) | 51.9* | 56.0* | 47.8* | 62.4* | 66.0 | 72.5 | - | 61.6 / 66.0‡ |
| AMO-Bench CH(平均@16) | 52.0* | 51.8* | 28.8* | 35.1* | 67.7 | 74.9 | - | 56.8 / 67.5‡ |
| 智能体搜索 | ||||||||
| BrowseComp(Pass@1) | 51.4† / 67.6† | - / 60.2† | - | 52.0† / 67.5† | - | - | 65.8† / - | 56.6 / 73.1 |
| BrowseComp-zh(Pass@1) | 65.0† / - | - / 62.3† | - | 66.6† / - | - | - | - | 69.0 / 77.7 |
| RW Search(Pass@1) | 74.0 | 63.0 | 20.5 | 69.0 | 75.5 | 74.5 | 82.0 | 79.5 |
| 智能体工具使用 | ||||||||
| τ²-Retail(平均@4) | 81.8† | - | 71.9† | - | 88.9† | - | 82.0† | 88.6 |
| τ²-Airline(平均@4) | 63.8† | - | 58.6† | - | - | - | - | 76.5 |
| τ²-Telecom(平均@4) | 96.2† | - | 47.3 | - | 98.2† | - | 98.7† | 99.3 |
| τ²-Avg(平均@4) | 80.6 | 74.3† | 59.3 | 87.4† | 82.4 | 90.7† | 80.6 | 88.2 |
| τ²-Noise(平均@4) | 64.1 | 63.1 | 44.3 | 66.0 | 59.4 | 57.3 | 65.0 | 67.1 |
| VitaBench(平均@4) | 24.0 | 12.8 | 14.5 | 18.3 | 28.5 | 31.5 | 24.3 | 29.3 |
| VitaBench-Noise(平均@4) | 14.0 | 9.2 | 6.5 | 10.8 | 20.3 | 20.8 | 19.0 | 20.5 |
| 随机复杂任务(平均@4) | 32.5 | 29.7 | 28.3 | 25.3 | 32.6 | 32.5 | 17.2 | 35.8 |
| 通用问答 | ||||||||
| HLE 纯文本(无工具) | 24.1 | 24.4 | 17.8 | 26.9 | 32.0 | 40.3 | 34.5† | 25.2 |
| GPQA-Diamond(平均@16) | 86.9 | 85.4 | 80.5 | 84.9 | 86.9 | 91.9 | 92.9 | 80.5 / 85.2‡ |
| 代码 | ||||||||
| LCB(24.08–25.05)(平均@4) | 82.4 | 75.1 | 76.2 | 84.8 | 82.8 | 88.1 | - | 82.8 |
| OJBench(Pass@1) | 41.8 | 42.3 | 35.6 | 44.6 | 46.7 | 61.2 | - | 42.2 |
| OIBench EN(Pass@1) | 43.3 | 39.0 | 36.8 | 30.8 | 50.0 | 58.2 | - | 47.7 |
| SWE-bench Verified(平均@5) | 73.1 | 71.3 | - | 73.8 | 80.9 | 76.2 | 80.0 | 70.0 |
注:
我们提出了一种新颖的方法来评估智能体模型的泛化能力。具体而言,我们构建了一个自动化合成流水线,允许用户根据一组关键词为任意场景随机生成复杂任务。每个生成的任务都配备了相应的工具集和可执行环境。由于这些环境中的工具具有高度随机性,我们通过评估模型在这类环境中的表现来衡量其泛化能力。LongCat在这些设置下始终表现卓越,展现出在智能体场景中强大的泛化能力。我们还提供了一个视频演示用于说明。
为了支持高级工具使用场景和复杂推理范式,我们对聊天模板进行了重大更新,定义在tokenizer_config.json文件中。
可以使用apply_chat_template方法应用聊天模板。以下是一个标准实现:
text = tokenizer.apply_chat_template(
messages,
tools=tools,
tokenize=False,
enable_thinking=True,
add_generation_prompt=True,
save_history_reasoning_content=False
)save_history_reasoning_content=True 来启用此功能。本示例展示了模板如何处理对话历史和思考内容。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "meituan-longcat/LongCat-Flash-Thinking-2601-FP8"
# Load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Please tell me what is $$1 + 1$$ and $$2 \times 2$$?"},
{"role": "assistant", "reasoning_content": "This question is straightforward: $$1 + 1 = 2$$ and $$2 \times 2 = 4$$.", "content": "The answers are 2 and 4."},
{"role": "user", "content": "Check again?"}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
enable_thinking=True,
add_generation_prompt=True,
save_history_reasoning_content=False # Discard reasoning history to save tokens
)
# Template Output Structure:
# <longcat_system>You are a helpful assistant.<longcat_user>Please tell me what is $$1 + 1$$ and $$2 \times 2$$?<longcat_assistant>The answers are 2 and 4</longcat_s><longcat_user>Check again? /think_on <longcat_assistant><longcat_think>\n
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# Generate response
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
print(tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n"))
# Example Output:
# The user wants a double-check. Since $$1 + 1 = 2$$ and $$2 \times 2 = 4$$ are basic arithmetic truths, the previous answer is correct.\n</longcat_think>\nI have verified the calculations: $$1 + 1 = 2$$ and $$2 \times 2 = 4$$. The initial answer remains correct.</longcat_s>本示例展示了如何在推理框架内集成函数调用。
tools = [
{
"type": "function",
"function": {
"name": "func_add",
"description": "Calculate the sum of two numbers",
"parameters": {
"type": "object",
"properties": {
"x1": {"type": "number", "description": "The first addend"},
"x2": {"type": "number", "description": "The second addend"}
},
"required": ["x1", "x2"]
}
}
}
]
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Please tell me what is $$125679 + 234519$$?"},
{
"role": "assistant",
"reasoning_content": "This calculation requires precision; I will use the func_add tool.",
"tool_calls": [{"type": "function", "function": {"name": "func_add", "arguments": {"x1": 125679, "x2": 234519}}}]
},
{"role": "tool", "name": "func_add", "content": '{"ans": 360198}'}
]
text = tokenizer.apply_chat_template(
messages,
tools=tools,
tokenize=False,
enable_thinking=True,
add_generation_prompt=True,
save_history_reasoning_content=False
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# Generate response based on tool result
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
print(tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n"))我们已在SGLang和vLLM中完成基础适配,以支持LongCat-Flash-Thinking-2601的部署。详细部署步骤请参考部署指南。
您可以通过我们的官方网站与LongCat-Flash-Thinking-2601进行对话:https://longcat.ai。 提交请求前,请开启“Think”按钮(中文显示为“深度思考”)。
模型权重基于MIT许可证发布。
本仓库的所有贡献均采用MIT许可证授权,除非另有说明。本许可证不授予使用美团商标或专利的任何权利。
完整许可文本详见LICENSE文件。
本模型并非针对所有可能的下游应用场景进行专门设计或全面评估。
开发者应考虑到大型语言模型的已知局限性,包括在不同语言上的性能差异,并在将模型部署到敏感或高风险场景前,仔细评估其准确性、安全性和公平性。开发者及下游用户有责任了解并遵守与其使用场景相关的所有适用法律法规,包括但不限于数据保护、隐私和内容安全要求。
本模型卡片中的任何内容均不应被解释为修改或限制模型发布所依据的MIT许可证条款。
如有任何问题,请通过longcat-team@meituan.com与我们联系,或加入我们的微信群。
