我们正式推出 LongCat-Flash-Thinking,这是一款功能强大且高效的大型推理模型(LRM),总参数量达5600亿,采用创新的混合专家(Mixture-of-Experts, MoE)架构。该模型内置动态计算机制,可根据上下文需求激活186亿至313亿参数(平均约270亿),在计算效率与性能之间实现了优化平衡。LongCat-Flash-Thinking基于我们的DORA系统开发,这是一个高效的分布式强化学习框架,支持异步训练和灵活的加速器使用,确保训练的稳定性和效率。我们全面的数据整理和领域并行训练方案保障了训练过程的稳定高效。除通用推理能力外,该模型还融合了形式化推理与智能体推理技术,显著提升了LRM在数学、逻辑、编程、自动定理证明及工具使用等复杂任务上的推理能力。
具体而言,LongCat-Flash-Thinking的开发遵循两阶段流程:
为解决传统混合领域强化学习训练的不稳定性问题,LongCat-Flash-Thinking 引入了领域并行训练方案,将 STEM、代码编写和智能体任务的优化过程解耦。 该方法不仅稳定了训练过程,还能将训练得到的领域专家模型融合为一个接近帕累托最优的最终模型,在所有专业领域均表现卓越。
LongCat-Flash-Thinking 构建于我们自主设计的 DORA 系统之上。 其主要设计初衷是通过流式采样利用多个旧版本的 Actor 模型来优化长尾生成,同时保持采样一致性。 DORA 系统包含两个核心组件:弹性协同定位和多版本异步流水线。这些组件旨在提升训练效率,确保每个样本的策略一致性,并进一步实现高效的 KV 缓存复用,从而支持在数万台加速器上进行稳定且可扩展的训练。
除通用推理能力(如数学、逻辑、代码编写、指令遵循等)外,LongCat-Flash-Thinking 还着重强化了另外两项关键能力。
更多详情,请参阅完整的LongCat-Flash-Thinking 技术报告。
| 基准测试 | DeepSeek-V3.1-Thinking | Qwen3-235B-A22B-Thinking-2507 | GLM-4.5 | OpenAI-o3 | Gemini2.5-Pro | GPT-5-Thinking | LongCat-Flash-Thinking |
|---|---|---|---|---|---|---|---|
| 架构 | MoE | MoE | MoE | - | - | - | MoE |
| 总参数数量 | 671B | 235B | 355B | - | - | - | 560B |
| 激活参数数量 | 37B | 22B | 32B | - | - | - | 27B |
| 通用问答 | |||||||
| MMLU-Pro(准确率) | 84.4 | 84.4 | 81.5 | 85.3 | 86.7 | 84.5 | 82.6 |
| MMLU-Redux(准确率) | 90.5 | 91.4 | 89.9 | 93.1 | 90.1 | 92.6 | 89.3 |
| 对齐能力 | |||||||
| IFEval(严格提示) | 86.3 | 89.3 | 85.4 | 90.2 | 92.4 | 92.8 | 86.9 |
| Arena-Hard(gemini 困难提示) | 57.1 | 74.5 | 67.7 | 87.1 | 87.1 | 87.7 | 69.9 |
| 数学推理 | |||||||
| MATH500(Mean@1) | 98.8 | 99.6 | 95.4 | 98.4 | 98.0 | 99.2 | 99.2 |
| HMMT25(Mean@32) | 80.4 | 83.8 | 76.3 | 71.9 | 79.3 | 84.8 | 83.7 |
| AIME24(Mean@32) | 93.9 | 93.9 | 89.3 | 91.6* | 90.7 | 92.0 | 93.3 |
| AIME25(Mean@32) | 87.9 | 92.5 | 85.5 | 88.9* | 89.2 | 94.6* | 90.6 |
| BeyondAIME(Mean@10) | 71.8 | 71.5 | 66.0 | 63.2 | 63.0 | 70.0 | 69.5 |
| 通用推理 | |||||||
| GPQA-Diamond(Mean@16) | 84.2 | 80.4 | 78.3 | 81.9 | 84.0 | 84.4 | 81.5 |
| ZebraLogic(Mean@1) | 96.1 | 97.5 | 90.9 | 94.3 | 92.4 | 92.7 | 95.5 |
| Sudoku-Bench(Mean@1) | 1.0 | 2.0 | 1.0 | 70.0 | 0.0 | 63.0 | 56.0 |
| ARC-AGI(Mean@1) | 37.5 | 45.3 | 21.41 | 47.3 | 46.8 | 59.0 | 50.3 |
| 代码能力 | |||||||
| LiveCodeBench(Mean@4) | 73.5 | 75.4 | 61.1 | 76.2 | 74.2 | 80.6 | 79.4 |
| OJBench(Mean@1) | 33.6 | 32.1 | 19.0 | 38.4 | 41.6 | 34.1 | 40.7 |
| 智能体工具使用 | |||||||
| SWE-Bench(Pass@1) | 66.0* | 34.4 | 64.2* | 69.1* | 59.6* | 74.9* | 59.4 |
| BFCL V3(完整版) | 55.4 | 75.7 | 79.1 | 72.4* | 63.2 | 60.1 | 74.4 |
| τ²-Bench-Retail(Mean@4) | 65.4 | 68.2 | 69.3 | 72.8 | 70.9 | 81.1* | 71.5 |
| τ²-Bench-Airline(Mean@4) | 44.0 | 58.0 | 66.0 | 62.5 | 58.0 | 62.6* | 67.5 |
| τ²-Bench-Telecom(Mean@4) | 23.7 | 47.3 | 56.1 | 67.5 | 38.3 | 96.7* | 83.1 |
| VitaBench | 13.5 | 21.5 | 26.8 | 35.3 | 24.3 | 29.3 | 29.5 |
| 形式化定理证明 | |||||||
| MiniF2F-Test(Pass@1) | 49.6 | 11.9 | 10.9 | 15.2 | 13.9 | 21.4 | 67.6 |
| MiniF2F-Test(Pass@8) | 74.4 | 20.9 | 22.1 | 29.6 | 29.4 | 39.7 | 79.4 |
| MiniF2F-Test(Pass@32) | 79.5 | 26.6 | 27.0 | 37.7 | 41.8 | 51.2 | 81.6 |
| 安全性 | |||||||
| 有害内容 | 79.2 | 84.3 | 70.4 | 64.8 | 44.3 | 56.8 | 93.7 |
| 犯罪内容 | 89.7 | 92.7 | 88.8 | 85.7 | 77.4 | 87.3 | 97.1 |
| 虚假信息 | 81.1 | 80.9 | 67.1 | 42.7 | 31.0 | 41.9 | 93.0 |
| 隐私保护 | 96.2 | 100.0 | 97.6 | 100.0 | 95.0 | 98.8 | 98.8 |
注:
temperature=1.0、topk=-1 和 topp=0.95。对话模板的详细信息在tokenizer_config.json文件中提供。以下是一些示例。
通过以下前缀,LongCat-Flash能够针对用户查询生成相应的回复:
[Round 0] USER:{query} /think_on ASSISTANT:当指定系统提示词时,前缀将采用以下格式:
SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:在多轮对话场景中,前缀通过将上下文与最新的用户查询进行拼接来构建:
SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:{response}... [Round N-1] USER:{query} /think_on ASSISTANT:{response} [Round N] USER:{query} /think_on ASSISTANT:在此,N 表示用户查询的第 N 轮,索引从 0 开始。
LongCat-Flash 支持以下格式的工具调用:
{tool_description}
## Messages
SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:工具描述如下:
## Tools
You have access to the following tools:
### Tool namespace: function
#### Tool name: {func.name}
Description: {func.description}
InputSchema:
{json.dumps(func.parameters, indent=2)}
**Note**: For each function call, return a json object with function name and arguments within <longcat_tool_call></longcat_tool_call> XML tags as follows:
<longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call>
When multiple functions need to be called simultaneously, each function call should be wrapped in its own <longcat_tool_call> tag and placed consecutively. For example:
<longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call><longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call>在解决数学或其他STEM相关推理任务时,我们建议添加以下指令,以便对输出结果进行定位评估。
[Round 0] USER:{problem}
Please reason step by step, and put your final answer within \\boxed{}. /think_on ASSISTANT:LongCat-Flash-Thinking 还支持形式化推理,例如自动定理证明(ATP)。具体模板如下:
[Round 0] USER:Think about and solve the following problem step by step in Lean 4.
# Problem:{problem}
# Formal statement:{formal_statement}
/think_on ASSISTANT:我们已在 SGLang 和 vLLM 中完成基本适配,以支持 LongCat-Flash-Thinking 的部署。详细部署说明请参考 部署指南。
您可以在我们的官方网站与 LongCat-Flash-Thinking 进行对话:https://longcat.ai。 提交请求前,请开启“Think”按钮(中文为“深度思考”)。
模型权重以MIT 许可协议发布。
除非另有说明,对本仓库的任何贡献均采用 MIT 许可协议。本许可不授予使用美团商标或专利的任何权利。
完整许可文本详见 LICENSE 文件。
本模型并非针对所有可能的下游应用进行专门设计或全面评估。
开发者应考虑到大型语言模型的已知局限性,包括在不同语言上的性能差异,并在将模型部署到敏感或高风险场景前,仔细评估其准确性、安全性和公平性。开发者和下游用户有责任了解并遵守与其使用场景相关的所有适用法律法规,包括但不限于数据保护、隐私和内容安全要求。
本模型卡片中的任何内容均不应被解释为修改或限制模型发布所依据的 MIT 许可协议条款。
如果您发现我们的工作有用,我们恳请您引用我们的研究成果。
@misc{meituan2025longcatflashthinkingtechnicalreport,
title={LongCat-Flash-Thinking Technical Report},
author={Meituan},
year={2025},
eprint={2509.18883},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2509.18883},
}如有任何问题,请通过 longcat-team@meituan.com 与我们联系,或加入我们的微信群。