meituan-longcat/LongCat-Flash-Thinking-FP8
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

LongCat-Flash-Thinking

LongCat-Flash

Chat github
Wechat Twitter Follow
License

技术报告 📄

模型介绍

我们正式推出 LongCat-Flash-Thinking,这是一款功能强大且高效的大型推理模型(LRM),总参数量达5600亿,采用创新的混合专家(Mixture-of-Experts, MoE)架构。该模型内置动态计算机制,可根据上下文需求激活186亿至313亿参数(平均约270亿),在计算效率与性能之间实现了优化平衡。LongCat-Flash-Thinking基于我们的DORA系统开发,这是一个高效的分布式强化学习框架,支持异步训练和灵活的加速器使用,确保训练的稳定性和效率。我们全面的数据整理和领域并行训练方案保障了训练过程的稳定高效。除通用推理能力外,该模型还融合了形式化推理与智能体推理技术,显著提升了LRM在数学、逻辑、编程、自动定理证明及工具使用等复杂任务上的推理能力。

具体而言,LongCat-Flash-Thinking的开发遵循两阶段流程:

  • 长链思维冷启动训练(Long CoT Cold-Start Training):此阶段旨在培养模型的基础推理能力。训练中期采用课程学习策略强化内在能力,随后在推理密集型和智能体数据上进行有监督微调(SFT),为模型的进阶学习奠定基础。
  • 大规模强化学习(Large-Scale RL):第二阶段通过高效强化学习框架释放模型潜力,该框架基于我们的异步推演动态编排(Dynamic Orchestration for Asynchronous Rollout, DORA)系统,支持工业级异步训练。为解决异步强化学习训练中的稳定性挑战,我们适配并扩展了GRPO算法,以实现稳健的探索-利用平衡。此阶段的核心创新是领域并行训练方案:同时在不同领域优化模型,将训练得到的领域专家模型融合为一个综合模型。最后,通过通用强化学习阶段进一步精调融合模型,提升其鲁棒性、安全性和人机对齐能力。

核心特性

🌟 领域并行强化学习训练方法

为解决传统混合领域强化学习训练的不稳定性问题,LongCat-Flash-Thinking 引入了领域并行训练方案,将 STEM、代码编写和智能体任务的优化过程解耦。 该方法不仅稳定了训练过程,还能将训练得到的领域专家模型融合为一个接近帕累托最优的最终模型,在所有专业领域均表现卓越。

🌟 开创性强化学习基础设施

LongCat-Flash-Thinking 构建于我们自主设计的 DORA 系统之上。 其主要设计初衷是通过流式采样利用多个旧版本的 Actor 模型来优化长尾生成,同时保持采样一致性。 DORA 系统包含两个核心组件:弹性协同定位和多版本异步流水线。这些组件旨在提升训练效率,确保每个样本的策略一致性,并进一步实现高效的 KV 缓存复用,从而支持在数万台加速器上进行稳定且可扩展的训练。

🌟 推动形式化推理与智能体推理能力发展

除通用推理能力(如数学、逻辑、代码编写、指令遵循等)外,LongCat-Flash-Thinking 还着重强化了另外两项关键能力。

  • 形式化推理:LongCat-Flash-Thinking 能够解决复杂的形式化推理任务,例如自动定理证明。为充分释放这一潜力并赋能研究人员,我们对模型的形式化推理能力进行了显著增强。 为实现这一目标,我们引入了一种新颖的专家迭代框架,用于精细化数据合成,包括语句形式化、迭代式证明合成以及语法/一致性过滤。
  • 智能体推理:LongCat-Flash-Thinking 能够自适应地利用所提供的工具来解决复杂推理任务。为达成此目标,我们引入了双路径推理方法,以识别并保留真正需要工具辅助的高质量查询,从而培养稳健的智能体能力。 在完成高价值查询筛选后,我们基于具备多样化工具 API 的通用环境(包括 MCP 服务器以及支持单轮和多轮交互的模拟工具),合成相应的高质量解决方案轨迹。

更多详情,请参阅完整的LongCat-Flash-Thinking 技术报告。

评估结果

基准测试DeepSeek-V3.1-ThinkingQwen3-235B-A22B-Thinking-2507GLM-4.5OpenAI-o3Gemini2.5-ProGPT-5-ThinkingLongCat-Flash-Thinking
架构MoEMoEMoE---MoE
总参数数量671B235B355B---560B
激活参数数量37B22B32B---27B
通用问答
MMLU-Pro(准确率)84.484.481.585.386.784.582.6
MMLU-Redux(准确率)90.591.489.993.190.192.689.3
对齐能力
IFEval(严格提示)86.389.385.490.292.492.886.9
Arena-Hard(gemini 困难提示)57.174.567.787.187.187.769.9
数学推理
MATH500(Mean@1)98.899.695.498.498.099.299.2
HMMT25(Mean@32)80.483.876.371.979.384.883.7
AIME24(Mean@32)93.993.989.391.6*90.792.093.3
AIME25(Mean@32)87.992.585.588.9*89.294.6*90.6
BeyondAIME(Mean@10)71.871.566.063.263.070.069.5
通用推理
GPQA-Diamond(Mean@16)84.280.478.381.984.084.481.5
ZebraLogic(Mean@1)96.197.590.994.392.492.795.5
Sudoku-Bench(Mean@1)1.02.01.070.00.063.056.0
ARC-AGI(Mean@1)37.545.321.4147.346.859.050.3
代码能力
LiveCodeBench(Mean@4)73.575.461.176.274.280.679.4
OJBench(Mean@1)33.632.119.038.441.634.140.7
智能体工具使用
SWE-Bench(Pass@1)66.0*34.464.2*69.1*59.6*74.9*59.4
BFCL V3(完整版)55.475.779.172.4*63.260.174.4
τ²-Bench-Retail(Mean@4)65.468.269.372.870.981.1*71.5
τ²-Bench-Airline(Mean@4)44.058.066.062.558.062.6*67.5
τ²-Bench-Telecom(Mean@4)23.747.356.167.538.396.7*83.1
VitaBench13.521.526.835.324.329.329.5
形式化定理证明
MiniF2F-Test(Pass@1)49.611.910.915.213.921.467.6
MiniF2F-Test(Pass@8)74.420.922.129.629.439.779.4
MiniF2F-Test(Pass@32)79.526.627.037.741.851.281.6
安全性
有害内容79.284.370.464.844.356.893.7
犯罪内容89.792.788.885.777.487.397.1
虚假信息81.180.967.142.731.041.993.0
隐私保护96.2100.097.6100.095.098.898.8

注:

  • 标有 * 的数值来源于其他公开报告。
  • 我们的 LongCat-Flash-Thinking 的推理参数设置为 temperature=1.0、topk=-1 和 topp=0.95。

快速开始

对话模板

对话模板的详细信息在tokenizer_config.json文件中提供。以下是一些示例。

首轮对话

通过以下前缀,LongCat-Flash能够针对用户查询生成相应的回复:

[Round 0] USER:{query} /think_on ASSISTANT:

当指定系统提示词时,前缀将采用以下格式:

SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:

多轮对话

在多轮对话场景中,前缀通过将上下文与最新的用户查询进行拼接来构建:

SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:{response}... [Round N-1] USER:{query} /think_on ASSISTANT:{response} [Round N] USER:{query} /think_on ASSISTANT:

在此,N 表示用户查询的第 N 轮,索引从 0 开始。

工具调用

LongCat-Flash 支持以下格式的工具调用:

{tool_description}

## Messages
SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:

工具描述如下:

## Tools
You have access to the following tools: 

### Tool namespace: function

#### Tool name: {func.name}

Description: {func.description}

InputSchema: 
{json.dumps(func.parameters, indent=2)}

**Note**: For each function call, return a json object with function name and arguments within <longcat_tool_call></longcat_tool_call> XML tags as follows:
<longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call>
When multiple functions need to be called simultaneously, each function call should be wrapped in its own <longcat_tool_call> tag and placed consecutively. For example:
<longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call><longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call>

数学推理

在解决数学或其他STEM相关推理任务时,我们建议添加以下指令,以便对输出结果进行定位评估。

[Round 0] USER:{problem}
Please reason step by step, and put your final answer within \\boxed{}. /think_on ASSISTANT:

形式化推理

LongCat-Flash-Thinking 还支持形式化推理,例如自动定理证明(ATP)。具体模板如下:

[Round 0] USER:Think about and solve the following problem step by step in Lean 4.
# Problem:{problem}

# Formal statement:{formal_statement}
 /think_on ASSISTANT:

部署

我们已在 SGLang 和 vLLM 中完成基本适配,以支持 LongCat-Flash-Thinking 的部署。详细部署说明请参考 部署指南。

聊天网站

您可以在我们的官方网站与 LongCat-Flash-Thinking 进行对话:https://longcat.ai。 提交请求前,请开启“Think”按钮(中文为“深度思考”)。

许可协议

模型权重以MIT 许可协议发布。

除非另有说明,对本仓库的任何贡献均采用 MIT 许可协议。本许可不授予使用美团商标或专利的任何权利。

完整许可文本详见 LICENSE 文件。

使用注意事项

本模型并非针对所有可能的下游应用进行专门设计或全面评估。

开发者应考虑到大型语言模型的已知局限性,包括在不同语言上的性能差异,并在将模型部署到敏感或高风险场景前,仔细评估其准确性、安全性和公平性。开发者和下游用户有责任了解并遵守与其使用场景相关的所有适用法律法规,包括但不限于数据保护、隐私和内容安全要求。

本模型卡片中的任何内容均不应被解释为修改或限制模型发布所依据的 MIT 许可协议条款。

引用

如果您发现我们的工作有用,我们恳请您引用我们的研究成果。

@misc{meituan2025longcatflashthinkingtechnicalreport, 
    title={LongCat-Flash-Thinking Technical Report}, 
    author={Meituan}, 
    year={2025}, 
    eprint={2509.18883}, 
    archivePrefix={arXiv}, 
    primaryClass={cs.AI}, 
    url={https://arxiv.org/abs/2509.18883}, 
}

联系方式

如有任何问题,请通过 longcat-team@meituan.com 与我们联系,或加入我们的微信群。