我们推出 LongCat-Flash,这是一款功能强大且高效的语言模型,总参数达5600亿,采用创新的混合专家(Mixture-of-Experts, MoE)架构。该模型融入动态计算机制,能根据上下文需求激活186亿至313亿参数(平均约270亿),在计算效率与性能之间实现优化平衡。为提升训练与推理效率,我们采用短连接架构扩展计算-通信重叠窗口,实现了每秒超100 tokens(TPS)的经济高效推理。全面的训练与扩展策略确保了稳定高效的训练过程,而定制化的数据策略进一步增强了模型性能。
现在,我们正式发布 LongCat-Flash-Chat,这是一款非思考型基础模型,在主流模型中表现出极强的竞争力,尤其在智能体任务方面具备突出优势。
LongCat-Flash 的设计与优化遵循两大核心原则:高效计算资源利用,以及高效训练与推理。具体而言:(1)鉴于并非所有 token 的重要性均等,我们在 MoE 模块中引入零计算专家机制,根据 token 的重要性动态分配计算资源,即根据上下文需求激活 186 亿至 313 亿参数(总计 5600 亿参数)。为确保计算负载的一致性,我们采用经 PID 控制器调节的专家偏置,使每个 token 的平均激活参数保持在约 270 亿。(2)随着 MoE 模型规模扩大,通信开销成为瓶颈。为此,我们融入了 shortcut 连接的 MoE(ScMoE)设计,以扩大计算与通信的重叠窗口。结合定制化的基础设施优化,该设计支持在数万台加速器上进行大规模训练,并实现高吞吐量、低延迟的推理。
如何有效且高效地扩展模型规模,仍是策略设计中的核心挑战。为此,我们开发了一套全面的稳定性与扩展性框架,用于大规模模型的稳健训练:(1)我们成功将超参数迁移策略应用于如此大规模的模型,通过利用小型代理模型的结果并结合理论保证,预测最优超参数配置。(2)我们基于精调的半规模检查点,采用模型增长机制进行初始化,相比传统初始化方法实现了性能提升。(3)多管齐下的稳定性套件包括:原则性的路由梯度平衡、用于抑制大规模激活的隐藏 z-loss,以及精细调整的优化器配置。(4)为提高大规模集群训练的可靠性,我们引入了确定性计算。这确保了实验的精确可复现性,并能够在训练过程中检测 SDC(静默数据损坏)。这些措施确保 LongCat-Flash 的训练过程保持稳定,无不可恢复的损失峰值。
通过精心设计的流水线,LongCat-Flash 被赋予了先进的智能体行为。初期工作重点在于构建更适合智能体后续训练的基础模型,为此我们设计了两阶段预训练数据融合策略,以集中推理密集型领域数据。在中期训练阶段,我们增强了模型的推理和编码能力,同时将上下文长度扩展至 128k,以满足智能体后续训练的需求。在这一先进基础模型之上,我们进行多阶段的后续训练。考虑到智能体任务高质量、高难度训练问题的稀缺性,我们设计了一个多智能体合成框架,该框架从信息处理、工具集复杂度和用户交互三个维度定义任务难度,并使用专门的控制器生成需要迭代推理和环境交互的复杂任务。
更多详情,请参阅完整的LongCat-Flash 技术报告。
| 基准测试 | DeepSeek V3.1 | Qwen3 MoE-2507 | Kimi-K2 | GPT-4.1 | Claude4 Sonnet | Gemini2.5 Flash | LongCat-Flash |
|---|---|---|---|---|---|---|---|
| 架构 | MoE | MoE | MoE | - | - | - | MoE |
| 总参数量 | 671B | 235B | 1043B | - | - | - | 560B |
| 激活参数量 | 37B | 22B | 32B | - | - | - | 27B |
| 通用领域 | |||||||
| MMLU(准确率) | 90.96 | 90.23 | 89.86 | 89.64 | 91.75 | 86.33 | 89.71 |
| MMLU-Pro(准确率) | 84.45 | 84.83 | 82.06 | 81.72 | 83.74 | 81.95 | 82.68 |
| ArenaHard-V2(准确率) | 84.10 | 88.20 | 85.70 | 61.50 | 62.10 | 77.00 | 86.50 |
| CEval(准确率) | 89.21 | 92.70 | 91.26 | 79.53 | 86.63 | 78.78 | 90.44 |
| CMMLU(准确率) | 88.04 | 88.14 | 89.66 | 77.65 | 86.51 | 78.30 | 84.34 |
| 指令遵循 | |||||||
| IFEval(准确率) | 86.69 | 88.54 | 88.91 | 85.58 | 88.35 | 83.92 | 89.65 |
| COLLIE(准确率) | 43.80 | 49.71 | 56.34 | 50.00 | 51.22 | 48.60 | 57.10 |
| Meeseeks-zh(准确率) | 33.83 | 35.32 | 42.79 | 41.54 | 35.07 | 34.84 | 43.03 |
| 数学推理 | |||||||
| MATH500(准确率) | 96.08 | 98.80 | 97.60 | 90.60 | 93.80 | 98.40 | 96.40 |
| AIME24(avg@10) | 66.30* | 81.67 | 69.60* | 47.00 | 47.00 | 79.67 | 70.42 |
| AIME25(avg@10) | 49.27 | 68.33 | 50.66 | 32.00 | 37.00 | 67.33 | 61.25 |
| BeyondAIME(avg@10) | 36.50 | 57.60 | 36.60 | 22.10 | 20.50 | 44.20 | 43.00 |
| 通用推理 | |||||||
| GPQA-diamond(准确率) | 74.90* | 77.43 | 75.76 | 67.68 | 70.71 | 80.30 | 73.23 |
| DROP(f1值) | 84.19 | 78.57 | 89.04 | 66.94 | 73.06 | 45.03 | 79.06 |
| ZebraLogic(准确率) | 85.30 | 94.22 | 89.11 | 56.30* | 75.85 | 51.78 | 89.30 |
| GraphWalks-128k(精确率) | 73.54 | 80.72 | 47.50 | 85.02 | 80.57 | 64.83 | 51.05 |
| 代码能力 | |||||||
| LiveCodeBench(pass@1) | 56.40* | 46.48 | 46.70 | 39.21 | 45.59 | 39.65 | 48.02 |
| Humaneval+(pass@1) | 92.68 | 94.51 | 85.98 | 93.29 | 94.51 | 87.80 | 88.41 |
| MBPP+(pass@1) | 79.89 | 79.89 | 81.75 | 79.37 | 80.16 | 76.19 | 79.63 |
| SWE-Bench-Verified(准确率) | 66.00* | 42.00 | 64.60 | 48.60 | 68.00* | 40.60 | 60.40 |
| TerminalBench(准确率) | 31.30* | 17.28 | 25.93 | 28.40 | 40.74 | 12.35 | 39.51 |
| 智能体工具使用 | |||||||
| τ²-Bench (电信)(avg@4) | 38.50 | 22.50 | 67.50 | 35.20 | 46.20 | 16.50 | 73.68 |
| τ²-Bench (航空)(avg@4) | 46.00 | 36.00 | 54.20 | 56.00 | 60.00 | 41.50 | 58.00 |
| τ²-Bench (零售)(avg@4) | 64.90 | 70.50 | 70.80 | 74.10 | 80.00 | 64.80 | 71.27 |
| AceBench(准确率) | 69.70 | 71.10 | 82.20 | 80.10* | 76.20* | 74.50* | 76.10 |
| VitaBench(avg@4) | 20.30 | 8.50 | 18.20 | 19.00 | 23.00 | 8.00 | 24.30 |
| 安全性 | |||||||
| 有害内容 | 82.79 | 80.82 | 53.91 | 56.19 | 66.56 | - | 83.98 |
| 犯罪内容 | 87.83 | 89.13 | 77.19 | 81.58 | 87.58 | - | 91.24 |
| 错误信息 | 83.17 | 77.76 | 42.68 | 45.49 | 54.91 | - | 81.72 |
| 隐私保护 | 98.80 | 98.80 | 96.39 | 98.80 | 100.00 | - | 93.98 |
注:
* 的数值来源于其他公开报告。对话模板的详细信息在 tokenizer_config.json 文件中提供。以下是一些示例。
通过以下前缀,LongCat-Flash 能够针对用户查询生成相应的回复:
[Round 0] USER:{query} ASSISTANT:当指定系统提示时,前缀将采用以下格式:
SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:在多轮对话场景中,前缀通过将上下文与最新的用户查询进行拼接来构建:
SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:{response}</longcat_s>... [Round N-1] USER:{query} ASSISTANT:{response}</longcat_s> [Round N] USER:{query} ASSISTANT:在此,N 表示用户查询的第 N 轮,索引从 0 开始。
LongCat-Flash 支持以下格式的工具调用:
{tool_description}
## Messages
SYSTEM:{system_prompt} [Round 0] USER:{query} ASSISTANT:工具描述为:
## Tools
You have access to the following tools:
### Tool namespace: function
#### Tool name: {func.name}
Description: {func.description}
InputSchema:
{json.dumps(func.parameters, indent=2)}
**Note**: For each function call, return a json object with function name and arguments within <longcat_tool_call></longcat_tool_call> XML tags as follows:
<longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call>
When multiple functions need to be called simultaneously, each function call should be wrapped in its own <longcat_tool_call> tag and placed consecutively. For example:
<longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call><longcat_tool_call>
{"name": <function-name>, "arguments": <args-dict>}
</longcat_tool_call>我们已在 SGLang 和 vLLM 中完成基本适配,以支持 LongCat-Flash 的部署。如需详细指导,请参考 LongCat-Flash-Chat 代码库中的部署指南。
您可以在我们的官方网站与 LongCat-Flash 进行对话:https://longcat.ai。
本代码库(包括模型权重和源代码)均基于MIT 许可证发布。
除非另有说明,对本代码库的任何贡献均采用 MIT 许可证。本许可证不授予使用美团商标或专利的任何权利。
详情请参见LICENSE文件。
本模型并非针对所有可能的下游应用场景进行专门设计或全面评估。
开发者应考虑到大语言模型的已知局限性,包括在不同语言上的性能差异,并在将模型部署于敏感或高风险场景前,仔细评估其准确性、安全性和公平性。开发者及下游用户有责任了解并遵守与其使用场景相关的所有适用法律法规,包括但不限于数据保护、隐私和内容安全要求。
本模型卡片中的任何内容均不应被解释为对模型所依据的 MIT 许可证条款的修改或限制。
如果您认为我们的工作对您有所帮助,我们恳请您引用我们的成果。
@misc{meituan2025longcatflashtechnicalreport,
title={LongCat-Flash Technical Report},
author={Meituan LongCat Team},
year={2025},
eprint={2509.01322},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2509.01322},
}如有任何问题,请通过邮箱 longcat-team@meituan.com 与我们联系,或提交 issue。