我们推出LongCat-Flash-Omni,这是一款参数规模达5600亿(激活参数270亿)的开源全能模态模型,在实时音视频交互方面表现卓越。该模型依托LongCat-Flash高性能的Shortcut连接混合专家(MoE)架构,结合零计算专家设计,并通过高效的多模态感知与语音重建模块进行增强。借助受课程学习启发的渐进式训练策略,我们的模型在保持强大单模态能力的同时,实现了全面的多模态能力。目前,我们将该模型开源,以促进社区未来的研究与开发。
LongCat-Flash-Omni 是一款开源全模态模型,在跨模态理解性能方面达到了业界领先水平。它在单一一体化框架内,将强大的离线多模态理解能力与实时音视频交互功能无缝融合。
通过采用高效的 LLM 骨干网络、精心设计的轻量级模态编码器和解码器,以及分块式音视频特征交织机制,LongCat-Flash-Omni 实现了低延迟、高质量的音视频处理和流式语音生成。它支持高达 128K tokens 的上下文窗口,具备强大的长期记忆、多轮对话以及跨多模态时间推理能力。
该模型采用创新的多阶段预训练流程,在平衡的数据策略和早期融合训练范式下,逐步整合文本、音频和视觉模态,确保在全模态性能强劲的同时,不会降低任何单一模态的表现。
受模态解耦理念的启发,我们提出了一种模态解耦并行训练方案,显著提升了大规模、高难度多模态训练的效率。
我们全面介绍了 LongCat-Flash-Omni 背后的训练方法和数据策略,并发布了该模型,以加速全模态智能领域的未来研究与创新。
更多详情,请参阅完整的LongCat-Flash-Omni 技术报告。
| 基准测试 | LongCat-Flash-Omni Instruct | Gemini-2.5-Pro (ThinkingBudget128) | Gemini-2.5-Flash (non-thinking) | Qwen3-Omni Instruct | Qwen2.5-Omni Instruct |
|---|---|---|---|---|---|
| OmniBench | 61.38 | 66.80 | 54.99 | 58.41 | 48.16 |
| WorldSense | 60.89 | 63.96 | 58.72 | 52.01 | 46.69 |
| DailyOmni | 82.38 | 80.61 | 80.78 | 69.33 | 47.45 |
| UNO-Bench | 49.90 | 64.48 | 54.30 | 42.10 | 32.60 |
| 基准测试 | LongCat-Flash-Omni Instruct | Gemini-2.5-Pro (ThinkingBudget128) | Gemini-2.5-Flash (non-thinking) | Qwen3-Omni Instruct | Seed-1.6 | GPT-4o-1120 | Qwen3-VL-235B-A22B-Instruct | Qwen2.5-VL-72B-Instruct |
|---|---|---|---|---|---|---|---|---|
| 通用 | ||||||||
| MMBench-ENtest | 87.5 | 89.8 | 89.3 | 86.8 | 88.5 | 83.7 | 88.3 | 88.6* |
| MMBench-ZHtest | 88.7 | 89.2 | 88.5 | 86.4 | 83.8 | 82.8 | 89.8 | 87.9* |
| RealWorldQA | 74.8 | 76.0 | 73.9 | 72.9 | 74.5 | 74.1 | 79.3* | 75.7* |
| MMStar | 70.9 | 78.5* | 75.5 | 68.5* | 71.5 | 63.2 | 78.4* | 68.2 |
| STEM 与推理 | ||||||||
| MathVistamini | 77.9 | 77.7* | 77.1 | 75.9 | 78.7 | 62.8 | 84.9* | 74.8* |
| MMMUval | 70.7 | 80.9* | 76.3 | 69.1* | 74.9 | 69.4 | 78.7* | 70.2* |
| MMVet | 69.0 | 80.7 | 79.5 | 68.9 | 74.4 | 76.6 | 75.9 | 74.5 |
| 多图像 | ||||||||
| BLINK | 63.1 | 70.0* | 65.7 | 56.1 | 65.0 | 65.5 | 70.7* | 60.1 |
| MuirBench | 77.1 | 74.0* | 73.7 | 62.1 | 74.6 | 70.5 | 72.8* | 70.7* |
| Mantis | 84.8 | 83.9 | 83.4 | 80.7 | 81.1 | 79.3 | 79.7 | 82.0 |
| 文本识别与图表/文档理解 | ||||||||
| ChartQA | 87.6 | 71.7 | 77.6 | 86.8* | 82.4 | 74.5 | 89.2 | 89.5* |
| DocVQA | 91.8 | 94.0* | 93.6* | 95.7 | 94.3 | 80.9 | 94.6 | 96.4* |
| OCRBench | 84.9 | 87.2* | 85.6 | 85.5 | 85.6 | 82.3 | 91.2 | 88.5 |
| OmniDocBenchEN/ZH↓ | 22.8/29.0 | 31.9/24.5 | 22.8/32.9 | 28.4/40.5 | 22.0/27.6 | 25.9/37.7 | 13.6/17.5 | 22.6/32.4* |
| 目标定位与计数 | ||||||||
| RefCOCO-avg | 92.3 | 75.4 | 71.9 | 89.3 | 80.2 | - | 87.1 | 90.3 |
| CountBench | 92.4 | 91.0* | 78.6 | 90.0* | 94.1 | 85.6* | 94.3 | 93.6* |
| 图形用户界面(GUI) | ||||||||
| VisualWebBench | 78.7 | 81.1 | 73.5 | 79.3 | 81.1 | 77.1 | 80.8 | 82.3* |
| ScreenSpot-v2 | 91.2 | 75.8 | 63.9 | 94.7 | 91.7 | - | 93.4 | 92.9 |
| AndroidControllow | 91.2 | 79.2 | 79.1 | 90.5 | 84.6 | 65.2 | 90.0 | 93.7* |
| AndroidControlhigh | 75.6 | 60.8 | 55.5 | 70.8 | 55.2 | 41.7 | 74.1 | 67.4* |
注:标有 * 的值来源于公开报告。由于 GPT-4o 不支持图像定位,故未报告其在 RefCOCO 和 ScreenSpot-v2 上的结果
| 基准测试 | LongCat-Flash-Omni Instruct | Gemini-2.5-Pro (ThinkingBudget128) | Gemini-2.5-Flash (non-thinking) | Qwen3-Omni Instruct | Seed-1.6 | GPT-4o-1120 | Qwen3-VL (235B-A22B-Instruct) | Qwen2.5-VL-72B-Instruct |
|---|---|---|---|---|---|---|---|---|
| 短视频 | ||||||||
| MVBench | 75.2 | 66.4 | 63.0 | 69.3* | 68.4 | 62.1 | 71.3 | 70.4* |
| NextQA | 86.2 | 84.2 | 81.4 | 82.4 | 84.1 | 79.7 | 81.3 | 82.3 |
| TempCompass | 82.2 | 80.8 | 80.2 | 73.5 | 79.4 | 76.4 | 80.5 | 74.8* |
| 长视频 | ||||||||
| VideoMME (无音频) | 76.2 | - | - | 70.5* | 75.2 | 73.2 | 79.2* | 73.3* |
| VideoMME (有音频) | 78.2 | 80.6* | 78.5 | 73.0 | - | - | - | - |
| LongVideoBench | 69.3 | 69.4 | 66.4 | 65.4 | 64.8 | 63.9 | - | 60.7* |
| STEM 与推理 | ||||||||
| MMVU | 67.1 | 75.6 | 72.4 | 62.4 | 67.3 | 67.4 | 69.3 | 62.9* |
| Video-MMMU | 67.5 | 79.4* | 76.6 | 60.3 | 75.4 | 68.0 | 73.7 | 59.3 |
注:标有 * 的值来源于公开报告。
| 基准测试 | LongCat-Flash-Omni Instruct | Gemini-2.5-Pro (ThinkingBudget128) | GPT-4o-Audio | Qwen3-Omni Instruct | Kimi-Audio | Step-Audio-2-mini |
|---|---|---|---|---|---|---|
| ASR | ||||||
| LibriSpeech (test-clean | test-other) | 1.57 | 4.01 | 1.74 | 3.80 | 30.00 | 41.83 | 1.22 | 2.48 | 1.28 | 2.42 | 1.33 | 2.86 |
| AISHELL-1 | 0.63 | 3.11 | 34.81 | 0.84 | 0.60 | 0.78 |
| AISHELL-2 | 2.78 | 5.24 | 77.73 | 2.34 | 2.56 | 2.16 |
| Fleurs (zh | en) | 3.99 | 5.02 | 2.24 | 4.77 | 3.91 | 5.56 | 2.20 | 2.72 | 2.69 | 4.44 | 2.53 | 3.05 |
| CommonVoice 15 (zh | en) | 4.98 | 13.59 | 47.30 | 49.86 | 42.83 | 23.88 | 4.31 | 6.05 | 8.46 | 7.92 | 5.00 | 6.75 |
| WenetSpeech (test-meeting | test-net) | 6.69 | 6.09 | 136.13 | 32.82 | 54.35 | 67.90 | 5.89 | 4.69 | 6.28 | 5.37 | 4.87 | 4.82 |
| S2TT (BLEU) | ||||||
| CoVost2 en→zh | 47.23 | 41.94 | 29.32 | 48.72 | - | 49.12 |
| CoVost2 zh→en | 27.32 | 25.38 | 16.01 | 21.51 | - | 29.47 |
注:ASR 结果以 CER/WER 表示(数值越低越好),S2TT 结果以 BLEU 分数表示。
| 基准测试 | LongCat-Flash-Omni Instruct | Gemini-2.5-Pro (ThinkingBudget128) | GPT-4o-Audio | Qwen3-Omni Instruct | Kimi-Audio | Step-Audio-2-mini |
|---|---|---|---|---|---|---|
| MMAU | 75.90 | 72.80 | 68.40 | 77.50 | 65.20 | 73.20 |
| VocalSound | 92.76 | 89.45 | 82.37 | 91.60 | 94.85 | 87.58 |
| TUT2017 | 65.43 | 33.15 | 20.74 | 40.74 | 65.25 | 30.67 |
| ClothoAQA | 72.83 | 69.67 | 61.87 | 75.16 | 72.21 | 68.39 |
| Nonspeech7k | 93.79 | 87.59 | 72.28 | 80.83 | 93.93 | 73.24 |
| CochlScene | 70.02 | 45.34 | 34.94 | 43.03 | 80.42 | 44.58 |
| MELD | 54.60 | 46.74 | 39.00 | 50.80 | 59.13 | 31.44 |
| 基准测试 | LongCat-Flash-Omni Instruct | Gemini-2.5-Pro (ThinkingBudget128) | GPT-4o-Audio | Qwen3-Omni Instruct | Kimi-Audio | Step-Audio-2-mini |
|---|---|---|---|---|---|---|
| OpenAudioBench | ||||||
| LlamaQuestions | 83.33 | 83.00 | 86.30 | 83.30 | 79.33 | 69.70 |
| ReasoningQA | 79.71 | 80.30 | 68.71 | 84.16 | 58.02 | 55.64 |
| TriviaQA | 86.20 | 90.20 | 76.00 | 75.90 | 62.10 | 45.30 |
| Webquestions | 76.00 | 80.90 | 81.20 | 75.20 | 70.20 | 54.40 |
| AlpacaEval | 75.43 | 76.58 | 81.61 | 85.43 | 75.73 | 53.92 |
| VoiceBench | ||||||
| AlpacaEval | 4.94 | 4.70 | 4.73 | 4.74 | 4.46 | 3.84 |
| CommonEval | 4.32 | 4.11 | 4.37 | 4.54 | 3.97 | 3.19 |
| OpenBookQA | 93.41 | 95.16 | 87.90 | 89.70 | 83.52 | 72.97 |
| SDQA | 82.46 | 83.54 | 90.10 | 76.90 | 63.12 | 44.85 |
| MMSU | 81.95 | 88.32 | 78.90 | 69.00 | 62.17 | 52.00 |
| AdvBench | 100 | 97.69 | 99.23 | 99.30 | 100 | 97.00 |
| IFEval | 77.99 | 77.83 | 66.81 | 77.80 | 61.10 | 29.80 |
| 基准测试 | LongCat-Flash-Omni Instruct | LongCat-Flash | DeepSeek V3.1 | Qwen3 MoE-2507 | Kimi-K2 | GPT-4.1 | Claude Sonnet-4 | Gemini-2.5-Flash |
|---|---|---|---|---|---|---|---|---|
| 架构 | MoE | MoE | MoE | MoE | MoE | - | - | - |
| 总参数数量 | 560B | 560B | 671B | 235B | 1043B | - | - | - |
| 激活参数数量 | 27B | 27B | 37B | 22B | 32B | - | - | - |
| 通用领域 | ||||||||
| MMLU(准确率) | 90.30 | 89.71 | 90.96 | 90.23 | 89.86 | 89.64 | 91.75 | 86.33 |
| MMLU-Pro(准确率) | 82.73 | 82.68 | 84.45 | 84.83 | 82.06 | 81.72 | 83.74 | 81.95 |
| CEval(准确率) | 91.68 | 90.44 | 89.21 | 92.70 | 91.26 | 79.53 | 86.63 | 78.78 |
| CMMLU(准确率) | 89.39 | 84.34 | 88.04 | 88.14 | 89.66 | 77.65 | 86.51 | 78.30 |
| 指令遵循 | ||||||||
| IFEval(准确率) | 82.44 | 89.65 | 86.69 | 88.54 | 88.91 | 85.58 | 88.35 | 83.92 |
| COLLIE(准确率) | 45.69 | 57.10 | 43.80 | 49.71 | 56.34 | 50.00 | 51.22 | 48.60 |
| Meeseeks-zh(准确率) | 39.05 | 43.03 | 33.83 | 35.32 | 42.79 | 41.54 | 35.07 | 34.84 |
| 数学推理 | ||||||||
| MATH500(准确率) | 97.60 | 96.40 | 96.08 | 98.80 | 97.60 | 90.60 | 93.80 | 98.40 |
| AIME24(avg@10) | 72.92 | 70.42 | 66.30* | 81.67 | 69.60* | 47.00 | 47.00 | 79.67 |
| BeyondAIME(avg@10) | 47.40 | 43.00 | 36.50 | 57.60 | 36.60 | 22.10 | 20.50 | 44.20 |
| 通用推理 | ||||||||
| GPQA-diamond(准确率) | 74.41 | 73.23 | 74.90* | 77.43 | 75.76 | 67.68 | 70.71 | 80.30 |
| DROP(f1) | 83.53 | 79.06 | 84.19 | 78.57 | 89.04 | 66.94 | 73.06 | 45.03 |
| ZebraLogic(准确率) | 86.00 | 89.30 | 85.30 | 94.22 | 89.11 | 56.30* | 80.10 | 57.00 |
| GraphWalks-128k(精确率) | 56.00 | 51.05 | 73.54 | 80.72 | 47.50 | 85.02 | 80.57 | 64.83 |
| 代码 | ||||||||
| LiveCodeBench(pass@1) | 52.64 | 48.02 | 56.40* | 46.48 | 46.70 | 39.21 | 45.59 | 39.65 |
| Humaneval+(pass@1) | 90.85 | 88.41 | 92.68 | 94.51 | 85.98 | 93.29 | 94.51 | 87.80 |
| MBPP+(pass@1) | 80.16 | 79.63 | 79.89 | 79.89 | 81.75 | 79.37 | 80.16 | 76.19 |
注:标有 * 的值来源于其他公开报告。请注意,DeepSeek-V3.1、Qwen3-235B-A22B、Gemini2.5-Flash 和 Claude4-Sonnet 均在非思考模式下进行评估。
LongCat-Flash-Omni 是一个 MoE 模型,这意味着模型权重分布在多个设备上。因此,在 Hugging Face Transformers 或 vLLM 中加载时,会根据模型名称自动下载模型权重。但如果您的运行环境不利于在执行过程中下载权重,可以参考以下命令手动将模型权重下载到本地目录:
# Download through Hugging Face
pip install -U "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Flash-Omni --local-dir ./LongCat-Flash-Omni我们已在 SGLang 中完成基础适配,以支持运行 LongCat-Flash-Omni 模型。目前,官方 SGLang 尚未原生支持 LongCat-Flash-Omni,因此您可暂时使用我们的 开发分支 进行本地安装与测试。
由于 LongCat-Flash-Omni 模型参数规模达 5600 亿(560B),若以 FP8 格式加载模型权重,至少需要一个节点(例如 8×H20-141G);若以 BF16 格式加载,则至少需要两个节点(例如 16×H800-80G)。以下提供详细的启动配置说明。
conda create -n longcat python=3.10
conda activate longcat
# install SGLang
git clone -b longcat_omni_v0.5.3.post3 https://github.com/XiaoBin1992/sglang.git
pushd sglang
pip install -e "python"
popd
# install longcat-flash-omni demo
git clone https://github.com/meituan-longcat/LongCat-Flash-Omni
pushd LongCat-Flash-Omni
git submodule update --init --recursive
pip install -r requirements.txt
popd可结合使用张量并行(Tensor Parallelism)和专家并行(Expert Parallelism)在您的集群上部署模型。 安装所有依赖项后,您可以使用以下命令启动演示。
python3 longcat_omni_demo.py \
--tp-size 8 \
--ep-size 8 \
--model-path where_you_download_model_dir \
--output-dir outputpython3 longcat_omni_demo.py \
--tp-size 16 \
--ep-size 16 \
--nodes 2 \
--node-rank $NODE_RANK \
--dist-init-addr $MASTER_IP:5000 \
--model-path where_you_download_model_dir \
--output-dir output注意:请将 $NODE_RANK 和 $MASTER_IP 替换为您的 GPU 机器的相应值。
所有测试用例均在 examples_dict.py 中定义,可根据需要添加额外测试用例。模型执行后,生成的结果将保存到由 --output-dir 参数指定的目录中。
您可以在 https://longcat.ai 使用 LongCat-Flash-Omni(网页版目前仅支持语音交互功能)。完整服务将在后续更新中提供。
我们很高兴地宣布,LongCat-Flash-Omni 应用程序现已支持 Android 和 iOS 系统。
对于 Android 用户,您可以通过以下二维码下载。
对于 iOS 用户,您可以在 App Store 搜索“LongCat”或通过二维码下载。目前仅支持中国区 App Store。
模型权重以MIT 许可证发布。
除非另有说明,对本仓库的任何贡献均采用 MIT 许可证。本许可证不授予使用美团商标或专利的任何权利。
完整许可文本详见 LICENSE 文件。
本模型并非专门为所有可能的下游应用场景设计或进行全面评估。
开发人员应考虑到大型语言模型的已知局限性,包括在不同语言间的性能差异,并在将模型部署到敏感或高风险场景之前,仔细评估其准确性、安全性和公平性。开发人员和下游用户有责任了解并遵守与其使用场景相关的所有适用法律法规,包括但不限于数据保护、隐私和内容安全要求。
本模型卡片中的任何内容均不应被解释为更改或限制模型发布所依据的 MIT 许可证条款。
如果您认为我们的研究工作对您有所帮助,我们诚挚建议您在相关成果中引用本项目。
@misc{
title={LongCat-Flash-Omni Technical Report},
author={Meituan LongCat Team},
year={2025},
url={https://github.com/meituan-longcat/LongCat-Flash-Omni},
}如有任何问题,请通过 longcat-team@meituan.com 与我们联系,或加入我们的微信群。
