meituan-longcat/LongCat-Flash-Omni-FP8
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

LongCat-Flash-Omni

LongCat Logo
Omni github
Wechat Twitter Follow
License

技术报告 📄

模型介绍

我们推出LongCat-Flash-Omni,这是一款参数规模达5600亿(激活参数270亿)的开源全能模态模型,在实时音视频交互方面表现卓越。该模型依托LongCat-Flash高性能的Shortcut连接混合专家(MoE)架构,结合零计算专家设计,并通过高效的多模态感知与语音重建模块进行增强。借助受课程学习启发的渐进式训练策略,我们的模型在保持强大单模态能力的同时,实现了全面的多模态能力。目前,我们将该模型开源,以促进社区未来的研究与开发。

模型架构

LongCat-Flash-Omni

核心特性

🌟 领先且统一的全模态模型

LongCat-Flash-Omni 是一款开源全模态模型,在跨模态理解性能方面达到了业界领先水平。它在单一一体化框架内,将强大的离线多模态理解能力与实时音视频交互功能无缝融合。

🌟 大规模低延迟音视频交互

通过采用高效的 LLM 骨干网络、精心设计的轻量级模态编码器和解码器,以及分块式音视频特征交织机制,LongCat-Flash-Omni 实现了低延迟、高质量的音视频处理和流式语音生成。它支持高达 128K tokens 的上下文窗口,具备强大的长期记忆、多轮对话以及跨多模态时间推理能力。

🌟 高效的早期融合训练

该模型采用创新的多阶段预训练流程,在平衡的数据策略和早期融合训练范式下,逐步整合文本、音频和视觉模态,确保在全模态性能强劲的同时,不会降低任何单一模态的表现。

🌟 高效训练基础设施

受模态解耦理念的启发,我们提出了一种模态解耦并行训练方案,显著提升了大规模、高难度多模态训练的效率。

🌟 开源贡献

我们全面介绍了 LongCat-Flash-Omni 背后的训练方法和数据策略,并发布了该模型,以加速全模态智能领域的未来研究与创新。

更多详情,请参阅完整的LongCat-Flash-Omni 技术报告。

评估结果

全模态
基准测试LongCat-Flash-Omni InstructGemini-2.5-Pro (ThinkingBudget128)Gemini-2.5-Flash (non-thinking)Qwen3-Omni InstructQwen2.5-Omni Instruct
OmniBench61.3866.8054.9958.4148.16
WorldSense60.8963.9658.7252.0146.69
DailyOmni82.3880.6180.7869.3347.45
UNO-Bench49.9064.4854.3042.1032.60
视觉

图像到文本

基准测试LongCat-Flash-Omni InstructGemini-2.5-Pro (ThinkingBudget128)Gemini-2.5-Flash (non-thinking)Qwen3-Omni InstructSeed-1.6GPT-4o-1120Qwen3-VL-235B-A22B-InstructQwen2.5-VL-72B-Instruct
通用
MMBench-ENtest87.589.889.386.888.583.788.388.6*
MMBench-ZHtest88.789.288.586.483.882.889.887.9*
RealWorldQA74.876.073.972.974.574.179.3*75.7*
MMStar70.978.5*75.568.5*71.563.278.4*68.2
STEM 与推理
MathVistamini77.977.7*77.175.978.762.884.9*74.8*
MMMUval70.780.9*76.369.1*74.969.478.7*70.2*
MMVet69.080.779.568.974.476.675.974.5
多图像
BLINK63.170.0*65.756.165.065.570.7*60.1
MuirBench77.174.0*73.762.174.670.572.8*70.7*
Mantis84.883.983.480.781.179.379.782.0
文本识别与图表/文档理解
ChartQA87.671.777.686.8*82.474.589.289.5*
DocVQA91.894.0*93.6*95.794.380.994.696.4*
OCRBench84.987.2*85.685.585.682.391.288.5
OmniDocBenchEN/ZH↓22.8/29.031.9/24.522.8/32.928.4/40.522.0/27.625.9/37.713.6/17.522.6/32.4*
目标定位与计数
RefCOCO-avg92.375.471.989.380.2-87.190.3
CountBench92.491.0*78.690.0*94.185.6*94.393.6*
图形用户界面(GUI)
VisualWebBench78.781.173.579.381.177.180.882.3*
ScreenSpot-v291.275.863.994.791.7-93.492.9
AndroidControllow91.279.279.190.584.665.290.093.7*
AndroidControlhigh75.660.855.570.855.241.774.167.4*

注:标有 * 的值来源于公开报告。由于 GPT-4o 不支持图像定位,故未报告其在 RefCOCO 和 ScreenSpot-v2 上的结果


视频到文本

基准测试LongCat-Flash-Omni InstructGemini-2.5-Pro (ThinkingBudget128)Gemini-2.5-Flash (non-thinking)Qwen3-Omni InstructSeed-1.6GPT-4o-1120Qwen3-VL (235B-A22B-Instruct)Qwen2.5-VL-72B-Instruct
短视频
MVBench75.266.463.069.3*68.462.171.370.4*
NextQA86.284.281.482.484.179.781.382.3
TempCompass82.280.880.273.579.476.480.574.8*
长视频
VideoMME (无音频)76.2--70.5*75.273.279.2*73.3*
VideoMME (有音频)78.280.6*78.573.0----
LongVideoBench69.369.466.465.464.863.9-60.7*
STEM 与推理
MMVU67.175.672.462.467.367.469.362.9*
Video-MMMU67.579.4*76.660.375.468.073.759.3

注:标有 * 的值来源于公开报告。

音频

表 1:自动语音识别(ASR)和语音到文本翻译(S2TT)

基准测试LongCat-Flash-Omni InstructGemini-2.5-Pro (ThinkingBudget128)GPT-4o-AudioQwen3-Omni InstructKimi-AudioStep-Audio-2-mini
ASR
LibriSpeech (test-clean | test-other)1.57 | 4.011.74 | 3.8030.00 | 41.831.22 | 2.481.28 | 2.421.33 | 2.86
AISHELL-10.633.1134.810.840.600.78
AISHELL-22.785.2477.732.342.562.16
Fleurs (zh | en)3.99 | 5.022.24 | 4.773.91 | 5.562.20 | 2.722.69 | 4.442.53 | 3.05
CommonVoice 15 (zh | en)4.98 | 13.5947.30 | 49.8642.83 | 23.884.31 | 6.058.46 | 7.925.00 | 6.75
WenetSpeech (test-meeting | test-net)6.69 | 6.09136.13 | 32.8254.35 | 67.905.89 | 4.696.28 | 5.374.87 | 4.82
S2TT (BLEU)
CoVost2 en→zh47.2341.9429.3248.72-49.12
CoVost2 zh→en27.3225.3816.0121.51-29.47

注:ASR 结果以 CER/WER 表示(数值越低越好),S2TT 结果以 BLEU 分数表示。


表 2:音频理解

基准测试LongCat-Flash-Omni InstructGemini-2.5-Pro (ThinkingBudget128)GPT-4o-AudioQwen3-Omni InstructKimi-AudioStep-Audio-2-mini
MMAU75.9072.8068.4077.5065.2073.20
VocalSound92.7689.4582.3791.6094.8587.58
TUT201765.4333.1520.7440.7465.2530.67
ClothoAQA72.8369.6761.8775.1672.2168.39
Nonspeech7k93.7987.5972.2880.8393.9373.24
CochlScene70.0245.3434.9443.0380.4244.58
MELD54.6046.7439.0050.8059.1331.44

表 3:音频到文本对话

基准测试LongCat-Flash-Omni InstructGemini-2.5-Pro (ThinkingBudget128)GPT-4o-AudioQwen3-Omni InstructKimi-AudioStep-Audio-2-mini
OpenAudioBench
LlamaQuestions83.3383.0086.3083.3079.3369.70
ReasoningQA79.7180.3068.7184.1658.0255.64
TriviaQA86.2090.2076.0075.9062.1045.30
Webquestions76.0080.9081.2075.2070.2054.40
AlpacaEval75.4376.5881.6185.4375.7353.92
VoiceBench
AlpacaEval4.944.704.734.744.463.84
CommonEval4.324.114.374.543.973.19
OpenBookQA93.4195.1687.9089.7083.5272.97
SDQA82.4683.5490.1076.9063.1244.85
MMSU81.9588.3278.9069.0062.1752.00
AdvBench10097.6999.2399.3010097.00
IFEval77.9977.8366.8177.8061.1029.80
文本
基准测试LongCat-Flash-Omni InstructLongCat-FlashDeepSeek V3.1Qwen3 MoE-2507Kimi-K2GPT-4.1Claude Sonnet-4Gemini-2.5-Flash
架构MoEMoEMoEMoEMoE---
总参数数量560B560B671B235B1043B---
激活参数数量27B27B37B22B32B---
通用领域
MMLU(准确率)90.3089.7190.9690.2389.8689.6491.7586.33
MMLU-Pro(准确率)82.7382.6884.4584.8382.0681.7283.7481.95
CEval(准确率)91.6890.4489.2192.7091.2679.5386.6378.78
CMMLU(准确率)89.3984.3488.0488.1489.6677.6586.5178.30
指令遵循
IFEval(准确率)82.4489.6586.6988.5488.9185.5888.3583.92
COLLIE(准确率)45.6957.1043.8049.7156.3450.0051.2248.60
Meeseeks-zh(准确率)39.0543.0333.8335.3242.7941.5435.0734.84
数学推理
MATH500(准确率)97.6096.4096.0898.8097.6090.6093.8098.40
AIME24(avg@10)72.9270.4266.30*81.6769.60*47.0047.0079.67
BeyondAIME(avg@10)47.4043.0036.5057.6036.6022.1020.5044.20
通用推理
GPQA-diamond(准确率)74.4173.2374.90*77.4375.7667.6870.7180.30
DROP(f1)83.5379.0684.1978.5789.0466.9473.0645.03
ZebraLogic(准确率)86.0089.3085.3094.2289.1156.30*80.1057.00
GraphWalks-128k(精确率)56.0051.0573.5480.7247.5085.0280.5764.83
代码
LiveCodeBench(pass@1)52.6448.0256.40*46.4846.7039.2145.5939.65
Humaneval+(pass@1)90.8588.4192.6894.5185.9893.2994.5187.80
MBPP+(pass@1)80.1679.6379.8979.8981.7579.3780.1676.19

注:标有 * 的值来源于其他公开报告。请注意,DeepSeek-V3.1、Qwen3-235B-A22B、Gemini2.5-Flash 和 Claude4-Sonnet 均在非思考模式下进行评估。

快速开始

模型下载

LongCat-Flash-Omni 是一个 MoE 模型,这意味着模型权重分布在多个设备上。因此,在 Hugging Face Transformers 或 vLLM 中加载时,会根据模型名称自动下载模型权重。但如果您的运行环境不利于在执行过程中下载权重,可以参考以下命令手动将模型权重下载到本地目录:

# Download through Hugging Face
pip install -U "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Flash-Omni --local-dir ./LongCat-Flash-Omni

使用方法

我们已在 SGLang 中完成基础适配,以支持运行 LongCat-Flash-Omni 模型。目前,官方 SGLang 尚未原生支持 LongCat-Flash-Omni,因此您可暂时使用我们的 开发分支 进行本地安装与测试。

由于 LongCat-Flash-Omni 模型参数规模达 5600 亿(560B),若以 FP8 格式加载模型权重,至少需要一个节点(例如 8×H20-141G);若以 BF16 格式加载,则至少需要两个节点(例如 16×H800-80G)。以下提供详细的启动配置说明。

安装要求

  • python >= 3.10.0(建议使用 Anaconda)
  • PyTorch >= 2.8
  • CUDA >= 12.9
conda create -n longcat python=3.10
conda activate longcat

# install SGLang
git clone -b longcat_omni_v0.5.3.post3 https://github.com/XiaoBin1992/sglang.git
pushd sglang
pip install -e "python"
popd

# install longcat-flash-omni demo
git clone https://github.com/meituan-longcat/LongCat-Flash-Omni
pushd LongCat-Flash-Omni
git submodule update --init --recursive
pip install -r requirements.txt
popd

演示

可结合使用张量并行(Tensor Parallelism)和专家并行(Expert Parallelism)在您的集群上部署模型。 安装所有依赖项后,您可以使用以下命令启动演示。

  • 单节点推理
python3 longcat_omni_demo.py \
  --tp-size 8 \
  --ep-size 8 \
  --model-path where_you_download_model_dir \
  --output-dir output
  • 多节点推理
python3 longcat_omni_demo.py \
  --tp-size 16 \
  --ep-size 16 \
  --nodes 2 \
  --node-rank $NODE_RANK \
  --dist-init-addr $MASTER_IP:5000 \
  --model-path where_you_download_model_dir \
  --output-dir output

注意:请将 $NODE_RANK 和 $MASTER_IP 替换为您的 GPU 机器的相应值。

所有测试用例均在 examples_dict.py 中定义,可根据需要添加额外测试用例。模型执行后,生成的结果将保存到由 --output-dir 参数指定的目录中。

与 LongCat-Flash-Omni 交互

实时聊天网站

您可以在 https://longcat.ai 使用 LongCat-Flash-Omni(网页版目前仅支持语音交互功能)。完整服务将在后续更新中提供。

应用程序(APP)

我们很高兴地宣布,LongCat-Flash-Omni 应用程序现已支持 Android 和 iOS 系统。

对于 Android 用户,您可以通过以下二维码下载。

对于 iOS 用户,您可以在 App Store 搜索“LongCat”或通过二维码下载。目前仅支持中国区 App Store。

许可协议

模型权重以MIT 许可证发布。

除非另有说明,对本仓库的任何贡献均采用 MIT 许可证。本许可证不授予使用美团商标或专利的任何权利。

完整许可文本详见 LICENSE 文件。

使用注意事项

本模型并非专门为所有可能的下游应用场景设计或进行全面评估。

开发人员应考虑到大型语言模型的已知局限性,包括在不同语言间的性能差异,并在将模型部署到敏感或高风险场景之前,仔细评估其准确性、安全性和公平性。开发人员和下游用户有责任了解并遵守与其使用场景相关的所有适用法律法规,包括但不限于数据保护、隐私和内容安全要求。

本模型卡片中的任何内容均不应被解释为更改或限制模型发布所依据的 MIT 许可证条款。

引用说明

如果您认为我们的研究工作对您有所帮助,我们诚挚建议您在相关成果中引用本项目。

@misc{
    title={LongCat-Flash-Omni Technical Report}, 
    author={Meituan LongCat Team}, 
    year={2025}, 
    url={https://github.com/meituan-longcat/LongCat-Flash-Omni}, 
}

联系方式

如有任何问题,请通过 longcat-team@meituan.com 与我们联系,或加入我们的微信群。

微信群