今天,我们正式宣布开源Ling-2.6-flash——一款拥有1040亿总参数和74亿激活参数的指令模型。
随着智能体能力的成熟,token消耗的激增已成为部署的主要障碍。与标准聊天不同,智能体工作流涉及海量输入和复杂的多步骤执行,这既增加了计算需求,也提高了用户成本。尽管业界正转向“长推理”以突破性能上限,但一个关键问题依然存在:对于高频、日常的智能体使用场景,这些过多的推理token真的是必需的吗?
面对日益增长的token压力,Ling-2.6-flash选择了一条不同的道路。它不依赖更长的输出来追求更高的分数,而是针对推理效率、token效率和智能体性能进行系统性优化——旨在保持高竞争力的同时,做到更快、更精简,更适合实际生产工作负载。
总体而言,Ling-2.6-flash围绕三大核心优势构建:
我们已在多个权威基准上对Ling-2.6-flash进行了全面评估。Ling-2.6-flash 在 BFCL-V4、TAU2-bench、SWE-bench Verified 和 PinchBench 等代表性智能体基准测试中表现强劲。在实际应用中,Ling-2.6-flash 在 Claude Code、Kilo Code、Qwen Code、Hermes Agent 和 OpenClaw 等框架中均能为用户提供出色体验。
除智能体任务外,Ling-2.6-flash 在通用知识、数学推理、指令遵循和长上下文理解方面也展现出强大性能,与同尺寸级别中的SOTA模型保持一致水平。
- PinchBench:对比分数直接取自PinchBench官方排行榜(截至2026年4月20日),并严格遵循其评估模式(可能为推理模式)。
- Claw-Eval:对比分数来源于Claw-Eval官方排行榜(2026年3月25日版本),并严格遵循其评估模式(可能为推理模式)。GPT-OSS-120B和GPT-5.4-mini的官方分数目前暂未公布,故未列入。
- TAU2-Bench:评估使用官方v1.0.0代码和数据集。遵循GLM-5评估协议,我们在零售和电信领域对提示词进行了细微调整,以确保用户清晰表达需求并防止会话过早终止。此外,所有评估领域均使用GPT-5.2作为用户智能体。
- IFBench:GPT-OSS-120B(低)和GPT-5.4-mini(非推理)的分数来源于AA(Artificial Analysis)排行榜。其他所有模型性能数据均基于内部评估结果。
Ling-2.6-flash 延续了 Ling 2.5 版本所采用的架构方向。在 Ling 2.0 的基础上,我们融入了混合线性注意力机制,通过增量训练将原有的GQA 注意力设计升级为1:7 MLA + Lightning Linear 混合架构。
混合注意力与高度稀疏 MoE 架构的结合,使 Ling-2.6-flash 在推理效率方面具备显著优势。与同量级的主流 SOTA 模型相比,Ling-2.6-flash 不仅首 token 输出速度更快,在长文本生成场景下还能实现更高的生成吞吐量。在峰值状态下,prefill 吞吐量和decode 吞吐量均有约 4 倍的提升。
如下图所示,随着上下文长度和生成长度的增加,Ling-2.6-flash 的吞吐量优势愈发明显。更重要的是,这并非仅体现在静态指标的基准测试中,在实际部署环境下,随着任务复杂度的提升,模型仍能释放出更强的速度优势。
无论是处理长上下文理解还是长文本生成任务,Ling-2.6-flash 都能在保持模型性能的同时,提供更快的响应速度、更高的吞吐量以及更优的实际部署效率。
解码吞吐量对比,4× H20-3e,TP=4,批大小=32
预填充吞吐量对比,4× H20-3e,TP=4,批大小=32
pip install uv
uv venv ~/my_ling_env
source ~/my_ling_env/bin/activate
# uv pip "sglang-kernel>=0.4.1"
uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allowSGLang 目前支持 BF16 和 FP8 模型。这取决于 ${MODEL_PATH} 中模型的数据类型。以下是使用 4 块 GPU 运行 Ling-2.6-flash 的示例,其中主节点 IP 为 ${MASTER_IP},服务器端口为 ${PORT}:
服务器
1. 标准推理(不使用 MTP)
python -m sglang.launch_server \
--model-path $MODEL_PATH \
--tp-size 4 \
--pp-size 1 \
--dp-size 1 \
--trust-remote-code \
--context-length 262144 \
--tool-call-parser qwen25 \
--json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \
--dist-init-addr $MASTER_IP:2345 \
--port $PORT \
--nnodes 12. 使用MTP(多token预测)进行推理
目前SGLang官方的MTP实现存在一个bug。为获得更好的推理性能,建议安装我们的修复版本。我们的修复方案目前正在审核中,预计很快会合并到SGLang官方库。
安装我们的SGLang
git clone -b ling_2_6 git@github.com:antgroup/sglang.git
cd sglang
pip install --upgrade pip
pip install -e "python"启动服务器
python -m sglang.launch_server \
--model-path $MODEL_PATH \
--tp-size 4 \
--pp-size 1 \
--dp-size 1 \
--context-length 262144 \
--mamba-scheduler-strategy extra_buffer \
--speculative-algorithm NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.75 \
--max-running-requests 64 \
--max-mamba-cache-size 256 \
--tool-call-parser qwen25 \
--json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \
--trust-remote-code \
--dist-init-addr $MASTER_IP:2345 \
--port $PORT \
--nnodes 1客户端
curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'pip install uv
uv venv ~/my_ling_env
source ~/my_ling_env/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto服务器
vllm serve $MODEL_PATH \
--port $PORT \
--served-model-name my_model \
--trust-remote-code --tensor-parallel-size 4 \
--gpu-memory-utilization 0.85客户端
curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'在追求极致的智能效率平衡方面,Ling-2.6-flash 已取得了显著进展。该模型在工具使用、多步规划和长周期任务执行等关键领域均有大幅提升。结合推理效率和交互体验的系统性优化,Ling-2.6-flash 现已具备更强的能力来处理大规模、高频次的自动化工作负载,在生产环境中释放更强劲的实际价值。
同时,我们也清醒地认识到,将智能效率推向极限必然伴随着权衡。在部分高度复杂的场景下,由于推理深度有限,模型仍可能出现工具幻觉现象。此外,在中英文自然双语切换以及复杂指令遵循等方面,仍有提升空间。
展望未来,我们将持续探索智能效率的前沿。在保留模型高效推理特性的基础上,我们致力于进一步优化输出质量与token 效率之间的平衡,并不断增强模型在更广泛实际场景中的稳定性、易用性和交互体验。