Ling-2.6-flash-fp8:可用于高频率日常代理场景部署，降低计算需求与成本。该模型具备混合线性架构提升推理效率，优化token效率实现智能-效率平衡，针对工具使用、多步规划等代理场景有定向改进。【此简介由AI生成】

Ling-2.6-flash：响应更快、执行更强、Token效率更高

简介

今天，我们正式宣布开源Ling-2.6-flash，这是一款拥有1040亿总参数和74亿活跃参数的指令模型。

随着智能体能力的成熟，Token消耗的激增已成为部署的主要障碍。与标准聊天不同，智能体工作流涉及海量输入和复杂的多步骤执行，这既增加了计算需求，也提高了用户成本。尽管行业正转向“长推理”以突破性能上限，但一个关键问题仍然存在：对于高频、日常的智能体使用场景，这些过多的推理Token真的是必需的吗？

面对日益增长的Token压力，Ling-2.6-flash选择了一条不同的道路。它不依赖更长的输出来追求更高的分数，而是系统地针对推理效率、Token效率和智能体性能进行优化——旨在保持高度竞争力的同时，做到更快、更精简，更适合实际生产工作负载。

总体而言，Ling-2.6-flash围绕三大核心优势构建：

混合线性架构，提升推理效率
通过引入混合线性架构，我们从基础层面提升了计算效率。在4× H20配置下，Ling-2.6-flash的推理速度高达340 tokens/s。换句话说，它能以显著更优的性价比完成任务。
Token效率优化，实现更优的智能-效率权衡
在训练过程中，我们专门针对Token效率进行了优化，目标是用更简洁的输出完成任务。在完整的Artificial Analysis评估套件中，Ling-2.6-flash仅使用1500万Token，却仍能提供具有竞争力的性能。这意味着它具备了显著更强的智能-效率特性。
针对智能体场景的定向改进
针对当前需求最旺盛的智能体使用场景，我们在工具使用、多步骤规划和任务执行方面对Ling-2.6-flash进行了持续优化。因此，在包括BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval和PinchBench在内的基准测试中，该模型的性能与具有更多活跃参数的模型相比具有竞争力，在某些情况下甚至达到了SOTA水平。

评估

我们已基于多个权威基准对Ling-2.6-flash进行了全面评估。Ling-2.6-flash在BFCL-V4、TAU2-bench、SWE-bench Verified和PinchBench等代表性智能体基准测试中表现优异。在实际应用中，Ling-2.6-flash在Claude Code、Kilo Code、Qwen Code、Hermes Agent和OpenClaw等框架下均能为用户带来出色体验。

除智能体任务外，Ling-2.6-flash在通用知识、数学推理、指令遵循和长上下文理解等方面也展现出强劲性能，与同规模级别的SOTA模型保持一致水平。

PinchBench：对比分数直接取自PinchBench官方排行榜（截至2026年4月20日），并遵循其评估模式（可能为推理模式）。

Claw-Eval：对比分数来源于Claw-Eval官方排行榜（2026年3月25日版本），并遵循其评估模式（可能为推理模式）。GPT-OSS-120B和GPT-5.4-mini的官方分数目前暂未公布，故未列入。

TAU2-Bench：评估使用官方v1.0.0代码和数据集。遵循GLM-5评估协议，我们在零售和电信领域对提示词进行了微调，以确保用户能清晰表达需求并避免会话过早终止。此外，所有评估领域均使用GPT-5.2作为用户智能体。

IFBench：GPT-OSS-120B（低）和GPT-5.4-mini（非推理）的分数来源于AA（Artificial Analysis）排行榜。其他所有模型的性能数据均基于内部评估结果。

量化鲁棒性：FP8与INT4

我们使用多个数据集对FP8和INT4量化模型进行了评估。其中，FP8量化采用分块量化方式，INT4量化则采用分组量化方式。

架构

Ling-2.6-flash 延续了 Ling 2.5 中引入的架构方向。在 Ling 2.0 的基础上，我们融入了混合线性注意力机制，通过增量训练将原有的GQA 注意力设计升级为1:7 MLA + Lightning Linear混合架构。

这种混合注意力与高度稀疏的 MoE 架构的结合，使 Ling-2.6-flash 在推理效率上具备明显优势。与同规模级别的主流 SOTA 模型相比，Ling-2.6-flash 不仅首 token 生成速度更快，在长输出场景下还能实现显著更高的生成吞吐量。在峰值情况下，预填充吞吐量和解码吞吐量均能提升高达约 4 倍。

如下图所示，随着上下文长度和生成长度的增加，Ling-2.6-flash 的吞吐量优势愈发明显。更重要的是，这不仅仅是静态指标上的基准测试收益。在实际部署环境中，随着任务复杂度的提升，模型持续释放出更强的速度优势。

无论是涉及长上下文理解还是扩展文本生成的工作负载，Ling-2.6-flash 都能在保持模型能力的同时，提供更快的响应速度、更高的吞吐量以及更优的实际部署效率。

解码吞吐量对比，4× H20-3e，TP=4，批处理大小 = 32

预填充吞吐量对比，4× H20-3e，TP=4，批处理大小 = 32

快速入门

SGLang（推荐）

环境准备

pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

# uv pip "sglang-kernel>=0.4.1"
uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allow

运行推理

SGLang 现已支持 BF16 和 FP8 模型。具体支持哪种模型取决于 ${MODEL_PATH} 中模型的数据类型。以下是使用 4 块 GPU 运行 Ling-2.6-flash 的示例，其中主节点 IP 为 ${MASTER_IP}，服务器端口为 ${PORT}：

服务器

1. 标准推理（不使用 MTP）

python -m sglang.launch_server \
    --model-path $MODEL_PATH \
    --tp-size 4 \
    --pp-size 1 \
    --dp-size 1 \
    --trust-remote-code \
    --context-length 262144 \
    --tool-call-parser qwen25 \
    --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \
    --dist-init-addr $MASTER_IP:2345 \
    --port $PORT \
    --nnodes 1

2. 使用MTP（多令牌预测）进行推理
目前SGLang官方的MTP实现存在一个bug。为获得更优的推理性能，建议安装我们的修复版本。我们的修复方案正在审核中，预计很快会合并到SGLang官方库。

安装我们的SGLang

git clone -b ling_2_6 git@github.com:antgroup/sglang.git
cd sglang

pip install --upgrade pip
pip install -e "python"

启动服务器

python -m sglang.launch_server \
    --model-path $MODEL_PATH \
    --tp-size 4 \
    --pp-size 1 \
    --dp-size 1 \
    --context-length 262144 \
    --mamba-scheduler-strategy extra_buffer \
    --speculative-algorithm NEXTN \
    --speculative-num-steps 3 \
    --speculative-eagle-topk 1 \
    --speculative-num-draft-tokens 4 \
    --mem-fraction-static 0.75 \
    --max-running-requests 64 \
    --max-mamba-cache-size 256 \
    --tool-call-parser qwen25 \
    --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \
    --trust-remote-code \
    --dist-init-addr $MASTER_IP:2345 \
    --port $PORT \
    --nnodes 1

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

vLLM

环境准备

pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

git clone https://github.com/vllm-project/vllm.git

cd vllm

VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

运行推理

服务器

vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 4 \
    --gpu-memory-utilization 0.85

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

局限性与未来规划

在追求极致智能效率平衡的道路上，Ling-2.6-flash 已取得了显著进展。该模型在工具使用、多步规划和长周期任务执行等关键领域均有大幅提升。结合推理效率与交互体验的系统性优化，Ling-2.6-flash 现已具备更强的能力来处理大规模、高频次的自动化工作负载，在生产环境中释放更强劲的实际价值。

同时，我们也清醒地认识到，将智能效率推向极限必然伴随着权衡。在部分高度复杂的场景下，由于推理深度有限，模型仍可能出现工具幻觉现象。此外，在中英文自然双语切换及复杂指令遵循等方面，仍有提升空间。

展望未来，我们将持续探索智能效率的前沿。在保留模型高效推理特性的基础上，我们致力于进一步优化输出质量与token 效率之间的平衡，并不断增强模型在更广泛实际场景中的稳定性、易用性和交互体验。

Ling-2.6-flash：响应更快、执行更强、Token效率更高

简介

今天，我们正式宣布开源Ling-2.6-flash，这是一款拥有1040亿总参数和74亿活跃参数的指令模型。

总体而言，Ling-2.6-flash围绕三大核心优势构建：

混合线性架构，提升推理效率
通过引入混合线性架构，我们从基础层面提升了计算效率。在4× H20配置下，Ling-2.6-flash的推理速度高达340 tokens/s。换句话说，它能以显著更优的性价比完成任务。
Token效率优化，实现更优的智能-效率权衡
在训练过程中，我们专门针对Token效率进行了优化，目标是用更简洁的输出完成任务。在完整的Artificial Analysis评估套件中，Ling-2.6-flash仅使用1500万Token，却仍能提供具有竞争力的性能。这意味着它具备了显著更强的智能-效率特性。
针对智能体场景的定向改进
针对当前需求最旺盛的智能体使用场景，我们在工具使用、多步骤规划和任务执行方面对Ling-2.6-flash进行了持续优化。因此，在包括BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval和PinchBench在内的基准测试中，该模型的性能与具有更多活跃参数的模型相比具有竞争力，在某些情况下甚至达到了SOTA水平。

评估

PinchBench：对比分数直接取自PinchBench官方排行榜（截至2026年4月20日），并遵循其评估模式（可能为推理模式）。

Claw-Eval：对比分数来源于Claw-Eval官方排行榜（2026年3月25日版本），并遵循其评估模式（可能为推理模式）。GPT-OSS-120B和GPT-5.4-mini的官方分数目前暂未公布，故未列入。

TAU2-Bench：评估使用官方v1.0.0代码和数据集。遵循GLM-5评估协议，我们在零售和电信领域对提示词进行了微调，以确保用户能清晰表达需求并避免会话过早终止。此外，所有评估领域均使用GPT-5.2作为用户智能体。

IFBench：GPT-OSS-120B（低）和GPT-5.4-mini（非推理）的分数来源于AA（Artificial Analysis）排行榜。其他所有模型的性能数据均基于内部评估结果。

量化鲁棒性：FP8与INT4

我们使用多个数据集对FP8和INT4量化模型进行了评估。其中，FP8量化采用分块量化方式，INT4量化则采用分组量化方式。

架构

解码吞吐量对比，4× H20-3e，TP=4，批处理大小 = 32

预填充吞吐量对比，4× H20-3e，TP=4，批处理大小 = 32

快速入门

SGLang（推荐）

环境准备

pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

# uv pip "sglang-kernel>=0.4.1"
uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allow

运行推理

服务器

1. 标准推理（不使用 MTP）

python -m sglang.launch_server \
    --model-path $MODEL_PATH \
    --tp-size 4 \
    --pp-size 1 \
    --dp-size 1 \
    --trust-remote-code \
    --context-length 262144 \
    --tool-call-parser qwen25 \
    --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \
    --dist-init-addr $MASTER_IP:2345 \
    --port $PORT \
    --nnodes 1

安装我们的SGLang

git clone -b ling_2_6 git@github.com:antgroup/sglang.git
cd sglang

pip install --upgrade pip
pip install -e "python"

启动服务器

python -m sglang.launch_server \
    --model-path $MODEL_PATH \
    --tp-size 4 \
    --pp-size 1 \
    --dp-size 1 \
    --context-length 262144 \
    --mamba-scheduler-strategy extra_buffer \
    --speculative-algorithm NEXTN \
    --speculative-num-steps 3 \
    --speculative-eagle-topk 1 \
    --speculative-num-draft-tokens 4 \
    --mem-fraction-static 0.75 \
    --max-running-requests 64 \
    --max-mamba-cache-size 256 \
    --tool-call-parser qwen25 \
    --json-model-override-args '{"rope_scaling": {"rope_type": "yarn", "factor": 2.0, "rope_theta": 6000000, "partial_rotary_factor": 0.5, "original_max_position_embeddings": 131072}}' \
    --trust-remote-code \
    --dist-init-addr $MASTER_IP:2345 \
    --port $PORT \
    --nnodes 1

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

vLLM

环境准备

pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

git clone https://github.com/vllm-project/vllm.git

cd vllm

VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

运行推理

服务器

vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 4 \
    --gpu-memory-utilization 0.85

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'