Ling-2.6-1T:可用于复杂任务处理、编码及日常工作流，是万亿参数旗舰模型，优化推理效率、降低 token 开销，提升智能体能力，支持主流智能体框架，在多执行基准上达开源 SOTA。【此简介由AI生成】

🤗 Hugging Face | 🤖 ModelScope | 🐙 OpenRouter

Ling-2.6-1T：面向复杂任务的万亿参数全能旗舰模型

今天，我们荣幸地开源 Ling 系列中的 Ling-2.6-1T。

这款万亿参数模型专为现实世界复杂场景打造，在推理效率、令牌开销和智能体能力方面进行了针对性优化，使其在编码和日常工作流中表现卓越。

Ling-2.6-1T 的主要升级包括：

高推理效率：通过采用 MLA 与线性注意力相结合的混合架构，大幅降低了长上下文的延迟和显存占用。在不损失表达能力的前提下，实现了更高的吞吐量和更低的每令牌计算成本，确保复杂推理和工具调用的实时响应。
"快速思考"降低令牌开销：在后期训练阶段引入上下文过程冗余抑制奖励策略。这减少了对冗长思维链（CoT）的依赖，利用"快速思考"机制直接得出答案，在保持顶级智能水平的同时压缩输出成本。
可靠的多步骤执行：凭借增强的推理能力、智能体编码能力和指令遵循能力，Ling-2.6-1T 在注重执行的基准测试中达到开源领域的 SOTA，包括 AIME26、SWE-bench Verified、BFCL-V4、TAU2-Bench 和 IFBench。
适用于智能体工作流的生产级模型：专为端到端工程设计——从代码生成到错误修复，Ling-2.6-1T 可与主流智能体框架（如 Claude Code、OpenClaw、OpenCode 和 CodeBuddy）无缝集成，轻松应对企业环境中的多工具、多步骤约束。

以卓越效率释放强大智能

在 Artificial Analysis 平台上，Ling-2.6-1T 以约 1600 万输出 tokens 实现了 34 的智能指数，较上一代 Ling-1T 实现了显著的代际飞跃。这一成绩充分彰显了其在优化 tokens 消耗的同时，提供高端智能的能力。

提升复杂多步骤任务的执行稳定性

Ling-2.6-1T 在推理、编码和工具调用方面展现出均衡的卓越性能，在多个注重执行能力的基准测试中达到 开源 SOTA 水平：

高级推理：在 AIME26 上显著领先非思考型模型，彰显其卓越的复杂问题解决能力。
一线智能体执行：在 SWE-bench Verified、TAU2-Bench、Claw-Eval、BFCL-V4 和 PinchBench 等基准测试中跻身顶尖模型行列，证明其在实际工作流中的高可靠性。
上下文与约束处理：在 MRCR (16K–256K) 和 IFBench 上的出色表现，确保了在复杂指令和长上下文下的逻辑一致性与精确性。

注：如对旧版本感兴趣，请访问 Huggingface 或 ModelScope 上的历史模型集合。

快速开始

🔌 API 使用

https://openrouter.ai/inclusionai/ling-2.6-1t:free

https://zenmux.ai/inclusionai/ling-2.6-1t

部署

SGLang

环境准备

pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

# uv pip "sglang-kernel>=0.4.1"
uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allow

运行推理

以下是使用 8 个 GPU 运行 Ling-1T 的示例，其中服务器端口为 ${PORT}：

服务器

1. 标准推理（不使用 MTP）

sglang serve \
  --model-path inclusionAI/Ling-2.6-1T \
  --tp-size 8 \
  --max-running-requests 32 \
  --mem-fraction-static 0.92 \
  --chunked-prefill-size 8192 \
  --context-length 262144 \
  --trust-remote-code \
  --model-loader-extra-config '{"enable_multithread_load":"true","num_threads":64}' \
  --tool-call-parser qwen25

2. 使用 MTP（多令牌预测）进行推理
当前 SGLang 官方实现的 MTP 存在一个 bug。为获得更佳的推理性能，建议安装我们的修补版本。我们的修复方案目前正在审核中，预计很快会合并到 SGLang 官方库。

安装我们的 SGLang

git clone -b ling_2_6 git@github.com:antgroup/sglang.git
cd sglang

pip install --upgrade pip
pip install -e "python"

启动服务器

sglang serve \
  --model-path inclusionAI/Ling-2.6-1T \
  --tp-size 8 \
  --max-running-requests 32 \
  --mem-fraction-static 0.92 \
  --chunked-prefill-size 8192 \
  --context-length 262144 \
  --trust-remote-code \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mamba-scheduler-strategy extra_buffer \
  --mamba-full-memory-ratio 1.4 \
  --model-loader-extra-config '{"enable_multithread_load":"true","num_threads":64}' \
  --tool-call-parser qwen25

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

更多用法可参考此处

vLLM

环境准备

pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

git clone https://github.com/vllm-project/vllm.git

cd vllm

VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

运行推理

服务器

vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.85

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

局限性与未来规划

尽管Ling-2.6-1T在推理能力和智能体效率方面表现出色，但我们未来的开发将聚焦于以下方向：

智能-效率平衡：进一步优化知识密集型任务的token效率。
长程一致性：增强长期规划和复杂信息检索中的全局一致性。
动态对齐：改进跨语言对齐，以消除复杂指令下偶尔出现的语言切换偏差。

我们始终致力于突破模型性能的边界，以提升在所有复杂场景下的交付效率。

许可证

本代码仓库采用MIT许可证授权。

🤗 Hugging Face | 🤖 ModelScope | 🐙 OpenRouter

Ling-2.6-1T：面向复杂任务的万亿参数全能旗舰模型

今天，我们荣幸地开源 Ling 系列中的 Ling-2.6-1T。

这款万亿参数模型专为现实世界复杂场景打造，在推理效率、令牌开销和智能体能力方面进行了针对性优化，使其在编码和日常工作流中表现卓越。

Ling-2.6-1T 的主要升级包括：

高推理效率：通过采用 MLA 与线性注意力相结合的混合架构，大幅降低了长上下文的延迟和显存占用。在不损失表达能力的前提下，实现了更高的吞吐量和更低的每令牌计算成本，确保复杂推理和工具调用的实时响应。
"快速思考"降低令牌开销：在后期训练阶段引入上下文过程冗余抑制奖励策略。这减少了对冗长思维链（CoT）的依赖，利用"快速思考"机制直接得出答案，在保持顶级智能水平的同时压缩输出成本。
可靠的多步骤执行：凭借增强的推理能力、智能体编码能力和指令遵循能力，Ling-2.6-1T 在注重执行的基准测试中达到开源领域的 SOTA，包括 AIME26、SWE-bench Verified、BFCL-V4、TAU2-Bench 和 IFBench。
适用于智能体工作流的生产级模型：专为端到端工程设计——从代码生成到错误修复，Ling-2.6-1T 可与主流智能体框架（如 Claude Code、OpenClaw、OpenCode 和 CodeBuddy）无缝集成，轻松应对企业环境中的多工具、多步骤约束。

以卓越效率释放强大智能

提升复杂多步骤任务的执行稳定性

Ling-2.6-1T 在推理、编码和工具调用方面展现出均衡的卓越性能，在多个注重执行能力的基准测试中达到 开源 SOTA 水平：

高级推理：在 AIME26 上显著领先非思考型模型，彰显其卓越的复杂问题解决能力。
一线智能体执行：在 SWE-bench Verified、TAU2-Bench、Claw-Eval、BFCL-V4 和 PinchBench 等基准测试中跻身顶尖模型行列，证明其在实际工作流中的高可靠性。
上下文与约束处理：在 MRCR (16K–256K) 和 IFBench 上的出色表现，确保了在复杂指令和长上下文下的逻辑一致性与精确性。

注：如对旧版本感兴趣，请访问 Huggingface 或 ModelScope 上的历史模型集合。

快速开始

🔌 API 使用

https://openrouter.ai/inclusionai/ling-2.6-1t:free

https://zenmux.ai/inclusionai/ling-2.6-1t

部署

SGLang

环境准备

pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

# uv pip "sglang-kernel>=0.4.1"
uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allow

运行推理

以下是使用 8 个 GPU 运行 Ling-1T 的示例，其中服务器端口为 ${PORT}：

服务器

1. 标准推理（不使用 MTP）

sglang serve \
  --model-path inclusionAI/Ling-2.6-1T \
  --tp-size 8 \
  --max-running-requests 32 \
  --mem-fraction-static 0.92 \
  --chunked-prefill-size 8192 \
  --context-length 262144 \
  --trust-remote-code \
  --model-loader-extra-config '{"enable_multithread_load":"true","num_threads":64}' \
  --tool-call-parser qwen25

安装我们的 SGLang

git clone -b ling_2_6 git@github.com:antgroup/sglang.git
cd sglang

pip install --upgrade pip
pip install -e "python"

启动服务器

sglang serve \
  --model-path inclusionAI/Ling-2.6-1T \
  --tp-size 8 \
  --max-running-requests 32 \
  --mem-fraction-static 0.92 \
  --chunked-prefill-size 8192 \
  --context-length 262144 \
  --trust-remote-code \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mamba-scheduler-strategy extra_buffer \
  --mamba-full-memory-ratio 1.4 \
  --model-loader-extra-config '{"enable_multithread_load":"true","num_threads":64}' \
  --tool-call-parser qwen25

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

更多用法可参考此处

vLLM

环境准备

pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

git clone https://github.com/vllm-project/vllm.git

cd vllm

VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

运行推理

服务器

vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.85

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

局限性与未来规划

尽管Ling-2.6-1T在推理能力和智能体效率方面表现出色，但我们未来的开发将聚焦于以下方向：

智能-效率平衡：进一步优化知识密集型任务的token效率。
长程一致性：增强长期规划和复杂信息检索中的全局一致性。
动态对齐：改进跨语言对齐，以消除复杂指令下偶尔出现的语言切换偏差。

我们始终致力于突破模型性能的边界，以提升在所有复杂场景下的交付效率。

许可证

本代码仓库采用MIT许可证授权。