HuggingFace镜像/Ling-2.6-1T
模型介绍文件和版本分析
下载使用量0

🤗 Hugging Face   |   🤖 ModelScope    |   🐙 OpenRouter

Ling-2.6-1T:面向复杂任务的万亿参数全能旗舰模型

今天,我们荣幸地开源 Ling 系列中的 Ling-2.6-1T。

这款万亿参数模型专为现实世界复杂场景打造,在推理效率、令牌开销和智能体能力方面进行了针对性优化,使其在编码和日常工作流中表现卓越。

Ling-2.6-1T 的主要升级包括:

  • 高推理效率:通过采用 MLA 与线性注意力相结合的混合架构,大幅降低了长上下文的延迟和显存占用。在不损失表达能力的前提下,实现了更高的吞吐量和更低的每令牌计算成本,确保复杂推理和工具调用的实时响应。
  • "快速思考"降低令牌开销:在后期训练阶段引入上下文过程冗余抑制奖励策略。这减少了对冗长思维链(CoT)的依赖,利用"快速思考"机制直接得出答案,在保持顶级智能水平的同时压缩输出成本。
  • 可靠的多步骤执行:凭借增强的推理能力、智能体编码能力和指令遵循能力,Ling-2.6-1T 在注重执行的基准测试中达到开源领域的 SOTA,包括 AIME26、SWE-bench Verified、BFCL-V4、TAU2-Bench 和 IFBench。
  • 适用于智能体工作流的生产级模型:专为端到端工程设计——从代码生成到错误修复,Ling-2.6-1T 可与主流智能体框架(如 Claude Code、OpenClaw、OpenCode 和 CodeBuddy)无缝集成,轻松应对企业环境中的多工具、多步骤约束。

以卓越效率释放强大智能

在 Artificial Analysis 平台上,Ling-2.6-1T 以约 1600 万输出 tokens 实现了 34 的智能指数,较上一代 Ling-1T 实现了显著的代际飞跃。这一成绩充分彰显了其在优化 tokens 消耗的同时,提供高端智能的能力。

提升复杂多步骤任务的执行稳定性

Ling-2.6-1T 在推理、编码和工具调用方面展现出均衡的卓越性能,在多个注重执行能力的基准测试中达到 开源 SOTA 水平:

  • 高级推理:在 AIME26 上显著领先非思考型模型,彰显其卓越的复杂问题解决能力。
  • 一线智能体执行:在 SWE-bench Verified、TAU2-Bench、Claw-Eval、BFCL-V4 和 PinchBench 等基准测试中跻身顶尖模型行列,证明其在实际工作流中的高可靠性。
  • 上下文与约束处理:在 MRCR (16K–256K) 和 IFBench 上的出色表现,确保了在复杂指令和长上下文下的逻辑一致性与精确性。

注:如对旧版本感兴趣,请访问 Huggingface 或 ModelScope 上的历史模型集合。

快速开始

🔌 API 使用

https://openrouter.ai/inclusionai/ling-2.6-1t:free

https://zenmux.ai/inclusionai/ling-2.6-1t

部署

SGLang

环境准备

pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

# uv pip "sglang-kernel>=0.4.1"
uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allow

运行推理

以下是使用 8 个 GPU 运行 Ling-1T 的示例,其中服务器端口为 ${PORT}:

服务器

1. 标准推理(不使用 MTP)

sglang serve \
  --model-path inclusionAI/Ling-2.6-1T \
  --tp-size 8 \
  --max-running-requests 32 \
  --mem-fraction-static 0.92 \
  --chunked-prefill-size 8192 \
  --context-length 262144 \
  --trust-remote-code \
  --model-loader-extra-config '{"enable_multithread_load":"true","num_threads":64}' \
  --tool-call-parser qwen25

2. 使用 MTP(多令牌预测)进行推理
当前 SGLang 官方实现的 MTP 存在一个 bug。为获得更佳的推理性能,建议安装我们的修补版本。我们的修复方案目前正在审核中,预计很快会合并到 SGLang 官方库。

安装我们的 SGLang

git clone -b ling_2_6 git@github.com:antgroup/sglang.git
cd sglang

pip install --upgrade pip
pip install -e "python"

启动服务器

sglang serve \
  --model-path inclusionAI/Ling-2.6-1T \
  --tp-size 8 \
  --max-running-requests 32 \
  --mem-fraction-static 0.92 \
  --chunked-prefill-size 8192 \
  --context-length 262144 \
  --trust-remote-code \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mamba-scheduler-strategy extra_buffer \
  --mamba-full-memory-ratio 1.4 \
  --model-loader-extra-config '{"enable_multithread_load":"true","num_threads":64}' \
  --tool-call-parser qwen25

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

更多用法可参考此处

vLLM

环境准备
pip install uv

uv venv ~/my_ling_env

source ~/my_ling_env/bin/activate

git clone https://github.com/vllm-project/vllm.git

cd vllm

VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto

运行推理

服务器

vllm serve $MODEL_PATH \
    --port $PORT \
    --served-model-name my_model \
    --trust-remote-code --tensor-parallel-size 8 \
    --gpu-memory-utilization 0.85

客户端

curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'

局限性与未来规划

尽管Ling-2.6-1T在推理能力和智能体效率方面表现出色,但我们未来的开发将聚焦于以下方向:

  • 智能-效率平衡:进一步优化知识密集型任务的token效率。
  • 长程一致性:增强长期规划和复杂信息检索中的全局一致性。
  • 动态对齐:改进跨语言对齐,以消除复杂指令下偶尔出现的语言切换偏差。

我们始终致力于突破模型性能的边界,以提升在所有复杂场景下的交付效率。

许可证

本代码仓库采用MIT许可证授权。