🤗 Hugging Face | 🤖 ModelScope | 🐙 OpenRouter
今天,我们荣幸地开源 Ling 系列中的 Ling-2.6-1T。
这款万亿参数模型专为现实世界复杂场景打造,在推理效率、令牌开销和智能体能力方面进行了针对性优化,使其在编码和日常工作流中表现卓越。
Ling-2.6-1T 的主要升级包括:
在 Artificial Analysis 平台上,Ling-2.6-1T 以约 1600 万输出 tokens 实现了 34 的智能指数,较上一代 Ling-1T 实现了显著的代际飞跃。这一成绩充分彰显了其在优化 tokens 消耗的同时,提供高端智能的能力。
Ling-2.6-1T 在推理、编码和工具调用方面展现出均衡的卓越性能,在多个注重执行能力的基准测试中达到 开源 SOTA 水平:
注:如对旧版本感兴趣,请访问 Huggingface 或 ModelScope 上的历史模型集合。
https://openrouter.ai/inclusionai/ling-2.6-1t:free
https://zenmux.ai/inclusionai/ling-2.6-1t
pip install uv
uv venv ~/my_ling_env
source ~/my_ling_env/bin/activate
# uv pip "sglang-kernel>=0.4.1"
uv pip install "sglang[all]>=0.5.10.post1" --prerelease=allow以下是使用 8 个 GPU 运行 Ling-1T 的示例,其中服务器端口为 ${PORT}:
服务器
1. 标准推理(不使用 MTP)
sglang serve \
--model-path inclusionAI/Ling-2.6-1T \
--tp-size 8 \
--max-running-requests 32 \
--mem-fraction-static 0.92 \
--chunked-prefill-size 8192 \
--context-length 262144 \
--trust-remote-code \
--model-loader-extra-config '{"enable_multithread_load":"true","num_threads":64}' \
--tool-call-parser qwen252. 使用 MTP(多令牌预测)进行推理
当前 SGLang 官方实现的 MTP 存在一个 bug。为获得更佳的推理性能,建议安装我们的修补版本。我们的修复方案目前正在审核中,预计很快会合并到 SGLang 官方库。
安装我们的 SGLang
git clone -b ling_2_6 git@github.com:antgroup/sglang.git
cd sglang
pip install --upgrade pip
pip install -e "python"启动服务器
sglang serve \
--model-path inclusionAI/Ling-2.6-1T \
--tp-size 8 \
--max-running-requests 32 \
--mem-fraction-static 0.92 \
--chunked-prefill-size 8192 \
--context-length 262144 \
--trust-remote-code \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mamba-scheduler-strategy extra_buffer \
--mamba-full-memory-ratio 1.4 \
--model-loader-extra-config '{"enable_multithread_load":"true","num_threads":64}' \
--tool-call-parser qwen25客户端
curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'更多用法可参考此处
pip install uv
uv venv ~/my_ling_env
source ~/my_ling_env/bin/activate
git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 uv pip install --editable . --torch-backend=auto服务器
vllm serve $MODEL_PATH \
--port $PORT \
--served-model-name my_model \
--trust-remote-code --tensor-parallel-size 8 \
--gpu-memory-utilization 0.85客户端
curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "auto", "messages": [{"role": "user", "content": "What is the capital of France?"}]}'尽管Ling-2.6-1T在推理能力和智能体效率方面表现出色,但我们未来的开发将聚焦于以下方向:
我们始终致力于突破模型性能的边界,以提升在所有复杂场景下的交付效率。
本代码仓库采用MIT许可证授权。