👋 加入我们的 微信 或 Discord 社区。
📖 查阅 GLM-5 技术博客。
📍 在 Z.ai API 平台 使用 GLM-5 API 服务。
👉 一键访问 GLM-5。
我们正式推出 GLM-5,旨在应对复杂系统工程和长时域智能体任务。模型规模扩展仍是提升通用人工智能(AGI)智能效率的关键途径之一。与 GLM-4.5 相比,GLM-5 的参数规模从 3550 亿(激活参数 320 亿)扩展至 7440 亿(激活参数 400 亿),预训练数据量从 23 万亿 tokens 增加到 28.5 万亿 tokens。GLM-5 还集成了深度求索稀疏注意力(DSA)技术,在保持长上下文能力的同时,大幅降低了部署成本。
强化学习旨在弥合预训练模型在能力与卓越表现之间的差距。然而,由于强化学习训练效率较低,将其大规模应用于大型语言模型(LLMs)面临挑战。为此,我们开发了 slime——一种新型异步强化学习基础设施,显著提升了训练吞吐量和效率,支持更精细的训练后迭代。凭借预训练和训练后优化的双重突破,GLM-5 在各类学术基准测试中较 GLM-4.7 实现显著提升,并在推理、代码生成和智能体任务上达到全球开源模型的领先水平,进一步缩小了与前沿闭源模型的差距。
| GLM-5 | GLM-4.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (xhigh) | |
|---|---|---|---|---|---|---|---|
| HLE | 30.5 | 24.8 | 25.1 | 31.5 | 28.4 | 37.2 | 35.4 |
| HLE (使用工具) | 50.4 | 42.8 | 40.8 | 51.8 | 43.4* | 45.8* | 45.5* |
| AIME 2026 I | 92.7 | 92.9 | 92.7 | 92.5 | 93.3 | 90.6 | - |
| HMMT Nov. 2025 | 96.9 | 93.5 | 90.2 | 91.1 | 91.7 | 93.0 | 97.1 |
| IMOAnswerBench | 82.5 | 82.0 | 78.3 | 81.8 | 78.5 | 83.3 | 86.3 |
| GPQA-Diamond | 86.0 | 85.7 | 82.4 | 87.6 | 87.0 | 91.9 | 92.4 |
| SWE-bench Verified | 77.8 | 73.8 | 73.1 | 76.8 | 80.9 | 76.2 | 80.0 |
| SWE-bench Multilingual | 73.3 | 66.7 | 70.2 | 73.0 | 77.5 | 65.0 | 72.0 |
| Terminal-Bench 2.0 (Terminus 2) | 56.2 / 60.7 † | 41.0 | 39.3 | 50.8 | 59.3 | 54.2 | 54.0 |
| Terminal-Bench 2.0 (Claude Code) | 56.2 / 61.1 † | 32.8 | 46.4 | - | 57.9 | - | - |
| CyberGym | 43.2 | 23.5 | 17.3 | 41.3 | 50.6 | 39.9 | - |
| BrowseComp | 62.0 | 52.0 | 51.4 | 60.6 | 37.0 | 37.8 | - |
| BrowseComp (使用上下文管理) | 75.9 | 67.5 | 67.6 | 74.9 | 67.8 | 59.2 | 65.8 |
| BrowseComp-Zh | 72.7 | 66.6 | 65.0 | 62.3 | 62.4 | 66.8 | 76.1 |
| τ²-Bench | 89.7 | 87.4 | 85.3 | 80.2 | 91.6 | 90.7 | 85.5 |
| MCP-Atlas (Public Set) | 67.8 | 52.0 | 62.2 | 63.8 | 65.2 | 66.6 | 68.0 |
| Tool-Decathlon | 38.0 | 23.8 | 35.2 | 27.8 | 43.5 | 36.4 | 46.3 |
| Vending Bench 2 | $4,432.12 | $2,376.82 | $1,034.00 | $1,198.46 | $4,967.06 | $5,478.16 | $3,591.33 |
*:指其完整测试集的得分。
†:Terminal-Bench 2.0 的验证版本,修复了部分模糊指令。 更多评估细节见脚注。
temperature=1.0,top_p=0.95,max_new_tokens=131072)。默认情况下,我们报告纯文本子集的结果;标有 * 的结果来自完整集合。我们使用 GPT-5.2(medium)作为评判模型。对于 HLE-with-tools,我们使用的最大上下文长度为 202,752 个 token。temperature=0.7,top_p=0.95,max_new_tokens=16384,上下文窗口为 200K。timeout=2h,temperature=0.7,top_p=1.0,max_new_tokens=8192,上下文窗口为 128K。资源限制为 16 个 CPU 和 32 GB RAM。temperature=1.0,top_p=0.95,max_new_tokens=65536。由于生成速度的原因,我们移除了挂钟时间限制,但保留了每个任务的 CPU 和内存约束。分数为 5 次运行的平均值。我们修复了 Claude Code 引入的环境问题,并在已验证的 Terminal-Bench 2.0 数据集(该数据集解决了指令模糊问题,参见:https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)上报告结果。temperature=1.0,top_p=1.0,max_new_tokens=32000),每个任务超时时间为 250 分钟。结果为 1,507 个任务上单次运行的 Pass@1。vLLM、SGLang 和 xLLM 均支持 GLM-5 的本地部署。本文提供简易部署指南。
vLLM
使用 Docker 部署:
docker pull vllm/vllm-openai:nightly 或使用 pip 安装:
pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly然后升级 transformers:
pip install git+https://github.com/huggingface/transformers.gitSGLang
使用 Docker 部署:
docker pull lmsysorg/sglang:glm5-hopper # 适用于 Hopper GPU
docker pull lmsysorg/sglang:glm5-blackwell # 适用于 Blackwell GPUvLLM
vllm serve zai-org/GLM-5-FP8 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.85 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 1 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5-fp8更多详细信息,请参见 使用指南。
SGLang
python3 -m sglang.launch_server \
--model-path zai-org/GLM-5-FP8 \
--tp-size 8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.85 \
--served-model-name glm-5-fp8更多详细信息,请参见 SGLang 手册。
xLLM 及其他昇腾 NPU
请参见此处的部署指南 链接。
技术报告即将发布。