GLM-5

👋 加入我们的微信或 Discord 社区。
📖 查阅 GLM-5 技术博客。
📍 在 Z.ai API 平台使用 GLM-5 API 服务。
👉 一键访问 GLM-5。

简介

我们正式推出 GLM-5，旨在应对复杂系统工程和长时域智能体任务。模型规模扩展仍是提升通用人工智能（AGI）智能效率的关键途径之一。与 GLM-4.5 相比，GLM-5 的参数规模从 3550 亿（激活参数 320 亿）扩展至 7440 亿（激活参数 400 亿），预训练数据量从 23 万亿 tokens 增加到 28.5 万亿 tokens。GLM-5 还集成了深度求索稀疏注意力（DSA）技术，在保持长上下文能力的同时，大幅降低了部署成本。

强化学习旨在弥合预训练模型在能力与卓越表现之间的差距。然而，由于强化学习训练效率较低，将其大规模应用于大型语言模型（LLMs）面临挑战。为此，我们开发了 slime——一种新型异步强化学习基础设施，显著提升了训练吞吐量和效率，支持更精细的训练后迭代。凭借预训练和训练后优化的双重突破，GLM-5 在各类学术基准测试中较 GLM-4.7 实现显著提升，并在推理、代码生成和智能体任务上达到全球开源模型的领先水平，进一步缩小了与前沿闭源模型的差距。

基准测试结果

	GLM-5	GLM-4.7	DeepSeek-V3.2	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2 (xhigh)
HLE	30.5	24.8	25.1	31.5	28.4	37.2	35.4
HLE (使用工具)	50.4	42.8	40.8	51.8	43.4*	45.8*	45.5*
AIME 2026 I	92.7	92.9	92.7	92.5	93.3	90.6	-
HMMT Nov. 2025	96.9	93.5	90.2	91.1	91.7	93.0	97.1
IMOAnswerBench	82.5	82.0	78.3	81.8	78.5	83.3	86.3
GPQA-Diamond	86.0	85.7	82.4	87.6	87.0	91.9	92.4
SWE-bench Verified	77.8	73.8	73.1	76.8	80.9	76.2	80.0
SWE-bench Multilingual	73.3	66.7	70.2	73.0	77.5	65.0	72.0
Terminal-Bench 2.0 (Terminus 2)	56.2 / 60.7 †	41.0	39.3	50.8	59.3	54.2	54.0
Terminal-Bench 2.0 (Claude Code)	56.2 / 61.1 †	32.8	46.4	-	57.9	-	-
CyberGym	43.2	23.5	17.3	41.3	50.6	39.9	-
BrowseComp	62.0	52.0	51.4	60.6	37.0	37.8	-
BrowseComp (使用上下文管理)	75.9	67.5	67.6	74.9	67.8	59.2	65.8
BrowseComp-Zh	72.7	66.6	65.0	62.3	62.4	66.8	76.1
τ²-Bench	89.7	87.4	85.3	80.2	91.6	90.7	85.5
MCP-Atlas (Public Set)	67.8	52.0	62.2	63.8	65.2	66.6	68.0
Tool-Decathlon	38.0	23.8	35.2	27.8	43.5	36.4	46.3
Vending Bench 2	$4,432.12	$2,376.82	$1,034.00	$1,198.46	$4,967.06	$5,478.16	$3,591.33

*：指其完整测试集的得分。

†：Terminal-Bench 2.0 的验证版本，修复了部分模糊指令。更多评估细节见脚注。

脚注

人类终极考试（HLE）及其他推理任务：我们在最大生成长度为 131,072 个 token 的条件下进行评估（temperature=1.0，top_p=0.95，max_new_tokens=131072）。默认情况下，我们报告纯文本子集的结果；标有 * 的结果来自完整集合。我们使用 GPT-5.2（medium）作为评判模型。对于 HLE-with-tools，我们使用的最大上下文长度为 202,752 个 token。
SWE-bench 与 SWE-bench 多语言版：我们使用 OpenHands 工具套件结合定制的指令提示词运行 SWE-bench 套件。设置：temperature=0.7，top_p=0.95，max_new_tokens=16384，上下文窗口为 200K。
BrowserComp：在无上下文管理时，我们保留最近 5 轮对话的细节。在有上下文管理时，我们采用与 DeepSeek-v3.2 和 Kimi K2.5 相同的“全部丢弃”策略。
Terminal-Bench 2.0（Terminus 2）：我们使用 Terminus 框架进行评估，参数设置为 timeout=2h，temperature=0.7，top_p=1.0，max_new_tokens=8192，上下文窗口为 128K。资源限制为 16 个 CPU 和 32 GB RAM。
Terminal-Bench 2.0（Claude Code）：我们在 Claude Code 2.1.14（思考模式，默认努力程度）中进行评估，参数设置为 temperature=1.0，top_p=0.95，max_new_tokens=65536。由于生成速度的原因，我们移除了挂钟时间限制，但保留了每个任务的 CPU 和内存约束。分数为 5 次运行的平均值。我们修复了 Claude Code 引入的环境问题，并在已验证的 Terminal-Bench 2.0 数据集（该数据集解决了指令模糊问题，参见：https://huggingface.co/datasets/zai-org/terminal-bench-2-verified）上报告结果。
CyberGym：我们在 Claude Code 2.1.18（思考模式，无网络工具）中进行评估，参数设置为（temperature=1.0，top_p=1.0，max_new_tokens=32000），每个任务超时时间为 250 分钟。结果为 1,507 个任务上单次运行的 Pass@1。
MCP-Atlas：所有模型均在思考模式下对 500 任务的公开子集进行评估，每个任务超时时间为 10 分钟。我们使用 Gemini 3 Pro 作为评判模型。
τ²-bench：我们在零售和电信领域对提示词进行了小幅调整，以避免因用户过早终止而导致的失败。对于航空领域，我们应用了 Claude Opus 4.5 系统说明中提出的领域修复方案。
Vending Bench 2：由 Andon Labs 独立进行评估。

在本地部署 GLM-5

准备环境

vLLM、SGLang 和 xLLM 均支持 GLM-5 的本地部署。本文提供简易部署指南。

vLLM

使用 Docker 部署：

docker pull vllm/vllm-openai:nightly

或使用 pip 安装：

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly

然后升级 transformers：

pip install git+https://github.com/huggingface/transformers.git

SGLang

使用 Docker 部署：

docker pull lmsysorg/sglang:glm5-hopper # 适用于 Hopper GPU
docker pull lmsysorg/sglang:glm5-blackwell # 适用于 Blackwell GPU

部署

vLLM

vllm serve zai-org/GLM-5-FP8 \
     --tensor-parallel-size 8 \
     --gpu-memory-utilization 0.85 \
     --speculative-config.method mtp \
     --speculative-config.num_speculative_tokens 1 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45 \
     --enable-auto-tool-choice \
     --served-model-name glm-5-fp8

更多详细信息，请参见使用指南。

SGLang

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47  \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85 \
  --served-model-name glm-5-fp8

更多详细信息，请参见 SGLang 手册。

xLLM 及其他昇腾 NPU

请参见此处的部署指南链接。

引用

技术报告即将发布。

简介

基准测试结果

	GLM-5	GLM-4.7	DeepSeek-V3.2	Kimi K2.5	Claude Opus 4.5	Gemini 3 Pro	GPT-5.2 (xhigh)
HLE	30.5	24.8	25.1	31.5	28.4	37.2	35.4
HLE (使用工具)	50.4	42.8	40.8	51.8	43.4*	45.8*	45.5*
AIME 2026 I	92.7	92.9	92.7	92.5	93.3	90.6	-
HMMT Nov. 2025	96.9	93.5	90.2	91.1	91.7	93.0	97.1
IMOAnswerBench	82.5	82.0	78.3	81.8	78.5	83.3	86.3
GPQA-Diamond	86.0	85.7	82.4	87.6	87.0	91.9	92.4
SWE-bench Verified	77.8	73.8	73.1	76.8	80.9	76.2	80.0
SWE-bench Multilingual	73.3	66.7	70.2	73.0	77.5	65.0	72.0
Terminal-Bench 2.0 (Terminus 2)	56.2 / 60.7 †	41.0	39.3	50.8	59.3	54.2	54.0
Terminal-Bench 2.0 (Claude Code)	56.2 / 61.1 †	32.8	46.4	-	57.9	-	-
CyberGym	43.2	23.5	17.3	41.3	50.6	39.9	-
BrowseComp	62.0	52.0	51.4	60.6	37.0	37.8	-
BrowseComp (使用上下文管理)	75.9	67.5	67.6	74.9	67.8	59.2	65.8
BrowseComp-Zh	72.7	66.6	65.0	62.3	62.4	66.8	76.1
τ²-Bench	89.7	87.4	85.3	80.2	91.6	90.7	85.5
MCP-Atlas (Public Set)	67.8	52.0	62.2	63.8	65.2	66.6	68.0
Tool-Decathlon	38.0	23.8	35.2	27.8	43.5	36.4	46.3
Vending Bench 2	$4,432.12	$2,376.82	$1,034.00	$1,198.46	$4,967.06	$5,478.16	$3,591.33

*：指其完整测试集的得分。

†：Terminal-Bench 2.0 的验证版本，修复了部分模糊指令。更多评估细节见脚注。

脚注

人类终极考试（HLE）及其他推理任务：我们在最大生成长度为 131,072 个 token 的条件下进行评估（temperature=1.0，top_p=0.95，max_new_tokens=131072）。默认情况下，我们报告纯文本子集的结果；标有 * 的结果来自完整集合。我们使用 GPT-5.2（medium）作为评判模型。对于 HLE-with-tools，我们使用的最大上下文长度为 202,752 个 token。

SWE-bench 与 SWE-bench 多语言版：我们使用 OpenHands 工具套件结合定制的指令提示词运行 SWE-bench 套件。设置：temperature=0.7，top_p=0.95，max_new_tokens=16384，上下文窗口为 200K。

BrowserComp：在无上下文管理时，我们保留最近 5 轮对话的细节。在有上下文管理时，我们采用与 DeepSeek-v3.2 和 Kimi K2.5 相同的“全部丢弃”策略。

Terminal-Bench 2.0（Terminus 2）：我们使用 Terminus 框架进行评估，参数设置为 timeout=2h，temperature=0.7，top_p=1.0，max_new_tokens=8192，上下文窗口为 128K。资源限制为 16 个 CPU 和 32 GB RAM。

Terminal-Bench 2.0（Claude Code）：我们在 Claude Code 2.1.14（思考模式，默认努力程度）中进行评估，参数设置为 temperature=1.0，top_p=0.95，max_new_tokens=65536。由于生成速度的原因，我们移除了挂钟时间限制，但保留了每个任务的 CPU 和内存约束。分数为 5 次运行的平均值。我们修复了 Claude Code 引入的环境问题，并在已验证的 Terminal-Bench 2.0 数据集（该数据集解决了指令模糊问题，参见：https://huggingface.co/datasets/zai-org/terminal-bench-2-verified）上报告结果。

CyberGym：我们在 Claude Code 2.1.18（思考模式，无网络工具）中进行评估，参数设置为（temperature=1.0，top_p=1.0，max_new_tokens=32000），每个任务超时时间为 250 分钟。结果为 1,507 个任务上单次运行的 Pass@1。

MCP-Atlas：所有模型均在思考模式下对 500 任务的公开子集进行评估，每个任务超时时间为 10 分钟。我们使用 Gemini 3 Pro 作为评判模型。

τ²-bench：我们在零售和电信领域对提示词进行了小幅调整，以避免因用户过早终止而导致的失败。对于航空领域，我们应用了 Claude Opus 4.5 系统说明中提出的领域修复方案。

Vending Bench 2：由 Andon Labs 独立进行评估。

在本地部署 GLM-5

准备环境

vLLM、SGLang 和 xLLM 均支持 GLM-5 的本地部署。本文提供简易部署指南。

vLLM

使用 Docker 部署：

docker pull vllm/vllm-openai:nightly

或使用 pip 安装：

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly

然后升级 transformers：

pip install git+https://github.com/huggingface/transformers.git

SGLang

使用 Docker 部署：

docker pull lmsysorg/sglang:glm5-hopper # 适用于 Hopper GPU
docker pull lmsysorg/sglang:glm5-blackwell # 适用于 Blackwell GPU

部署

vLLM

vllm serve zai-org/GLM-5-FP8 \
     --tensor-parallel-size 8 \
     --gpu-memory-utilization 0.85 \
     --speculative-config.method mtp \
     --speculative-config.num_speculative_tokens 1 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45 \
     --enable-auto-tool-choice \
     --served-model-name glm-5-fp8

更多详细信息，请参见使用指南。

SGLang

python3 -m sglang.launch_server \
  --model-path zai-org/GLM-5-FP8 \
  --tp-size 8 \
  --tool-call-parser glm47  \
  --reasoning-parser glm45 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85 \
  --served-model-name glm-5-fp8

更多详细信息，请参见 SGLang 手册。

xLLM 及其他昇腾 NPU

请参见此处的部署指南链接。