【小白文档】GLM-4.5/4.6/4.7 × 昇腾 Atlas 800 A2 × vLLM Ascend

上级索引：vllm-ascend/README.md。
本页面向：已在昇腾机器上装好驱动与 Docker 的用户，用 官方容器镜像 跑通 GLM-4.5/4.6/4.7，尽量减少本地 Python 环境折腾。
技术细节与参数说明以 vLLM Ascend 文档 为准。

你将得到什么

按下面顺序执行后：在 Quantized model glm4 上，用 vLLM Ascend 官方镜像 拉起在线推理服务，并用 curl 验证。

本页不解决：宿主机未装昇腾驱动、无对应机型、无 Docker——请先完成昇腾环境准备与 vLLM Ascend 安装说明 · Docker.

0. 开始前确认（30 秒）

在宿主机执行（有正常输出即可进入下一步）：

npu-smi info
docker --version

机型：官方验证需 Quantized model glm4（与官方文档一致）。
权重：建议预先下载到宿主机目录，挂载进容器的 /root/.cache/（与官方推荐一致），避免容器内重复下载失败。

1. 选镜像（复制即用）

按机型二选一（与 vLLM Ascend 文档一致）：

机型	镜像（官方）	国内拉取示例（DaoCloud 转发）
Atlas 800 A2	`quay.io/ascend/vllm-ascend:v0.17.0rc1`	`m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1`
Atlas 800 A3	`quay.io/ascend/vllm-ascend:v0.17.0rc1-a3`	`m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1-a3`

在宿主机执行（A2 示例，国内网络建议用右侧镜像）：

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-ascend-glm4-x
docker pull $IMAGE

若你是 A3，请把 IMAGE 换成上表中 A3 镜像。

2. 下载模型权重

支持 BF16 与 W8A8 量化 等变体，权重来源以官方文档为准：

变体	说明	ModelScope（示例）
BF16	全精度	ZhipuAI/GLM-4.5
W8A8 量化	显存压力相对较低，下文启动命令以该版本为例	ZhipuAI/GLM-4.6

推荐：在宿主机将模型下载到即将挂载给容器的目录，例如：

mkdir -p /root/.cache/modelscope
# 使用 modelscope 或 git lfs 等按模型卡说明下载到本地后，在 docker run 时挂载到容器内 /root/.cache

若暂不下宿主机，也可在容器内首次启动时由 vLLM 拉取（需配好 VLLM_USE_MODELSCOPE=true 与网络）。

3. 启动容器

以下与官方 Docker 示例一致；A2 使用 davinci0–7。若你只有部分卡，请按实际修改 --device。

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-ascend-glm4-x

docker run --rm \
  --name $NAME \
  --net=host \
  --shm-size=1g \
  --device /dev/davinci0 \
  --device /dev/davinci1 \
  --device /dev/davinci2 \
  --device /dev/davinci3 \
  --device /dev/davinci4 \
  --device /dev/davinci5 \
  --device /dev/davinci6 \
  --device /dev/davinci7 \
  --device /dev/davinci_manager \
  --device /dev/devmm_svm \
  --device /dev/hisi_hdc \
  -v /usr/local/dcmi:/usr/local/dcmi \
  -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
  -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -it $IMAGE bash

进入容器后，建议先设置（减少显存碎片、加速 ModelScope 拉取）：

export VLLM_USE_MODELSCOPE=true
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

4. 在容器内启动 vLLM 服务

下面为 manifest 中自定义的完整命令（请自行核对与官方文档是否一致）：

nic_name="xxxx" # change to your own nic name
local_ip="xxxx" # change to your own ip
export HCCL_IF_IP=$local_ip
export GLOO_SOCKET_IFNAME=$nic_name
export TP_SOCKET_IFNAME=$nic_name
export HCCL_SOCKET_IFNAME=$nic_name

export HCCL_BUFFSIZE=512
export HCCL_OP_EXPANSION_MODE="AIV"
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export ASCEND_AGGREGATE_ENABLE=1
export ASCEND_TRANSPORT_PRINT=1
export ACL_OP_INIT_MODE=1
export ASCEND_A3_ENABLE=1
export VLLM_NIXL_ABORT_REQUEST_TIMEOUT=300000
export TASK_QUEUE_ENABLE=1
export LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/python/site-packages/mooncake:$LD_LIBRARY_PATH
export VLLM_ASCEND_BALANCE_SCHEDULING=1
export VLLM_ASCEND_ENABLE_TOPK_OPTIMIZE=1
export VLLM_ASCEND_ENABLE_FLASHCOMM1=1
export VLLM_ASCEND_ENABLE_FUSED_MC2=1
export ASCEND_RT_VISIBLE_DEVICES=$1

vllm serve Eco-Tech/GLM-4.7-W8A8-floatmtp \
    --host 0.0.0.0 \
    --port $2 \
    --data-parallel-size $3 \
    --data-parallel-rank $4 \
    --data-parallel-address $5 \
    --data-parallel-rpc-port $6 \
    --tensor-parallel-size $7 \
    --enable-expert-parallel \
    --seed 1024 \
    --served-model-name glm \
    --max-model-len 133000 \
    --max-num-batched-tokens 128 \
    --max-num-seqs 4 \
    --trust-remote-code \
    --async-scheduling \
    --gpu-memory-utilization 0.9 \
    --quantization ascend \
    --speculative-config '{"num_speculative_tokens": 3, "model":"Eco-Tech/GLM-4.7-W8A8-floatmtp", "method":"mtp"}' \
    --profiler-config \
    '{"profiler": "torch",
    "torch_profiler_dir": "./vllm_profile",
    "torch_profiler_with_stack": false}' \
    --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY",  "cudagraph_capture_sizes":[1,2,4,6,8,10,12,14,16,18,20,24,26,28,30,32,64,128,256,512]}' \
    --additional-config '{"recompute_scheduler_enable": true, "enable_shared_expert_dp": true, "ascend_fusion_config": {"fusion_ops_gmmswigluquant": false}}' \
    --kv-transfer-config \
    '{"kv_connector": "MooncakeConnectorV1",
    "kv_role": "kv_consumer",
    "kv_port": "30200",
    "engine_id": "2",
    "kv_connector_extra_config": {
                "prefill": {
                        "dp_size": 2,
                        "tp_size": 8
                },
                "decode": {
                        "dp_size": 8,
                        "tp_size": 4
                }
        }
    }' \

看到服务监听 8000 且日志无报错后，另开终端（或宿主机再 docker exec）做下一步。

若使用 BF16 权重 ZhipuAI/GLM-4.5，请勿照搬未经验证的量化参数；请打开官方文档 · Deployment 中对应小节。

5. 验证服务

在能访问该节点 8000 端口的机器上执行（与官方一致）：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm",
    "prompt": "The future of AI is",
    "max_completion_tokens": 50,
    "temperature": 0
  }'

若返回 JSON 且含生成文本，即表示链路打通。

6. 常见问题

现象	建议
拉镜像超时	换用本文 DaoCloud 转发镜像名，或配置镜像加速
容器内看不到 NPU	检查 `--device` 是否与宿主机 `npu-smi` 一致；驱动路径挂载是否完整
OOM / 显存不足	勿随意提高 `--gpu-memory-utilization`；优先使用 W8A8 权重或按官方调小 `max-model-len` / 并发
模型下载慢	宿主机预先下载并挂载到 `/root/.cache`；保持 `VLLM_USE_MODELSCOPE=true`
参数看不懂	阅读官方文档 · Deployment

说明	链接
vLLM Ascend · 本模型（权威步骤）	文档
Docker 安装与多机	installation

【小白文档】GLM-4.5/4.6/4.7 × 昇腾 Atlas 800 A2 × vLLM Ascend

上级索引：vllm-ascend/README.md。
本页面向：已在昇腾机器上装好驱动与 Docker 的用户，用 官方容器镜像 跑通 GLM-4.5/4.6/4.7，尽量减少本地 Python 环境折腾。
技术细节与参数说明以 vLLM Ascend 文档 为准。

你将得到什么

按下面顺序执行后：在 Quantized model glm4 上，用 vLLM Ascend 官方镜像 拉起在线推理服务，并用 curl 验证。

本页不解决：宿主机未装昇腾驱动、无对应机型、无 Docker——请先完成昇腾环境准备与 vLLM Ascend 安装说明 · Docker.

0. 开始前确认（30 秒）

在宿主机执行（有正常输出即可进入下一步）：

npu-smi info
docker --version

机型：官方验证需 Quantized model glm4（与官方文档一致）。
权重：建议预先下载到宿主机目录，挂载进容器的 /root/.cache/（与官方推荐一致），避免容器内重复下载失败。

1. 选镜像（复制即用）

按机型二选一（与 vLLM Ascend 文档一致）：

机型	镜像（官方）	国内拉取示例（DaoCloud 转发）
Atlas 800 A2	`quay.io/ascend/vllm-ascend:v0.17.0rc1`	`m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1`
Atlas 800 A3	`quay.io/ascend/vllm-ascend:v0.17.0rc1-a3`	`m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1-a3`

在宿主机执行（A2 示例，国内网络建议用右侧镜像）：

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-ascend-glm4-x
docker pull $IMAGE

若你是 A3，请把 IMAGE 换成上表中 A3 镜像。

2. 下载模型权重

支持 BF16 与 W8A8 量化 等变体，权重来源以官方文档为准：

变体	说明	ModelScope（示例）
BF16	全精度	ZhipuAI/GLM-4.5
W8A8 量化	显存压力相对较低，下文启动命令以该版本为例	ZhipuAI/GLM-4.6

推荐：在宿主机将模型下载到即将挂载给容器的目录，例如：

mkdir -p /root/.cache/modelscope
# 使用 modelscope 或 git lfs 等按模型卡说明下载到本地后，在 docker run 时挂载到容器内 /root/.cache

若暂不下宿主机，也可在容器内首次启动时由 vLLM 拉取（需配好 VLLM_USE_MODELSCOPE=true 与网络）。

3. 启动容器

以下与官方 Docker 示例一致；A2 使用 davinci0–7。若你只有部分卡，请按实际修改 --device。

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-ascend-glm4-x

docker run --rm \
  --name $NAME \
  --net=host \
  --shm-size=1g \
  --device /dev/davinci0 \
  --device /dev/davinci1 \
  --device /dev/davinci2 \
  --device /dev/davinci3 \
  --device /dev/davinci4 \
  --device /dev/davinci5 \
  --device /dev/davinci6 \
  --device /dev/davinci7 \
  --device /dev/davinci_manager \
  --device /dev/devmm_svm \
  --device /dev/hisi_hdc \
  -v /usr/local/dcmi:/usr/local/dcmi \
  -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
  -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -it $IMAGE bash

进入容器后，建议先设置（减少显存碎片、加速 ModelScope 拉取）：

export VLLM_USE_MODELSCOPE=true
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

4. 在容器内启动 vLLM 服务

下面为 manifest 中自定义的完整命令（请自行核对与官方文档是否一致）：

nic_name="xxxx" # change to your own nic name
local_ip="xxxx" # change to your own ip
export HCCL_IF_IP=$local_ip
export GLOO_SOCKET_IFNAME=$nic_name
export TP_SOCKET_IFNAME=$nic_name
export HCCL_SOCKET_IFNAME=$nic_name

export HCCL_BUFFSIZE=512
export HCCL_OP_EXPANSION_MODE="AIV"
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export ASCEND_AGGREGATE_ENABLE=1
export ASCEND_TRANSPORT_PRINT=1
export ACL_OP_INIT_MODE=1
export ASCEND_A3_ENABLE=1
export VLLM_NIXL_ABORT_REQUEST_TIMEOUT=300000
export TASK_QUEUE_ENABLE=1
export LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/python/site-packages/mooncake:$LD_LIBRARY_PATH
export VLLM_ASCEND_BALANCE_SCHEDULING=1
export VLLM_ASCEND_ENABLE_TOPK_OPTIMIZE=1
export VLLM_ASCEND_ENABLE_FLASHCOMM1=1
export VLLM_ASCEND_ENABLE_FUSED_MC2=1
export ASCEND_RT_VISIBLE_DEVICES=$1

vllm serve Eco-Tech/GLM-4.7-W8A8-floatmtp \
    --host 0.0.0.0 \
    --port $2 \
    --data-parallel-size $3 \
    --data-parallel-rank $4 \
    --data-parallel-address $5 \
    --data-parallel-rpc-port $6 \
    --tensor-parallel-size $7 \
    --enable-expert-parallel \
    --seed 1024 \
    --served-model-name glm \
    --max-model-len 133000 \
    --max-num-batched-tokens 128 \
    --max-num-seqs 4 \
    --trust-remote-code \
    --async-scheduling \
    --gpu-memory-utilization 0.9 \
    --quantization ascend \
    --speculative-config '{"num_speculative_tokens": 3, "model":"Eco-Tech/GLM-4.7-W8A8-floatmtp", "method":"mtp"}' \
    --profiler-config \
    '{"profiler": "torch",
    "torch_profiler_dir": "./vllm_profile",
    "torch_profiler_with_stack": false}' \
    --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY",  "cudagraph_capture_sizes":[1,2,4,6,8,10,12,14,16,18,20,24,26,28,30,32,64,128,256,512]}' \
    --additional-config '{"recompute_scheduler_enable": true, "enable_shared_expert_dp": true, "ascend_fusion_config": {"fusion_ops_gmmswigluquant": false}}' \
    --kv-transfer-config \
    '{"kv_connector": "MooncakeConnectorV1",
    "kv_role": "kv_consumer",
    "kv_port": "30200",
    "engine_id": "2",
    "kv_connector_extra_config": {
                "prefill": {
                        "dp_size": 2,
                        "tp_size": 8
                },
                "decode": {
                        "dp_size": 8,
                        "tp_size": 4
                }
        }
    }' \

看到服务监听 8000 且日志无报错后，另开终端（或宿主机再 docker exec）做下一步。

若使用 BF16 权重 ZhipuAI/GLM-4.5，请勿照搬未经验证的量化参数；请打开官方文档 · Deployment 中对应小节。

5. 验证服务

在能访问该节点 8000 端口的机器上执行（与官方一致）：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm",
    "prompt": "The future of AI is",
    "max_completion_tokens": 50,
    "temperature": 0
  }'

若返回 JSON 且含生成文本，即表示链路打通。

6. 常见问题

现象	建议
拉镜像超时	换用本文 DaoCloud 转发镜像名，或配置镜像加速
容器内看不到 NPU	检查 `--device` 是否与宿主机 `npu-smi` 一致；驱动路径挂载是否完整
OOM / 显存不足	勿随意提高 `--gpu-memory-utilization`；优先使用 W8A8 权重或按官方调小 `max-model-len` / 并发
模型下载慢	宿主机预先下载并挂载到 `/root/.cache`；保持 `VLLM_USE_MODELSCOPE=true`
参数看不懂	阅读官方文档 · Deployment

【小白文档】GLM-4.5/4.6/4.7 × 昇腾 Atlas 800 A2 × vLLM Ascend

你将得到什么

目录

0. 开始前确认（30 秒）

1. 选镜像（复制即用）

2. 下载模型权重

3. 启动容器

4. 在容器内启动 vLLM 服务

5. 验证服务

6. 常见问题

相关链接

【小白文档】GLM-4.5/4.6/4.7 × 昇腾 Atlas 800 A2 × vLLM Ascend

你将得到什么

目录

0. 开始前确认（30 秒）

1. 选镜像（复制即用）

2. 下载模型权重

3. 启动容器

4. 在容器内启动 vLLM 服务

5. 验证服务

6. 常见问题

相关链接