执行以下命令为自定义下载路径 /mnt/data/GLM-4.5-Air 添加白名单:
export HUB_WHITE_LIST_PATHS=/mnt/data/GLM-4.5-Air执行以下命令从魔乐社区下载 GLM-4.5-Air 权重文件至指定路径 /mnt/data/GLM-4.5-Air ,占用约 220G 的磁盘空间:
pip install openmind_hubpython
from openmind_hub import snapshot_download
snapshot_download(
repo_id="MindSpore-Lab/GLM-4.5-Air",
local_dir="/mnt/data/GLM-4.5-Air",
local_dir_use_symlinks=False
)
exit()/mnt/data/GLM-4.5-Air 可修改为自定义路径,确保该路径有足够的磁盘空间。GLM-4.5-Air推理需要1台(8卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。昇思MindSpore提供了GLM-4.5-Air推理可用的Docker容器镜像,供开发者快速体验。
pkill -9 python
pkill -9 mindie
pkill -9 ray执行以下 Shell 命令,拉取昇思 MindSpore GLM-4.5-Air推理容器镜像:
docker pull swr.cn-central-221.ovaijisuan.com/mindformers/glm4.5moe-infer:20250728执行以下命令创建并启动容器(/mnt/data/GLM-4.5-Air用于存放权重路径,若没有/mnt盘则要修改):
docker run -it \
--privileged \
--name=GLM-4.5-Air \
--net=host \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci_manager \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/GLM-4.5-Air/:/mnt/data/GLM-4.5-Air/ \
swr.cn-central-221.ovaijisuan.com/mindformers/glm4.5moe-infer:20250728 \
/bin/bash在服务器中添加如下环境变量:
export vLLM_MODEL_BACKEND=MindFormers
export ASCEND_TOTAL_MEMORY_GB=64
export MS_ENABLE_TRACE_MEMORY=off执行以下命令拉起服务:
python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/GLM-4.5-Air" --trust_remote_code --tensor_parallel_size=8 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.93
打开新的窗口,执行以下命令发送推理请求测试。
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "/mnt/data/GLM-4.5-Air",
"messages": [
{"role": "user", "content": "介绍一下北京"}
],
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"min_p": 0,
"max_tokens": 8192,
"presence_penalty": 1.05,
"chat_template_kwargs": {"enable_thinking": true}
}'
本文档提供的模型代码、权重文件和部署镜像,当前仅限于基于昇思MindSpore AI框架体验部署效果,不支持生产环境部署。相关使用问题请反馈至Issue。