HuggingFace镜像/GLM-4.5
模型介绍文件和版本分析
下载使用量0

GLM-4.5 vllm-mindspore 推理指南

下载链接

社区下载地址
魔乐社区https://modelers.cn/models/MindSpore-Lab/GLM-4.5

模型分别下载到2台服务器,存放路径保持一致。

执行以下命令为2台服务器上的自定义下载路径 /mnt/data/GLM-4.5 添加白名单:

export HUB_WHITE_LIST_PATHS=/mnt/data/GLM-4.5

执行以下命令从魔乐社区下载GLM-4.5权重文件至指定路径 /mnt/data/GLM-4.5 。2台服务器分别下载,都需要占用约 740GB 的磁盘空间:

pip install openmind_hub
python

from openmind_hub import snapshot_download

snapshot_download(
    repo_id="MindSpore-Lab/GLM-4.5",
    local_dir="/mnt/data/GLM-4.5",
    local_dir_use_symlinks=False
)
exit()

注意事项:

  • /mnt/data/GLM-4.5 可修改为自定义路径,确保2台服务器的该路径有足够的磁盘空间。
  • 下载时间可能因网络环境而异,建议在稳定的网络环境下操作。

快速开始

GLM-4.5推理需要2台(16卡)Atlas 800T/800I A2(64G)服务器服务器(基于BF16权重)。 两台服务器需要提前配置好组网环境,两台设备的卡与卡之间能够互相ping通。 昇思MindSpore提供了GLM-4.5推理可用的Docker容器镜像,供开发者快速体验。

2台服务器分别停止其他进程,避免服务器中其他进程影响

pkill -9 python
pkill -9 mindie
pkill -9 ray

2台服务器分别下载昇思 MindSpore 推理容器镜像

执行以下 Shell 命令,拉取昇思 MindSpore GLM-4.5推理容器镜像:

docker pull swr.cn-central-221.ovaijisuan.com/mindformers/glm4.5moe-infer:20250728

启动容器

2台服务器分别执行以下命令创建并启动容器(/mnt/data/GLM-4.5用于存放权重路径,若没有/mnt盘则要修改)。 2台服务器执行命令的区别在于,hostname需要不同。

docker run -it \
--privileged \
--name=GLM-4.5 \
--net=host \
--cap-add=SYS_PTRACE \
--security-opt seccomp=unconfined \
--hostname=worker2 \
--device=/dev/davinci0 \
--device=/dev/davinci1 \
--device=/dev/davinci2 \
--device=/dev/davinci3 \
--device=/dev/davinci4 \
--device=/dev/davinci5 \
--device=/dev/davinci6 \
--device=/dev/davinci7 \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci_manager \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/Ascend/driver/:/usr/local/Ascend/driver/ \
-v /usr/local/sbin:/usr/local/sbin \
-v /etc/hccn.conf:/etc/hccn.conf \
-v /mnt/data/GLM-4.5/:/mnt/data/GLM-4.5/ \
swr.cn-central-221.ovaijisuan.com/mindformers/glm4.5moe-infer:20250728 \
/bin/bash

注意事项:

  • 后续操作,除了发起推理请求可以在容器外进行,其余操作均在容器内进行。

服务化部署

1. 添加环境变量

在2台服务器中都添加如下环境变量:

export vLLM_MODEL_BACKEND=MindFormers
export ASCEND_TOTAL_MEMORY_GB=64
export MS_ENABLE_TRACE_MEMORY=off

2. 2台设备设置主机和辅机,通过ray进程关联

选择一台设备作为主节点,执行如下命令 ray stop ray start --head --port=6380

另一台设备作为辅节点,依次执行如下命令 ray stop ray start --address=主节点IP:6380

3. 拉起服务

在主节点容器中拉起服务。355b至少需要16张卡,所以tensor_parallel_size=16


python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/mnt/data/GLM-4.5" --trust_remote_code --tensor_parallel_size=16 --max-num-seqs=192 --max_model_len=32768 --max-num-batched-tokens=16384 --block-size=32 --gpu-memory-utilization=0.93 --distributed-executor-backend=ray

4. 执行推理请求测试

打开新的窗口,执行以下命令发送推理请求测试。

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "/mnt/data/GLM-4.5",
  "messages": [
    {"role": "user", "content": "介绍一下北京"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "min_p": 0,
  "max_tokens": 8192,
  "presence_penalty": 1.05,
  "chat_template_kwargs": {"enable_thinking": true}
}'

声明

本文档提供的模型代码、权重文件和部署镜像,当前仅限于基于昇思MindSpore AI框架部署效果,不支持生产环境部署。相关使用问题请反馈至Issue。