上级索引:sglang/README.md。
本页面向:已在昇腾机器上装好驱动与 Docker 的用户,用 SGLang 官方容器镜像 跑通 GLM-5-BF16(多节点推理),尽量减少本地 Python 环境折腾。
技术细节与参数说明以 SGLang 文档 为准。
按下面顺序执行后:在 2 台 Atlas 800 A3(64G×16) 上,用 SGLang 官方镜像 拉起在线推理服务,并用 curl 验证。
本页不解决:宿主机未装昇腾驱动、无对应机型、无 Docker——请先完成 昇腾环境准备 与 SGLang 安装说明.
在宿主机执行(有正常输出即可进入下一步):
npu-smi info
docker --version/root/.cache/。按机型二选一:
| 机型 | 镜像 |
|---|---|
| Atlas 800 A3 | swr.cn-southwest-2.myhuaweicloud.com/base_image/dockerhub/lmsysorg/sglang:cann8.5.0-a3-glm5 |
| Atlas 800 A2 | swr.cn-southwest-2.myhuaweicloud.com/base_image/dockerhub/lmsysorg/sglang:cann8.5.0-910b-glm5 |
在宿主机执行(A3 示例):
export IMAGE=swr.cn-southwest-2.myhuaweicloud.com/base_image/dockerhub/lmsysorg/sglang:cann8.5.0-a3-glm5
export NAME=sglang-glm-5-bf16
docker pull $IMAGE若你是 A2,请把 IMAGE 换成上表中 A2 镜像。
模型权重来源:
| 来源 | 链接 |
|---|---|
| ModelScope | GLM-5.0 |
推荐:在宿主机将模型下载到即将挂载给容器的目录,例如:
mkdir -p /root/.cache/huggingface
# 使用 huggingface-cli 或 git lfs 等按模型卡说明下载到本地后,在 docker run 时挂载到容器内 /root/.cache以下与 官方 Docker 示例 一致;A3 使用 davinci0–15。若你只有部分卡,请按实际修改 --device。
需要在 2 台机器 上分别启动容器。
export IMAGE=swr.cn-southwest-2.myhuaweicloud.com/base_image/dockerhub/lmsysorg/sglang:cann8.5.0-a3-glm5
export NAME=sglang-glm-5-bf16
docker run --rm \
--name $NAME \
--privileged \
--network=host \
--ipc=host \
--shm-size=16g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci8 \
--device /dev/davinci9 \
--device /dev/davinci10 \
--device /dev/davinci11 \
--device /dev/davinci12 \
--device /dev/davinci13 \
--device /dev/davinci14 \
--device /dev/davinci15 \
--device /dev/davinci_manager \
--device /dev/hisi_hdc \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /var/queue_schedule:/var/queue_schedule \
-v ~/.cache/:/root/.cache/ \
-it $IMAGE bash注意:使用此镜像需要更新 transformers 到 main 分支:
pip install git+https://github.com/huggingface/transformers.git多节点部署需要在 2 台机器 上分别运行启动脚本。
在 两台机器 上执行(脚本会自动判断节点角色):
# high performance cpu
echo performance | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
sysctl -w vm.swappiness=0
sysctl -w kernel.numa_balancing=0
sysctl -w kernel.sched_migration_cost_ns=50000
# bind cpu
export SGLANG_SET_CPU_AFFINITY=1
unset https_proxy
unset http_proxy
unset HTTPS_PROXY
unset HTTP_PROXY
unset ASCEND_LAUNCH_BLOCKING
# cann
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh
export STREAMS_PER_DEVICE=32
export SGLANG_DISAGGREGATION_BOOTSTRAP_TIMEOUT=600
export SGLANG_ENABLE_SPEC_V2=1
export SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1
export SGLANG_NPU_USE_MULTI_STREAM=1
export HCCL_BUFFSIZE=1000
export HCCL_OP_EXPANSION_MODE=AIV
# Run command ifconfig on two nodes, find out which inet addr has same IP with your node IP. That is your public interface, which should be added here
export HCCL_SOCKET_IFNAME=lo
export GLOO_SOCKET_IFNAME=lo
P_IP=('your ip1' 'your ip2')
P_MASTER="${P_IP[0]}:your port"
export SGLANG_DISAGGREGATION_BOOTSTRAP_TIMEOUT=600
export SGLANG_ENABLE_SPEC_V2=1
export SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1
LOCAL_HOST1=`hostname -I|awk -F " " '{print$1}'`
LOCAL_HOST2=`hostname -I|awk -F " " '{print$2}'`
for i in "${!P_IP[@]}";
do
if [[ "$LOCAL_HOST1" == "${P_IP[$i]}" || "$LOCAL_HOST2" == "${P_IP[$i]}" ]];
then
echo "${P_IP[$i]}"
python3 -m sglang.launch_server \
--model-path $MODEL_PATH \
--attention-backend ascend \
--device npu \
--tp-size 32 --nnodes 2 --node-rank $i --dist-init-addr $P_MASTER \
--chunked-prefill-size 16384 --max-prefill-tokens 131072 \
--trust-remote-code \
--host 127.0.0.1 \
--mem-fraction-static 0.8\
--port 8000 \
--served-model-name glm-5 \
--cuda-graph-max-bs 16 \
--disable-radix-cache
NODE_RANK=$i
break
fi
done看到服务监听 8000 且日志无报错后,另开终端(或宿主机再 docker exec)做下一步。
在能访问该节点 8000 端口的机器上执行:
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5",
"prompt": "The future of AI is",
"max_completion_tokens": 50,
"temperature": 0
}'若返回 JSON 且含生成文本,即表示链路打通。
| 现象 | 建议 |
|---|---|
| 拉镜像超时 | 配置镜像加速或使用代理 |
| 容器内看不到 NPU | 检查 --device 是否与宿主机 npu-smi 一致;驱动路径挂载是否完整 |
| OOM / 显存不足 | 勿随意提高 --mem-fraction-static;按官方调小 max-model-len / 并发 |
| 模型下载慢 | 宿主机预先下载并 挂载 到 /root/.cache |
| 两台机器无法通信 | 检查网络连通性,确保 IP 地址配置正确 |
| transformers 版本问题 | 使用 pip install git+https://github.com/huggingface/transformers.git 更新 |
| 参数看不懂 | 阅读 官方文档 |
| 说明 | 链接 |
|---|---|
| SGLang · 本模型(权威步骤) | 文档 |
| SGLang 安装说明 | ascend_npu.html |
镜像版本与启动参数随 SGLang 发布更新,若与官方文档冲突,以官方为准。