【小白文档】Qwen3-32B × 昇腾 Atlas 800 A3 / A2 × Sglang

上级索引：sglang/README.md。
本页面向：已在昇腾机器上装好驱动与 Docker 的用户，用 SGLang 官方容器镜像 跑通 Qwen3-32B，尽量减少本地 Python 环境折腾。
技术细节与参数说明以 SGLang 文档 为准。

你将得到什么

按下面顺序执行后：在 单台 Atlas 800I A3（64G×8） 上，用 SGLang 官方镜像 拉起在线推理服务，并用 curl 验证。

本页不解决：宿主机未装昇腾驱动、无对应机型、无 Docker——请先完成昇腾环境准备与 SGLang 安装说明.

0. 开始前确认（30 秒）

在宿主机执行（有正常输出即可进入下一步）：

npu-smi info
docker --version

机型：官方验证需 单台 Atlas 800I A3（64G×8）（与官方文档一致）。
权重：建议预先下载到宿主机目录，挂载进容器的 /root/.cache/（与官方推荐一致），避免容器内重复下载失败。

1. 选镜像（复制即用）

按机型二选一：

机型	镜像
Atlas 800I A3	`docker.io/lmsysorg/sglang:main-cann8.5.0-a3`
Atlas 800I A2	`docker.io/lmsysorg/sglang:main-cann8.5.0-910b`

在宿主机执行（A3 示例）：

export IMAGE=docker.io/lmsysorg/sglang:main-cann8.5.0-a3
export NAME=sglang-qwen3-32b
docker pull $IMAGE

若你是 A2，请把 IMAGE 换成上表中 A2 镜像。

2. 下载模型权重

模型权重来源：

来源	链接
HuggingFace	Qwen/Qwen3-32B

推荐：在宿主机将模型下载到即将挂载给容器的目录，例如：

mkdir -p /root/.cache/huggingface
# 使用 huggingface-cli 或 git lfs 等按模型卡说明下载到本地后，在 docker run 时挂载到容器内 /root/.cache

3. 启动容器

以下与官方 Docker 示例一致；A3 使用 davinci0–7。若你只有部分卡，请按实际修改 --device。

export IMAGE=docker.io/lmsysorg/sglang:main-cann8.5.0-a3
export NAME=sglang-qwen3-32b

docker run --rm \
  --name $NAME \
  --privileged \
  --network=host \
  --ipc=host \
  --shm-size=16g \
  --device /dev/davinci0 \
  --device /dev/davinci1 \
  --device /dev/davinci2 \
  --device /dev/davinci3 \
  --device /dev/davinci4 \
  --device /dev/davinci5 \
  --device /dev/davinci6 \
  --device /dev/davinci7 \
  --device /dev/davinci_manager \
  --device /dev/hisi_hdc \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
  -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -v /var/queue_schedule:/var/queue_schedule \
  -v ~/.cache/:/root/.cache/ \
  -it $IMAGE bash

4. 在容器内启动 SGLang 服务

下面给出 启动示例（来源）。勿随意删参数；若需换模型名，请同步调整并行度并查阅官方说明。

export SGLANG_SET_CPU_AFFINITY=1
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export STREAMS_PER_DEVICE=32
export HCCL_BUFFSIZE=1536
export HCCL_OP_EXPANSION_MODE=AIV

python -m sglang.launch_server \
   --device npu \
   --attention-backend ascend \
   --trust-remote-code \
   --tp-size 4 \
   --model-path Qwen/Qwen3-32B \
   --mem-fraction-static 0.8

看到服务监听 8000 且日志无报错后，另开终端（或宿主机再 docker exec）做下一步。

5. 验证服务

在能访问该节点 8000 端口的机器上执行：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-32B",
    "prompt": "The future of AI is",
    "max_completion_tokens": 50,
    "temperature": 0
  }'

若返回 JSON 且含生成文本，即表示链路打通。

6. 常见问题

现象	建议
拉镜像超时	配置镜像加速或使用代理
容器内看不到 NPU	检查 `--device` 是否与宿主机 `npu-smi` 一致；驱动路径挂载是否完整
OOM / 显存不足	勿随意提高 `--mem-fraction-static`；按官方调小 `max-model-len` / 并发
模型下载慢	宿主机预先下载并挂载到 `/root/.cache`
参数看不懂	阅读官方文档

说明	链接
SGLang · 本模型（权威步骤）	文档
SGLang 安装说明	ascend_npu.html

【小白文档】Qwen3-32B × 昇腾 Atlas 800 A3 / A2 × Sglang

上级索引：sglang/README.md。
本页面向：已在昇腾机器上装好驱动与 Docker 的用户，用 SGLang 官方容器镜像 跑通 Qwen3-32B，尽量减少本地 Python 环境折腾。
技术细节与参数说明以 SGLang 文档 为准。

你将得到什么

按下面顺序执行后：在 单台 Atlas 800I A3（64G×8） 上，用 SGLang 官方镜像 拉起在线推理服务，并用 curl 验证。

本页不解决：宿主机未装昇腾驱动、无对应机型、无 Docker——请先完成昇腾环境准备与 SGLang 安装说明.

0. 开始前确认（30 秒）

在宿主机执行（有正常输出即可进入下一步）：

npu-smi info
docker --version

机型：官方验证需 单台 Atlas 800I A3（64G×8）（与官方文档一致）。
权重：建议预先下载到宿主机目录，挂载进容器的 /root/.cache/（与官方推荐一致），避免容器内重复下载失败。

1. 选镜像（复制即用）

按机型二选一：

机型	镜像
Atlas 800I A3	`docker.io/lmsysorg/sglang:main-cann8.5.0-a3`
Atlas 800I A2	`docker.io/lmsysorg/sglang:main-cann8.5.0-910b`

在宿主机执行（A3 示例）：

export IMAGE=docker.io/lmsysorg/sglang:main-cann8.5.0-a3
export NAME=sglang-qwen3-32b
docker pull $IMAGE

若你是 A2，请把 IMAGE 换成上表中 A2 镜像。

2. 下载模型权重

模型权重来源：

来源	链接
HuggingFace	Qwen/Qwen3-32B

推荐：在宿主机将模型下载到即将挂载给容器的目录，例如：

mkdir -p /root/.cache/huggingface
# 使用 huggingface-cli 或 git lfs 等按模型卡说明下载到本地后，在 docker run 时挂载到容器内 /root/.cache

3. 启动容器

以下与官方 Docker 示例一致；A3 使用 davinci0–7。若你只有部分卡，请按实际修改 --device。

export IMAGE=docker.io/lmsysorg/sglang:main-cann8.5.0-a3
export NAME=sglang-qwen3-32b

docker run --rm \
  --name $NAME \
  --privileged \
  --network=host \
  --ipc=host \
  --shm-size=16g \
  --device /dev/davinci0 \
  --device /dev/davinci1 \
  --device /dev/davinci2 \
  --device /dev/davinci3 \
  --device /dev/davinci4 \
  --device /dev/davinci5 \
  --device /dev/davinci6 \
  --device /dev/davinci7 \
  --device /dev/davinci_manager \
  --device /dev/hisi_hdc \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
  -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -v /var/queue_schedule:/var/queue_schedule \
  -v ~/.cache/:/root/.cache/ \
  -it $IMAGE bash

4. 在容器内启动 SGLang 服务

下面给出 启动示例（来源）。勿随意删参数；若需换模型名，请同步调整并行度并查阅官方说明。

export SGLANG_SET_CPU_AFFINITY=1
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export STREAMS_PER_DEVICE=32
export HCCL_BUFFSIZE=1536
export HCCL_OP_EXPANSION_MODE=AIV

python -m sglang.launch_server \
   --device npu \
   --attention-backend ascend \
   --trust-remote-code \
   --tp-size 4 \
   --model-path Qwen/Qwen3-32B \
   --mem-fraction-static 0.8

看到服务监听 8000 且日志无报错后，另开终端（或宿主机再 docker exec）做下一步。

5. 验证服务

在能访问该节点 8000 端口的机器上执行：

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-32B",
    "prompt": "The future of AI is",
    "max_completion_tokens": 50,
    "temperature": 0
  }'

若返回 JSON 且含生成文本，即表示链路打通。

6. 常见问题

现象	建议
拉镜像超时	配置镜像加速或使用代理
容器内看不到 NPU	检查 `--device` 是否与宿主机 `npu-smi` 一致；驱动路径挂载是否完整
OOM / 显存不足	勿随意提高 `--mem-fraction-static`；按官方调小 `max-model-len` / 并发
模型下载慢	宿主机预先下载并挂载到 `/root/.cache`
参数看不懂	阅读官方文档

【小白文档】Qwen3-32B × 昇腾 Atlas 800 A3 / A2 × Sglang

你将得到什么

目录

0. 开始前确认（30 秒）

1. 选镜像（复制即用）

2. 下载模型权重

3. 启动容器

4. 在容器内启动 SGLang 服务

5. 验证服务

6. 常见问题

相关链接

【小白文档】Qwen3-32B × 昇腾 Atlas 800 A3 / A2 × Sglang

你将得到什么

目录

0. 开始前确认（30 秒）

1. 选镜像（复制即用）

2. 下载模型权重

3. 启动容器

4. 在容器内启动 SGLang 服务

5. 验证服务

6. 常见问题

相关链接