【小白文档】DeepSeek-V3 PD Disaggregation × 昇腾 Atlas 800 A3 / A2 × Sglang

上级索引：sglang/README.md。
本页面面向：已在昇腾机器上装好驱动与 Docker 的用户，使用 SGLang 官方容器镜像 跑通 DeepSeek-V3（PD 分离模式，4×A3），尽量减少本地 Python 环境的配置麻烦。
技术细节与参数说明以 SGLang 文档 为准。

你将得到什么

按照以下步骤操作后：在 4 台 Atlas 800I A3（64G×8） 设备上，使用 SGLang 官方镜像 启动在线推理服务（PD 分离模式：2 个 Prefill + 2 个 Decode），并通过 curl 命令进行验证。

本页不解决：宿主机未安装昇腾驱动、没有对应机型、未安装 Docker——请先完成昇腾环境准备与 SGLang 安装说明。

0. 开始前确认（30 秒）

在宿主机执行（有正常输出即可进入下一步）：

npu-smi info
docker --version

机型：官方验证需 4 台 Atlas 800I A3（64G×8）（与官方文档一致）。
权重：W8A8 量化模型，建议预先下载到宿主机目录，挂载进容器的 /root/.cache/。

1. 选镜像（复制即用）

按机型二选一：

机型	镜像
Atlas 800I A3	`docker.io/lmsysorg/sglang:main-cann8.5.0-a3`
Atlas 800I A2	`docker.io/lmsysorg/sglang:main-cann8.5.0-910b`

在宿主机执行（A3 示例）：

export IMAGE=docker.io/lmsysorg/sglang:main-cann8.5.0-a3
export NAME=sglang-deepseek-v3-pd-disagg-4x
docker pull $IMAGE

若你是 A2，请把 IMAGE 换成上表中 A2 镜像。

2. 下载模型权重

模型权重来源：

来源	链接
Modelers	Deepseek-R1-bf16-hfd-w8a8

推荐：在宿主机将模型下载到即将挂载给容器的目录，例如：

mkdir -p /root/.cache/huggingface
# 使用 huggingface-cli 或 git lfs 等按模型卡说明下载到本地后，在 docker run 时挂载到容器内 /root/.cache

3. 启动容器

以下与官方 Docker 示例一致；A3 使用 davinci0–7。若你只有部分卡，请按实际修改 --device。

需要在 4 台机器 上分别启动容器。

export IMAGE=docker.io/lmsysorg/sglang:main-cann8.5.0-a3
export NAME=sglang-deepseek-v3-pd-disagg-4x

docker run --rm \
  --name $NAME \
  --privileged \
  --network=host \
  --ipc=host \
  --shm-size=16g \
  --device /dev/davinci0 \
  --device /dev/davinci1 \
  --device /dev/davinci2 \
  --device /dev/davinci3 \
  --device /dev/davinci4 \
  --device /dev/davinci5 \
  --device /dev/davinci6 \
  --device /dev/davinci7 \
  --device /dev/davinci_manager \
  --device /dev/hisi_hdc \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
  -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -v /var/queue_schedule:/var/queue_schedule \
  -v ~/.cache/:/root/.cache/ \
  -it $IMAGE bash

4. 在容器内启动 SGLang 服务

PD 分离模式需要在 4 台机器 上分别启动 Prefill（2台）和 Decode（2台）服务。

4.1 Prefill & Decode 节点

在每台机器上执行（脚本会自动判断是 Prefill 还是 Decode）：

# high performance cpu
echo performance | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
sysctl -w vm.swappiness=0
sysctl -w kernel.numa_balancing=0
sysctl -w kernel.sched_migration_cost_ns=50000
export SGLANG_SET_CPU_AFFINITY=1
unset ASCEND_LAUNCH_BLOCKING
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh
export PATH=/usr/local/Ascend/8.5.0/compiler/bishengir/bin:$PATH

export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export STREAMS_PER_DEVICE=32

export ASCEND_MF_STORE_URL="tcp://your prefill ip1:24669"

P_IP=('your prefill ip1' 'your prefill ip2')
D_IP=('your decode ip1' 'your decode ip2')

MODEL_PATH=xxx

export SGLANG_NPU_USE_MLAPO=1
export SGLANG_USE_FIA_NZ=1

LOCAL_HOST1=`hostname -I|awk -F " " '{print$1}'`
LOCAL_HOST2=`hostname -I|awk -F " " '{print$2}'`
echo "${LOCAL_HOST1}"
echo "${LOCAL_HOST2}"

# prefill
for i in "${!P_IP[@]}";
do
    if [[ "$LOCAL_HOST1" == "${P_IP[$i]}" || "$LOCAL_HOST2" == "${P_IP[$i]}" ]];
    then
        echo "${P_IP[$i]}"
        export HCCL_BUFFSIZE=1536
        export DEEP_NORMAL_MODE_USE_INT8_QUANT=1
        export TASK_QUEUE_ENABLE=2
        export HCCL_SOCKET_IFNAME=lo
        export GLOO_SOCKET_IFNAME=lo
        python -m sglang.launch_server --model-path ${MODEL_PATH} \
        --disaggregation-mode prefill --host ${P_IP[$i]} \
        --port 8000 --disaggregation-bootstrap-port $((8998+$i)) --trust-remote-code --nnodes 1 --node-rank 0 \
        --tp-size 16 --mem-fraction-static 0.81 --attention-backend ascend --device npu --quantization modelslim \
        --disaggregation-transfer-backend ascend --max-running-requests 8 --context-length 8192 \
        --disable-radix-cache \
        --chunked-prefill-size -1 --max-prefill-tokens 28680 --moe-a2a-backend deepep --deepep-mode normal \
        --speculative-algorithm NEXTN --speculative-num-steps 1 --speculative-eagle-topk 1 --speculative-num-draft-tokens 2 \
        --dp-size 2 --enable-dp-attention --disable-shared-experts-fusion --dtype bfloat16 --enable-attn-tp-input-scattered
        NODE_RANK=$i
        break
    fi
done

# decode
for i in "${!D_IP[@]}";
do
    if [[ "$LOCAL_HOST1" == "${D_IP[$i]}" || "$LOCAL_HOST2" == "${D_IP[$i]}" ]];
    then
        echo "${D_IP[$i]}"
        export SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1
        export SGLANG_ENABLE_SPEC_V2=1
        export HCCL_BUFFSIZE=650
        export SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=78
        export TASK_QUEUE_ENABLE=1
        export SGLANG_SCHEDULER_SKIP_ALL_GATHER=1
        export HCCL_SOCKET_IFNAME=xxx
        export GLOO_SOCKET_IFNAME=xxx
        python -m sglang.launch_server --model-path ${MODEL_PATH} \
        --disaggregation-mode decode --host ${D_IP[$i]} \
        --port 8001 --trust-remote-code --dist-init-addr ${D_IP[0]}:5000 --nnodes 2 --node-rank $i --tp-size 32 --dp-size 32 \
        --mem-fraction-static 0.815 --max-running-requests 832 --attention-backend ascend --device npu --quantization modelslim \
        --moe-a2a-backend deepep --enable-dp-attention --deepep-mode low_latency --enable-dp-lm-head --moe-dense-tp 1 \
        --cuda-graph-bs 12 14 16 18 20 22 24 26 --disaggregation-transfer-backend ascend --watchdog-timeout 9000 --context-length 8192 \
        --speculative-algorithm NEXTN --speculative-num-steps 2 --speculative-eagle-topk 1 --speculative-num-draft-tokens 3 \
        --tokenizer-worker-num 4 --disable-shared-experts-fusion --dtype bfloat16 \
        --load-balance-method decode_round_robin
        NODE_RANK=$i
        break
    fi
done

4.2 路由器（可选）

启动 SGLang 模型网关以实现负载均衡：

export SGLANG_DP_ROUND_ROBIN=1
python -m sglang_router.launch_router \
    --pd-disaggregation \
    --policy cache_aware \
    --prefill http://P_IP:8000 8998 \
    --prefill http://P_IP:8000 8999 \
    --decode http://D_IP:8001 \
    --host 127.0.0.1 \
    --port 6688 \
    --mini-lb

看到服务监听 8000/8001 且日志无报错后，另开终端（或宿主机再 docker exec）做下一步。

5. 验证服务

在能访问该节点 6688 端口的机器上执行（通过 Router）：

curl http://localhost:6688/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "${MODEL_PATH}",
    "prompt": "The future of AI is",
    "max_completion_tokens": 50,
    "temperature": 0
  }'

若返回 JSON 且含生成文本，即表示链路打通。

6. 常见问题

现象	建议
拉镜像超时	配置镜像加速或使用代理
容器内看不到 NPU	检查 `--device` 是否与宿主机 `npu-smi` 一致；驱动路径挂载是否完整
OOM / 显存不足	勿随意提高 `--mem-fraction-static`；按官方调小 `max-model-len` / 并发
模型下载慢	宿主机预先下载并挂载到 `/root/.cache`
多台机器无法通信	检查网络连通性，确保 IP 地址配置正确
参数看不懂	阅读官方文档

说明	链接
SGLang · 本模型（权威步骤）	文档
SGLang 安装说明	ascend_npu.html

【小白文档】DeepSeek-V3 PD Disaggregation × 昇腾 Atlas 800 A3 / A2 × Sglang

上级索引：sglang/README.md。
本页面面向：已在昇腾机器上装好驱动与 Docker 的用户，使用 SGLang 官方容器镜像 跑通 DeepSeek-V3（PD 分离模式，4×A3），尽量减少本地 Python 环境的配置麻烦。
技术细节与参数说明以 SGLang 文档 为准。

你将得到什么

本页不解决：宿主机未安装昇腾驱动、没有对应机型、未安装 Docker——请先完成昇腾环境准备与 SGLang 安装说明。

0. 开始前确认（30 秒）

在宿主机执行（有正常输出即可进入下一步）：

npu-smi info
docker --version

机型：官方验证需 4 台 Atlas 800I A3（64G×8）（与官方文档一致）。
权重：W8A8 量化模型，建议预先下载到宿主机目录，挂载进容器的 /root/.cache/。

1. 选镜像（复制即用）

按机型二选一：

机型	镜像
Atlas 800I A3	`docker.io/lmsysorg/sglang:main-cann8.5.0-a3`
Atlas 800I A2	`docker.io/lmsysorg/sglang:main-cann8.5.0-910b`

在宿主机执行（A3 示例）：

export IMAGE=docker.io/lmsysorg/sglang:main-cann8.5.0-a3
export NAME=sglang-deepseek-v3-pd-disagg-4x
docker pull $IMAGE

若你是 A2，请把 IMAGE 换成上表中 A2 镜像。

2. 下载模型权重

模型权重来源：

来源	链接
Modelers	Deepseek-R1-bf16-hfd-w8a8

推荐：在宿主机将模型下载到即将挂载给容器的目录，例如：

mkdir -p /root/.cache/huggingface
# 使用 huggingface-cli 或 git lfs 等按模型卡说明下载到本地后，在 docker run 时挂载到容器内 /root/.cache

3. 启动容器

以下与官方 Docker 示例一致；A3 使用 davinci0–7。若你只有部分卡，请按实际修改 --device。

需要在 4 台机器 上分别启动容器。

export IMAGE=docker.io/lmsysorg/sglang:main-cann8.5.0-a3
export NAME=sglang-deepseek-v3-pd-disagg-4x

docker run --rm \
  --name $NAME \
  --privileged \
  --network=host \
  --ipc=host \
  --shm-size=16g \
  --device /dev/davinci0 \
  --device /dev/davinci1 \
  --device /dev/davinci2 \
  --device /dev/davinci3 \
  --device /dev/davinci4 \
  --device /dev/davinci5 \
  --device /dev/davinci6 \
  --device /dev/davinci7 \
  --device /dev/davinci_manager \
  --device /dev/hisi_hdc \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
  -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -v /var/queue_schedule:/var/queue_schedule \
  -v ~/.cache/:/root/.cache/ \
  -it $IMAGE bash

4. 在容器内启动 SGLang 服务

PD 分离模式需要在 4 台机器 上分别启动 Prefill（2台）和 Decode（2台）服务。

4.1 Prefill & Decode 节点

在每台机器上执行（脚本会自动判断是 Prefill 还是 Decode）：

# high performance cpu
echo performance | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
sysctl -w vm.swappiness=0
sysctl -w kernel.numa_balancing=0
sysctl -w kernel.sched_migration_cost_ns=50000
export SGLANG_SET_CPU_AFFINITY=1
unset ASCEND_LAUNCH_BLOCKING
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh
export PATH=/usr/local/Ascend/8.5.0/compiler/bishengir/bin:$PATH

export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export STREAMS_PER_DEVICE=32

export ASCEND_MF_STORE_URL="tcp://your prefill ip1:24669"

P_IP=('your prefill ip1' 'your prefill ip2')
D_IP=('your decode ip1' 'your decode ip2')

MODEL_PATH=xxx

export SGLANG_NPU_USE_MLAPO=1
export SGLANG_USE_FIA_NZ=1

LOCAL_HOST1=`hostname -I|awk -F " " '{print$1}'`
LOCAL_HOST2=`hostname -I|awk -F " " '{print$2}'`
echo "${LOCAL_HOST1}"
echo "${LOCAL_HOST2}"

# prefill
for i in "${!P_IP[@]}";
do
    if [[ "$LOCAL_HOST1" == "${P_IP[$i]}" || "$LOCAL_HOST2" == "${P_IP[$i]}" ]];
    then
        echo "${P_IP[$i]}"
        export HCCL_BUFFSIZE=1536
        export DEEP_NORMAL_MODE_USE_INT8_QUANT=1
        export TASK_QUEUE_ENABLE=2
        export HCCL_SOCKET_IFNAME=lo
        export GLOO_SOCKET_IFNAME=lo
        python -m sglang.launch_server --model-path ${MODEL_PATH} \
        --disaggregation-mode prefill --host ${P_IP[$i]} \
        --port 8000 --disaggregation-bootstrap-port $((8998+$i)) --trust-remote-code --nnodes 1 --node-rank 0 \
        --tp-size 16 --mem-fraction-static 0.81 --attention-backend ascend --device npu --quantization modelslim \
        --disaggregation-transfer-backend ascend --max-running-requests 8 --context-length 8192 \
        --disable-radix-cache \
        --chunked-prefill-size -1 --max-prefill-tokens 28680 --moe-a2a-backend deepep --deepep-mode normal \
        --speculative-algorithm NEXTN --speculative-num-steps 1 --speculative-eagle-topk 1 --speculative-num-draft-tokens 2 \
        --dp-size 2 --enable-dp-attention --disable-shared-experts-fusion --dtype bfloat16 --enable-attn-tp-input-scattered
        NODE_RANK=$i
        break
    fi
done

# decode
for i in "${!D_IP[@]}";
do
    if [[ "$LOCAL_HOST1" == "${D_IP[$i]}" || "$LOCAL_HOST2" == "${D_IP[$i]}" ]];
    then
        echo "${D_IP[$i]}"
        export SGLANG_ENABLE_OVERLAP_PLAN_STREAM=1
        export SGLANG_ENABLE_SPEC_V2=1
        export HCCL_BUFFSIZE=650
        export SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK=78
        export TASK_QUEUE_ENABLE=1
        export SGLANG_SCHEDULER_SKIP_ALL_GATHER=1
        export HCCL_SOCKET_IFNAME=xxx
        export GLOO_SOCKET_IFNAME=xxx
        python -m sglang.launch_server --model-path ${MODEL_PATH} \
        --disaggregation-mode decode --host ${D_IP[$i]} \
        --port 8001 --trust-remote-code --dist-init-addr ${D_IP[0]}:5000 --nnodes 2 --node-rank $i --tp-size 32 --dp-size 32 \
        --mem-fraction-static 0.815 --max-running-requests 832 --attention-backend ascend --device npu --quantization modelslim \
        --moe-a2a-backend deepep --enable-dp-attention --deepep-mode low_latency --enable-dp-lm-head --moe-dense-tp 1 \
        --cuda-graph-bs 12 14 16 18 20 22 24 26 --disaggregation-transfer-backend ascend --watchdog-timeout 9000 --context-length 8192 \
        --speculative-algorithm NEXTN --speculative-num-steps 2 --speculative-eagle-topk 1 --speculative-num-draft-tokens 3 \
        --tokenizer-worker-num 4 --disable-shared-experts-fusion --dtype bfloat16 \
        --load-balance-method decode_round_robin
        NODE_RANK=$i
        break
    fi
done

4.2 路由器（可选）

启动 SGLang 模型网关以实现负载均衡：

export SGLANG_DP_ROUND_ROBIN=1
python -m sglang_router.launch_router \
    --pd-disaggregation \
    --policy cache_aware \
    --prefill http://P_IP:8000 8998 \
    --prefill http://P_IP:8000 8999 \
    --decode http://D_IP:8001 \
    --host 127.0.0.1 \
    --port 6688 \
    --mini-lb

看到服务监听 8000/8001 且日志无报错后，另开终端（或宿主机再 docker exec）做下一步。

5. 验证服务

在能访问该节点 6688 端口的机器上执行（通过 Router）：

curl http://localhost:6688/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "${MODEL_PATH}",
    "prompt": "The future of AI is",
    "max_completion_tokens": 50,
    "temperature": 0
  }'

若返回 JSON 且含生成文本，即表示链路打通。

6. 常见问题

现象	建议
拉镜像超时	配置镜像加速或使用代理
容器内看不到 NPU	检查 `--device` 是否与宿主机 `npu-smi` 一致；驱动路径挂载是否完整
OOM / 显存不足	勿随意提高 `--mem-fraction-static`；按官方调小 `max-model-len` / 并发
模型下载慢	宿主机预先下载并挂载到 `/root/.cache`
多台机器无法通信	检查网络连通性，确保 IP 地址配置正确
参数看不懂	阅读官方文档

【小白文档】DeepSeek-V3 PD Disaggregation × 昇腾 Atlas 800 A3 / A2 × Sglang

你将得到什么

目录

0. 开始前确认（30 秒）

1. 选镜像（复制即用）

2. 下载模型权重

3. 启动容器

4. 在容器内启动 SGLang 服务

4.1 Prefill & Decode 节点

4.2 路由器（可选）

5. 验证服务

6. 常见问题

相关链接

【小白文档】DeepSeek-V3 PD Disaggregation × 昇腾 Atlas 800 A3 / A2 × Sglang

你将得到什么

目录

0. 开始前确认（30 秒）

1. 选镜像（复制即用）

2. 下载模型权重

3. 启动容器

4. 在容器内启动 SGLang 服务

4.1 Prefill & Decode 节点

4.2 路由器（可选）

5. 验证服务

6. 常见问题

相关链接