a
ascend_model_docs/Qwen3-235B-A22B_A2-A3_Vllm-Ascend
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

【小白文档】Qwen3-235B-A22B × 昇腾 Atlas 800 A3 / A2 × vLLM Ascend

上级索引:vllm-ascend/README.md。
本页面向:已在昇腾机器上装好驱动与 Docker 的用户,用 官方容器镜像 跑通 Qwen3-235B-A22B,尽量减少本地 Python 环境折腾。
技术细节与参数说明以 vLLM Ascend 文档 为准。


你将得到什么

按下面顺序执行后:在 Qwen3-235B-A22B (BF16 version): require 1 Atlas 800 A3 (64G × 16) node, 1 Atlas 800 A2 (64G × 8) node or 2 Atlas 800 A2(32G * 8)nodes 上,用 vLLM Ascend 官方镜像 拉起在线推理服务,并用 curl 验证。

本页不解决:宿主机未装昇腾驱动、无对应机型、无 Docker——请先完成 昇腾环境准备 与 vLLM Ascend 安装说明 · Docker.


目录

  • 0. 开始前确认(30 秒)
  • 1. 选镜像(复制即用)
  • 2. 下载模型权重
  • 3. 启动容器
  • 4. 在容器内启动 vLLM 服务
  • 5. 验证服务
  • 6. 常见问题

0. 开始前确认(30 秒)

在宿主机执行(有正常输出即可进入下一步):

npu-smi info
docker --version
  • 机型:官方验证需 Qwen3-235B-A22B (BF16 version): require 1 Atlas 800 A3 (64G × 16) node, 1 Atlas 800 A2 (64G × 8) node or 2 Atlas 800 A2(32G * 8)nodes(与 官方文档 一致)。
  • 权重:建议预先下载到宿主机目录,挂载进容器的 /root/.cache/(与官方推荐一致),避免容器内重复下载失败。

1. 选镜像(复制即用)

按机型二选一(与 vLLM Ascend 文档 一致):

机型镜像(官方)国内拉取示例(DaoCloud 转发)
Atlas 800 A2quay.io/ascend/vllm-ascend:v0.17.0rc1m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
Atlas 800 A3quay.io/ascend/vllm-ascend:v0.17.0rc1-a3m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1-a3

在宿主机执行(A2 示例,国内网络建议用右侧镜像):

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-ascend-qwen3-235b-a22b
docker pull $IMAGE

若你是 A3,请把 IMAGE 换成上表中 A3 镜像。


2. 下载模型权重

支持 BF16 与 W8A8 量化 等变体,权重来源以官方文档为准:

变体说明ModelScope(示例)
BF16全精度Qwen/Qwen3-235B-A22B
W8A8 量化显存压力相对较低,下文启动命令以该版本为例vllm-ascend/Qwen3-235B-A22B-W8A8

推荐:在宿主机将模型下载到即将挂载给容器的目录,例如:

mkdir -p /root/.cache/modelscope
# 使用 modelscope 或 git lfs 等按模型卡说明下载到本地后,在 docker run 时挂载到容器内 /root/.cache

若暂不下宿主机,也可在容器内首次启动时由 vLLM 拉取(需配好 VLLM_USE_MODELSCOPE=true 与网络)。


3. 启动容器

以下与 官方 Docker 示例 一致;A2 使用 davinci0–7。若你只有部分卡,请按实际修改 --device。

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-ascend-qwen3-235b-a22b

docker run --rm \
  --name $NAME \
  --net=host \
  --shm-size=1g \
  --device /dev/davinci0 \
  --device /dev/davinci1 \
  --device /dev/davinci2 \
  --device /dev/davinci3 \
  --device /dev/davinci4 \
  --device /dev/davinci5 \
  --device /dev/davinci6 \
  --device /dev/davinci7 \
  --device /dev/davinci_manager \
  --device /dev/devmm_svm \
  --device /dev/hisi_hdc \
  -v /usr/local/dcmi:/usr/local/dcmi \
  -v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
  -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -it $IMAGE bash

进入容器后,建议先设置(减少显存碎片、加速 ModelScope 拉取):

export VLLM_USE_MODELSCOPE=true
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

4. 在容器内启动 vLLM 服务

下面为 manifest 中自定义的完整命令(请自行核对与官方文档是否一致):

#!/bin/sh
export HCCL_IF_IP=decode_node_2_ip

ifname=""

export GLOO_SOCKET_IFNAME=${ifname}
export TP_SOCKET_IFNAME=${ifname}
export HCCL_SOCKET_IFNAME=${ifname}

# Load model from ModelScope to speed up download
export VLLM_USE_MODELSCOPE=true
# To reduce memory fragmentation and avoid out of memory
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export HCCL_BUFFSIZE=1024
export HCCL_OP_EXPANSION_MODE="AIV"
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export VLLM_ASCEND_ENABLE_FLASHCOMM1=1
export VLLM_ASCEND_ENABLE_FUSED_MC2=2
export TASK_QUEUE_ENABLE=1
export LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/python/site-packages/mooncake:$LD_LIBRARY_PATH

vllm serve vllm-ascend/Qwen3-235B-A22B-w8a8 \
--host 0.0.0.0 \
--port 8000 \
--headless \
--tensor-parallel-size 4 \
--data-parallel-size 8 \
--data-parallel-size-local 4 \
--data-parallel-start-rank 4 \
--data-parallel-address decode_node_1_ip \
--data-parallel-rpc-port decode_node_dp_port \
--seed 1024 \
--quantization ascend \
--served-model-name qwen3 \
--max-num-seqs 128 \
--max-model-len 40960 \
--max-num-batched-tokens 256 \
--enable-expert-parallel \
--trust-remote-code \
--gpu-memory-utilization 0.9 \
--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
--async-scheduling \
--no-enable-prefix-caching \
--kv-transfer-config \
'{"kv_connector": "MooncakeConnectorV1",
"kv_role": "kv_consumer",
"kv_port": "30100",
"engine_id": "1",
"kv_connector_extra_config": {
      "prefill": {
            "dp_size": 2,
            "tp_size": 8
      },
      "decode": {
            "dp_size": 8,
            "tp_size": 4
      }
}
}'

看到服务监听 8000 且日志无报错后,另开终端(或宿主机再 docker exec)做下一步。

若使用 BF16 权重 Qwen/Qwen3-235B-A22B,请勿照搬未经验证的量化参数;请打开 官方文档 · Deployment 中对应小节。


5. 验证服务

在能访问该节点 8000 端口的机器上执行(与 官方 一致):

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3",
    "prompt": "The future of AI is",
    "max_completion_tokens": 50,
    "temperature": 0
  }'

若返回 JSON 且含生成文本,即表示链路打通。


6. 常见问题

现象建议
拉镜像超时换用本文 DaoCloud 转发 镜像名,或配置镜像加速
容器内看不到 NPU检查 --device 是否与宿主机 npu-smi 一致;驱动路径挂载是否完整
OOM / 显存不足勿随意提高 --gpu-memory-utilization;优先使用 W8A8 权重或按官方调小 max-model-len / 并发
模型下载慢宿主机预先下载并 挂载 到 /root/.cache;保持 VLLM_USE_MODELSCOPE=true
参数看不懂阅读 官方文档 · Deployment

相关链接

说明链接
vLLM Ascend · 本模型(权威步骤)文档
Docker 安装与多机installation

镜像版本与启动参数随 vLLM Ascend 发布更新,若与官方文档冲突,以官方为准。