上级索引:vllm-ascend/README.md。
本页面向:已在昇腾机器上装好驱动与 Docker 的用户,用 官方容器镜像 跑通 DeepSeek-V3/3.1,尽量减少本地 Python 环境折腾。
技术细节与参数说明以 vLLM Ascend 文档 为准。
按下面顺序执行后:在 Quantized model DeepSeek-V3 上,用 vLLM Ascend 官方镜像 拉起在线推理服务,并用 curl 验证。
本页不解决:宿主机未装昇腾驱动、无对应机型、无 Docker——请先完成 昇腾环境准备 与 vLLM Ascend 安装说明 · Docker.
在宿主机执行(有正常输出即可进入下一步):
npu-smi info
docker --version/root/.cache/(与官方推荐一致),避免容器内重复下载失败。按机型二选一(与 vLLM Ascend 文档 一致):
| 机型 | 镜像(官方) | 国内拉取示例(DaoCloud 转发) |
|---|---|---|
| Atlas 800 A2 | quay.io/ascend/vllm-ascend:v0.17.0rc1 | m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1 |
| Atlas 800 A3 | quay.io/ascend/vllm-ascend:v0.17.0rc1-a3 | m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1-a3 |
在宿主机执行(A2 示例,国内网络建议用右侧镜像):
export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-ascend-deepseek-v3-1
docker pull $IMAGE若你是 A3,请把 IMAGE 换成上表中 A3 镜像。
支持 BF16 与 W8A8 量化 等变体,权重来源以官方文档为准:
| 变体 | 说明 | ModelScope(示例) |
|---|---|---|
| BF16 | 全精度 | deepseek-ai/DeepSeek-V3.1 |
| W8A8 量化 | 显存压力相对较低,下文启动命令以该版本为例 | Eco-Tech/DeepSeek-V3.1-w8a8-mtp-QuaRot |
推荐:在宿主机将模型下载到即将挂载给容器的目录,例如:
mkdir -p /root/.cache/modelscope
# 使用 modelscope 或 git lfs 等按模型卡说明下载到本地后,在 docker run 时挂载到容器内 /root/.cache若暂不下宿主机,也可在容器内首次启动时由 vLLM 拉取(需配好 VLLM_USE_MODELSCOPE=true 与网络)。
以下与 官方 Docker 示例 一致;A2 使用 davinci0–7。若你只有部分卡,请按实际修改 --device。
export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-ascend-deepseek-v3-1
docker run --rm \
--name $NAME \
--net=host \
--shm-size=1g \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-it $IMAGE bash进入容器后,建议先设置(减少显存碎片、加速 ModelScope 拉取):
export VLLM_USE_MODELSCOPE=true
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True下面为 manifest 中自定义的完整命令(请自行核对与官方文档是否一致):
# this obtained through ifconfig
# nic_name is the network interface name corresponding to local_ip of the current node
nic_name="xxx"
local_ip="141.xx.xx.3"
# The value of node0_ip must be consistent with the value of local_ip set in node0 (master node)
node0_ip="xxxx"
# [Optional] jemalloc
# jemalloc is for better performance, if `libjemalloc.so` is installed on your machine, you can turn it on.
# export LD_PRELOAD=/usr/lib/aarch64-linux-gnu/libjemalloc.so.2:$LD_PRELOAD
export HCCL_IF_IP=$local_ip
export GLOO_SOCKET_IFNAME=$nic_name
export TP_SOCKET_IFNAME=$nic_name
export HCCL_SOCKET_IFNAME=$nic_name
export VLLM_RPC_TIMEOUT=3600000
export VLLM_EXECUTE_MODEL_TIMEOUT_SECONDS=30000
export HCCL_EXEC_TIMEOUT=204
export HCCL_CONNECT_TIMEOUT=120
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=10
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export HCCL_BUFFSIZE=1100
export TASK_QUEUE_ENABLE=1
export HCCL_OP_EXPANSION_MODE="AIV"
export VLLM_USE_V1=1
export ASCEND_RT_VISIBLE_DEVICES=$1
export ASCEND_BUFFER_POOL=4:8
export LD_LIBRARY_PATH=/usr/local/Ascend/ascend-toolkit/latest/python/site-packages/mooncake:$LD_LIBRARY_PATH
vllm serve /weights/DeepSeek-V3.1-w8a8-mtp-QuaRot \
--host 0.0.0.0 \
--port $2 \
--data-parallel-size $3 \
--data-parallel-rank $4 \
--data-parallel-address $5 \
--data-parallel-rpc-port $6 \
--tensor-parallel-size $7 \
--enable-expert-parallel \
--seed 1024 \
--served-model-name deepseek_v3 \
--max-model-len 65536 \
--max-num-batched-tokens 256 \
--max-num-seqs 28 \
--trust-remote-code \
--gpu-memory-utilization 0.92 \
--quantization ascend \
--no-enable-prefix-caching \
--async-scheduling \
--speculative-config '{"num_speculative_tokens": 1, "method": "mtp"}' \
--compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY", "cudagraph_capture_sizes":[2, 4, 8, 16, 24, 32, 48, 56]}' \
--additional-config '{"recompute_scheduler_enable":true,"multistream_overlap_shared_expert": true,"finegrained_tp_config": {"lmhead_tensor_parallel_size":16}}' \
--kv-transfer-config \
'{"kv_connector": "MooncakeConnectorV1",
"kv_role": "kv_consumer",
"kv_port": "30200",
"engine_id": "2",
"kv_connector_extra_config": {
"prefill": {
"dp_size": 2,
"tp_size": 8
},
"decode": {
"dp_size": 32,
"tp_size": 1
}
}
}'看到服务监听 8000 且日志无报错后,另开终端(或宿主机再 docker exec)做下一步。
若使用 BF16 权重 deepseek-ai/DeepSeek-V3.1,请勿照搬未经验证的量化参数;请打开 官方文档 · Deployment 中对应小节。
在能访问该节点 8000 端口的机器上执行(与 官方 一致):
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek_v3",
"prompt": "The future of AI is",
"max_completion_tokens": 50,
"temperature": 0
}'若返回 JSON 且含生成文本,即表示链路打通。
| 现象 | 建议 |
|---|---|
| 拉镜像超时 | 换用本文 DaoCloud 转发 镜像名,或配置镜像加速 |
| 容器内看不到 NPU | 检查 --device 是否与宿主机 npu-smi 一致;驱动路径挂载是否完整 |
| OOM / 显存不足 | 勿随意提高 --gpu-memory-utilization;优先使用 W8A8 权重或按官方调小 max-model-len / 并发 |
| 模型下载慢 | 宿主机预先下载并 挂载 到 /root/.cache;保持 VLLM_USE_MODELSCOPE=true |
| 参数看不懂 | 阅读 官方文档 · Deployment |
| 说明 | 链接 |
|---|---|
| vLLM Ascend · 本模型(权威步骤) | 文档 |
| Docker 安装与多机 | installation |
镜像版本与启动参数随 vLLM Ascend 发布更新,若与官方文档冲突,以官方为准。