Qwen3-0.6B-w8a8模型部署指导

第一章模型简介

Qwen3-0.6B是由阿里巴巴旗下通义千问团队开发的大型语言模型，属于Dense架构，于2025年4月29日正式发布。该模型基于Apache 2.0协议开源，参数规模为0.6B，采用28层Transformer结构，支持32768个token的上下文长度，并通过RoPE缩放扩展至131072。其注意力机制包含16个查询头和8个键值头，预训练阶段覆盖119种语言与36万亿令牌数据。

第二章运行环境

硬件设备

设备型号	NPU配置
Atlas 800I A2	8*64G
Atlas 800T A2	8*64G

软件版本配置表

软件配套	版本
python	3.11
torch	2.8.0
torch_npu	2.8.0
transformers	4.57.3
vllm_ascend	v0.13.0rc1
CANN	8.3.rc2
HDK	25.2.3

第三章镜像准备

镜像拉取：

docker pull quay.io/ascend/vllm-ascend:v0.13.0rc1

资源需要：910B单卡即可
容器运行：

docker run -itd --name qwen3-0.6b \
--net=host \
--privileged=true \
--shm-size=1g \
--device=/dev/davinci0 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/sbin/:/usr/local/sbin/ \
-v /var/log/npu/slog/:/var/log/npu/slog \
-v /var/log/npu/profiling/:/var/log/npu/profiling \
-v /var/log/npu/dump/:/var/log/npu/dump \
-v /var/log/npu/:/usr/slog \
-v /models:/models \
-v /etc/hccn.conf:/etc/hccn.conf \
-p 8000:8000 \
镜像ID /bin/bash

进入容器：

docker exec -it qwen3-0.6b bash

第四章模型权重下载

量化权重地址

https://modelscope.cn/models/vllm-ascend/Qwen3-0.6B-W8A8/files

原始权重地址

https://modelscope.cn/models/Qwen/Qwen3-0.6B/files

下载模型权重

pip install modelscope
modelscope download --model vllm-ascend/Qwen3-0.6B-W8A8 --local_dir ./Qwen3-0.6B-W8A8

第五章模型脚本验证

如需使用脚本验证，需安装python依赖包

pip install accelerate

使用python脚本验证模型【如果使用量化模型，需要添加quantization="ascend"参数】

import os
os.environ["VLLM_USE_V1"] = "1"

from vllm import LLM, SamplingParams

prompts = [
    "你是谁"
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(
        model="Qwen3-0.6B-W8A8",
        max_model_len=26240,
		quantization="ascend"
)

outputs = llm.generate(prompts, sampling_params)
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

第六章服务化部署

使用vllm-ascend部署模型服务化【如果使用量化模型，需要添加--quantization ascend参数】

export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
# 需切换到模型权重目录执行启动脚本
vllm serve Qwen3-0.6B-W8A8 --quantization ascend

验证服务化部署

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "Qwen3-0.6B-W8A8",
  "messages": [
    {"role": "user", "content": "你是谁？"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "max_tokens": 100
}'

Qwen3-0.6B-w8a8模型部署指导

第一章模型简介

第二章运行环境

硬件设备

设备型号	NPU配置
Atlas 800I A2	8*64G
Atlas 800T A2	8*64G

软件版本配置表

软件配套	版本
python	3.11
torch	2.8.0
torch_npu	2.8.0
transformers	4.57.3
vllm_ascend	v0.13.0rc1
CANN	8.3.rc2
HDK	25.2.3

第三章镜像准备

镜像拉取：

docker pull quay.io/ascend/vllm-ascend:v0.13.0rc1

资源需要：910B单卡即可
容器运行：

docker run -itd --name qwen3-0.6b \
--net=host \
--privileged=true \
--shm-size=1g \
--device=/dev/davinci0 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/sbin/:/usr/local/sbin/ \
-v /var/log/npu/slog/:/var/log/npu/slog \
-v /var/log/npu/profiling/:/var/log/npu/profiling \
-v /var/log/npu/dump/:/var/log/npu/dump \
-v /var/log/npu/:/usr/slog \
-v /models:/models \
-v /etc/hccn.conf:/etc/hccn.conf \
-p 8000:8000 \
镜像ID /bin/bash

进入容器：

docker exec -it qwen3-0.6b bash

第四章模型权重下载

量化权重地址

https://modelscope.cn/models/vllm-ascend/Qwen3-0.6B-W8A8/files

原始权重地址

https://modelscope.cn/models/Qwen/Qwen3-0.6B/files

下载模型权重

pip install modelscope
modelscope download --model vllm-ascend/Qwen3-0.6B-W8A8 --local_dir ./Qwen3-0.6B-W8A8

第五章模型脚本验证

如需使用脚本验证，需安装python依赖包

pip install accelerate

使用python脚本验证模型【如果使用量化模型，需要添加quantization="ascend"参数】

import os
os.environ["VLLM_USE_V1"] = "1"

from vllm import LLM, SamplingParams

prompts = [
    "你是谁"
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(
        model="Qwen3-0.6B-W8A8",
        max_model_len=26240,
		quantization="ascend"
)

outputs = llm.generate(prompts, sampling_params)
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

第六章服务化部署

使用vllm-ascend部署模型服务化【如果使用量化模型，需要添加--quantization ascend参数】

export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
# 需切换到模型权重目录执行启动脚本
vllm serve Qwen3-0.6B-W8A8 --quantization ascend

验证服务化部署

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "Qwen3-0.6B-W8A8",
  "messages": [
    {"role": "user", "content": "你是谁？"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "max_tokens": 100
}'

Qwen3-0.6B-w8a8模型部署指导

第一章 模型简介

第二章 运行环境

第三章 镜像准备

第四章 模型权重下载

第五章 模型脚本验证

第六章 服务化部署

Qwen3-0.6B-w8a8模型部署指导

第一章 模型简介

第二章 运行环境

第三章 镜像准备

第四章 模型权重下载

第五章 模型脚本验证

第六章 服务化部署

第一章模型简介

第二章运行环境

第三章镜像准备

第四章模型权重下载

第五章模型脚本验证

第六章服务化部署

第一章模型简介

第二章运行环境

第三章镜像准备

第四章模型权重下载

第五章模型脚本验证

第六章服务化部署