Qwen3-0.6B是由阿里巴巴旗下通义千问团队开发的大型语言模型,属于Dense架构,于2025年4月29日正式发布。该模型基于Apache 2.0协议开源,参数规模为0.6B,采用28层Transformer结构,支持32768个token的上下文长度,并通过RoPE缩放扩展至131072。其注意力机制包含16个查询头和8个键值头,预训练阶段覆盖119种语言与36万亿令牌数据。
硬件设备
| 设备型号 | NPU配置 |
|---|---|
| Atlas 800I A2 | 8*64G |
| Atlas 800T A2 | 8*64G |
软件版本配置表
| 软件配套 | 版本 |
|---|---|
| python | 3.11 |
| torch | 2.8.0 |
| torch_npu | 2.8.0 |
| transformers | 4.57.3 |
| vllm_ascend | v0.13.0rc1 |
| CANN | 8.3.rc2 |
| HDK | 25.2.3 |
docker pull quay.io/ascend/vllm-ascend:v0.13.0rc1docker run -itd --name qwen3-0.6b \
--net=host \
--privileged=true \
--shm-size=1g \
--device=/dev/davinci0 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/sbin/:/usr/local/sbin/ \
-v /var/log/npu/slog/:/var/log/npu/slog \
-v /var/log/npu/profiling/:/var/log/npu/profiling \
-v /var/log/npu/dump/:/var/log/npu/dump \
-v /var/log/npu/:/usr/slog \
-v /models:/models \
-v /etc/hccn.conf:/etc/hccn.conf \
-p 8000:8000 \
镜像ID /bin/bashdocker exec -it qwen3-0.6b bashhttps://modelscope.cn/models/vllm-ascend/Qwen3-0.6B-W8A8/fileshttps://modelscope.cn/models/Qwen/Qwen3-0.6B/filespip install modelscope
modelscope download --model vllm-ascend/Qwen3-0.6B-W8A8 --local_dir ./Qwen3-0.6B-W8A8如需使用脚本验证,需安装python依赖包
pip install accelerate使用python脚本验证模型【如果使用量化模型,需要添加quantization="ascend"参数】
import os
os.environ["VLLM_USE_V1"] = "1"
from vllm import LLM, SamplingParams
prompts = [
"你是谁"
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(
model="Qwen3-0.6B-W8A8",
max_model_len=26240,
quantization="ascend"
)
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")使用vllm-ascend部署模型服务化【如果使用量化模型,需要添加--quantization ascend参数】
export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
# 需切换到模型权重目录执行启动脚本
vllm serve Qwen3-0.6B-W8A8 --quantization ascend验证服务化部署
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "Qwen3-0.6B-W8A8",
"messages": [
{"role": "user", "content": "你是谁?"}
],
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"max_tokens": 100
}'