Ascend-SACT/Qwen3-0.6B-w8a8
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen3-0.6B-w8a8模型部署指导

第一章 模型简介

Qwen3-0.6B是由阿里巴巴旗下通义千问团队开发的大型语言模型,属于Dense架构,于2025年4月29日正式发布。该模型基于Apache 2.0协议开源,参数规模为0.6B,采用28层Transformer结构,支持32768个token的上下文长度,并通过RoPE缩放扩展至131072。其注意力机制包含16个查询头和8个键值头,预训练阶段覆盖119种语言与36万亿令牌数据。

第二章 运行环境

硬件设备

设备型号NPU配置
Atlas 800I A28*64G
Atlas 800T A28*64G

软件版本配置表

软件配套版本
python3.11
torch2.8.0
torch_npu2.8.0
transformers4.57.3
vllm_ascendv0.13.0rc1
CANN8.3.rc2
HDK25.2.3

第三章 镜像准备

  • 镜像拉取:
docker pull quay.io/ascend/vllm-ascend:v0.13.0rc1
  • 资源需要:910B单卡即可
  • 容器运行:
docker run -itd --name qwen3-0.6b \
--net=host \
--privileged=true \
--shm-size=1g \
--device=/dev/davinci0 \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ \
-v /usr/local/sbin/:/usr/local/sbin/ \
-v /var/log/npu/slog/:/var/log/npu/slog \
-v /var/log/npu/profiling/:/var/log/npu/profiling \
-v /var/log/npu/dump/:/var/log/npu/dump \
-v /var/log/npu/:/usr/slog \
-v /models:/models \
-v /etc/hccn.conf:/etc/hccn.conf \
-p 8000:8000 \
镜像ID /bin/bash
  • 进入容器:
docker exec -it qwen3-0.6b bash

第四章 模型权重下载

  • 量化权重地址
https://modelscope.cn/models/vllm-ascend/Qwen3-0.6B-W8A8/files
  • 原始权重地址
https://modelscope.cn/models/Qwen/Qwen3-0.6B/files
  • 下载模型权重
pip install modelscope
modelscope download --model vllm-ascend/Qwen3-0.6B-W8A8 --local_dir ./Qwen3-0.6B-W8A8

第五章 模型脚本验证

如需使用脚本验证,需安装python依赖包

pip install accelerate

使用python脚本验证模型【如果使用量化模型,需要添加quantization="ascend"参数】

import os
os.environ["VLLM_USE_V1"] = "1"

from vllm import LLM, SamplingParams

prompts = [
    "你是谁"
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(
        model="Qwen3-0.6B-W8A8",
        max_model_len=26240,
		quantization="ascend"
)

outputs = llm.generate(prompts, sampling_params)
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

第六章 服务化部署

使用vllm-ascend部署模型服务化【如果使用量化模型,需要添加--quantization ascend参数】

export PYTORCH_NPU_ALLOC_CONF=max_split_size_mb:256
# 需切换到模型权重目录执行启动脚本
vllm serve Qwen3-0.6B-W8A8 --quantization ascend

验证服务化部署

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "Qwen3-0.6B-W8A8",
  "messages": [
    {"role": "user", "content": "你是谁?"}
  ],
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20,
  "max_tokens": 100
}'