github_36141363/Qwen3-0.6B-Ascend
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen3-0.6B on vLLM-Ascend 0.18.0rc1

1. 简介

本文档记录 Qwen3-0.6B 在 vLLM-Ascend 0.18.0rc1 环境的快速部署与验证结果。

Qwen3-0.6B 是通义千问 Qwen3 系列中的 Dense 小模型(0.6B 参数),采用 Qwen3ForCausalLM 架构,支持 32K 上下文长度。该模型在昇腾 NPU 上单卡即可运行,无需张量并行。

相关获取地址:

  • 权重下载地址(ModelScope):https://modelscope.cn/models/Qwen/Qwen3-0.6B
  • 权重下载地址(HuggingFace):https://huggingface.co/Qwen/Qwen3-0.6B
  • Docker Image(vLLM-Ascend 0.18.0rc1):quay.io/ascend/vllm-ascend:v0.18.0rc1

参考文档:

  • https://docs.vllm.ai/projects/ascend/zh-cn/v0.18.0/tutorials/models/Qwen3-Dense.html
  • https://docs.vllm.ai/projects/ascend/zh-cn/v0.18.0/developer_guide/Design_Documents/ACL_Graph.html

2. 验证环境

组件版本
vllm-ascend0.18.0rc1
vllm0.18.0+empty
transformers4.57.6
torch-npu2.9.0.post1+gitee7ba04
  • NPU:Ascend910B4 单卡
  • 模型路径:Qwen/Qwen3-0.6B(ModelScope 自动下载)
  • 服务端口:8000
  • 编译模式:PIECEWISE(ACL Graph)

模型加载信息:

指标数值
权重大小1.14 GB
可用 KV Cache23.82 GiB
KV Cache Token 数222,976 tokens
最大并发数(32K context)6.80x

3. 服务启动

已验证通过的启动命令(单卡,无需 Tensor Parallel):

export VLLM_USE_MODELSCOPE=true
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=1
export TASK_QUEUE_ENABLE=1

vllm serve Qwen/Qwen3-0.6B \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --trust-remote-code \
  --gpu-memory-utilization 0.85 \
  --served-model-name qwen3-0.6b

关键参数说明:

参数值说明
--tensor-parallel-size10.6B 小模型单卡即可运行,无需 TP
--max-model-len32768Qwen3 官方上下文长度
--gpu-memory-utilization0.85HBM 利用率
VLLM_USE_MODELSCOPE=true—从 ModelScope 自动下载权重
--trust-remote-code—加载 Qwen3 自定义模型架构

4. Smoke 验证

基础检查:

curl -sf http://127.0.0.1:8000/v1/models
curl -sf http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-0.6b",
    "messages": [{"role": "user", "content": "用一句话说明 TCP 和 UDP 的核心区别。"}],
    "temperature": 0,
    "max_tokens": 128
  }'
curl -sf http://127.0.0.1:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-0.6b",
    "prompt": "The future of AI is",
    "max_tokens": 50,
    "temperature": 0
  }'

验证结果:

接口状态说明
/v1/models200 OK返回模型信息,max_model_len=32768
/v1/chat/completions200 OK正常返回中文思考链与生成内容
/v1/completions200 OK正常返回英文续写文本

5. 注意事项

  1. 单卡即可运行:Qwen3-0.6B 权重仅约 1.14 GB,910B4 单卡无需张量并行即可流畅运行。

  2. 首次启动编译时间较长:PIECEWISE 模式首次启动需进行 ACL Graph 编译(约 1–3 分钟),编译产物会缓存到 ~/.cache/vllm/torch_compile_cache/,后续启动直接加载。

  3. Device ID 注意:若环境中 npu-smi 显示的 NPU 编号非连续(如仅显示 NPU 2),请勿设置 ASCEND_RT_VISIBLE_DEVICES=2。torch_npu 对单卡环境使用 0-based 索引,直接不设置该变量即可。

  4. 日志目录警告:若看到 can not create directory: /home/atomgit/ascend/log 警告,不影响服务正常运行;如需消除,可预先创建该目录或设置 ASCEND_LOG_PATH 到可写路径。

相关链接

说明链接
vLLM Ascend · Qwen3-Dense(权威步骤)文档
Qwen3-0.6B 模型卡(ModelScope)链接
Qwen3-0.6B 模型卡(HuggingFace)链接

镜像版本与启动参数随 vLLM Ascend 发布更新,若与官方文档冲突,以官方为准。