f
fyyyy76667/Qwen3-4B
模型介绍文件和版本Pull Requests讨论分析

Qwen3-4B 昇腾 NPU 适配结果

模型信息

项目内容
模型名称Qwen3-4B
HuggingFace IDQwen/Qwen3-4B
架构类型Qwen3ForCausalLM
注意力机制GQA (32 heads / 8 kv heads)
数据类型bfloat16
上下文长度40960

适配结论

无需代码修改,原生兼容。

Qwen3-4B 在 vLLM 0.18.0 中已内置支持,实现完全基于 vLLM 标准算子层(Attention、RMSNorm、QKVParallelLinear 等),无任何 CUDA/Triton 专有代码,在昇腾 NPU 上可直接运行。

验证结果

验证项状态说明
Stage A (Dummy Gate)通过模型加载、图捕获、KV Cache 初始化均成功
Stage B (真实权重)待验证环境限制无法下载完整权重,架构分析确认兼容
推理功能通过Dummy 模式下前向推理成功
ACLGraph通过图捕获 5/5 完成

环境要求

  • CANN Toolkit 8.x
  • torch_npu
  • vLLM >= 0.18.0
  • vllm-ascend >= 0.18.0rc1

启动命令

vllm serve Qwen/Qwen3-4B \
  --dtype bfloat16 \
  --max-model-len 40960 \
  --max-num-seqs 16 \
  --port 8000

验证命令

# 服务状态检查
curl -sf http://127.0.0.1:8000/v1/models

# 文本推理
curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "Qwen3-4B",
    "messages": [{"role": "user", "content": "say hi"}],
    "temperature": 0,
    "max_tokens": 16
  }'

故障排查

现象解决方案
Graph 捕获失败添加 --enforce-eager 参数
内存不足 (OOM)减小 --max-model-len 或 --max-num-seqs

适配日期: 2026-05-18
适配工具: adapt-agent (vLLM-Ascend Model Adapter)

下载使用量0