| 项目 | 内容 |
|---|---|
| 模型名称 | Qwen3-4B |
| HuggingFace ID | Qwen/Qwen3-4B |
| 架构类型 | Qwen3ForCausalLM |
| 注意力机制 | GQA (32 heads / 8 kv heads) |
| 数据类型 | bfloat16 |
| 上下文长度 | 40960 |
无需代码修改,原生兼容。
Qwen3-4B 在 vLLM 0.18.0 中已内置支持,实现完全基于 vLLM 标准算子层(Attention、RMSNorm、QKVParallelLinear 等),无任何 CUDA/Triton 专有代码,在昇腾 NPU 上可直接运行。
| 验证项 | 状态 | 说明 |
|---|---|---|
| Stage A (Dummy Gate) | 通过 | 模型加载、图捕获、KV Cache 初始化均成功 |
| Stage B (真实权重) | 待验证 | 环境限制无法下载完整权重,架构分析确认兼容 |
| 推理功能 | 通过 | Dummy 模式下前向推理成功 |
| ACLGraph | 通过 | 图捕获 5/5 完成 |
vllm serve Qwen/Qwen3-4B \
--dtype bfloat16 \
--max-model-len 40960 \
--max-num-seqs 16 \
--port 8000# 服务状态检查
curl -sf http://127.0.0.1:8000/v1/models
# 文本推理
curl -s http://127.0.0.1:8000/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{
"model": "Qwen3-4B",
"messages": [{"role": "user", "content": "say hi"}],
"temperature": 0,
"max_tokens": 16
}'| 现象 | 解决方案 |
|---|---|
| Graph 捕获失败 | 添加 --enforce-eager 参数 |
| 内存不足 (OOM) | 减小 --max-model-len 或 --max-num-seqs |
适配日期: 2026-05-18
适配工具: adapt-agent (vLLM-Ascend Model Adapter)