模型来源:HuggingFace - Qwen/Qwen2.5-7B-Instruct 适配时间:2026-05-16 适配工具:vLLM-Ascend 0.18.0
| 属性 | 值 |
|---|---|
| 模型架构 | Qwen2ForCausalLM |
| 模型类型 | qwen2 |
| 参数量 | 7B |
| 隐藏层维度 | 3584 |
| 注意力头数 | 28 |
| KV 头数 | 4 (GQA) |
| 层数 | 28 |
| 词表大小 | 152064 |
| 上下文长度 | 131072 |
| 数据类型 | bfloat16 |
| 许可证 | apache-2.0 |
✅ 完全兼容,无需代码修改
Qwen2.5-7B-Instruct 使用 Qwen2ForCausalLM 架构,该架构已在 vLLM 0.18.0 中原生支持。通过 dummy 权重验证,模型可在昇腾 NPU 上正常加载、编译和推理。
| 验证项 | 结果 |
|---|---|
| 架构识别 | ✅ Qwen2ForCausalLM |
| Dummy 权重加载 | ✅ 成功 |
| ACL Graph 编译 | ✅ 成功 |
| 推理执行 | ✅ 成功 |
| 算子兼容性 | ✅ 无 CUDA-only 算子 |
| 组件 | 版本 |
|---|---|
| vLLM | 0.18.0 |
| torch_npu | CANN 8.5.1 |
| NPU 设备 | Ascend910 × 2 |
export HF_ENDPOINT=https://hf-mirror.com
vllm serve Qwen/Qwen2.5-7B-Instruct \
--dtype bfloat16 \
--max-model-len 131072 \
--tensor-parallel-size 1 \
--port 8000export HF_ENDPOINT=https://hf-mirror.com
vllm serve Qwen/Qwen2.5-7B-Instruct \
--dtype bfloat16 \
--max-model-len 131072 \
--tensor-parallel-size 2 \
--port 8000curl -s http://127.0.0.1:8000/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{
"model": "Qwen/Qwen2.5-7B-Instruct",
"messages": [{"role": "user", "content": "你好"}],
"temperature": 0,
"max_tokens": 128
}'curl -sf http://127.0.0.1:8000/v1/models| 指标 | 数值 |
|---|---|
| 权重加载显存 | ~14.2 GB |
| KV Cache 可用 | ~39.85 GiB |
| 最大并发(4096 tokens) | ~182 请求 |
| 编译预热时间 | ~36 秒 |
如遇启动或推理失败,按以下顺序排查:
--enforce-eager:隔离 graph-capture vs operator 问题HCCL_OP_EXPANSION_MODE=AIV 是否设置(提升通信性能)