Qwen2.5-7B-Instruct 昇腾 NPU 适配报告

模型来源：HuggingFace - Qwen/Qwen2.5-7B-Instruct 适配时间：2026-05-16 适配工具：vLLM-Ascend 0.18.0

模型信息

属性	值
模型架构	`Qwen2ForCausalLM`
模型类型	qwen2
参数量	7B
隐藏层维度	3584
注意力头数	28
KV 头数	4 (GQA)
层数	28
词表大小	152064
上下文长度	131072
数据类型	bfloat16
许可证	apache-2.0

适配结论

✅ 完全兼容，无需代码修改

Qwen2.5-7B-Instruct 使用 Qwen2ForCausalLM 架构，该架构已在 vLLM 0.18.0 中原生支持。通过 dummy 权重验证，模型可在昇腾 NPU 上正常加载、编译和推理。

验证结果

验证项	结果
架构识别	✅ `Qwen2ForCausalLM`
Dummy 权重加载	✅ 成功
ACL Graph 编译	✅ 成功
推理执行	✅ 成功
算子兼容性	✅ 无 CUDA-only 算子

环境信息

组件	版本
vLLM	0.18.0
torch_npu	CANN 8.5.1
NPU 设备	Ascend910 × 2

部署指南

单卡启动

export HF_ENDPOINT=https://hf-mirror.com
vllm serve Qwen/Qwen2.5-7B-Instruct \
  --dtype bfloat16 \
  --max-model-len 131072 \
  --tensor-parallel-size 1 \
  --port 8000

双卡启动（Tensor Parallel）

export HF_ENDPOINT=https://hf-mirror.com
vllm serve Qwen/Qwen2.5-7B-Instruct \
  --dtype bfloat16 \
  --max-model-len 131072 \
  --tensor-parallel-size 2 \
  --port 8000

推理验证

curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "Qwen/Qwen2.5-7B-Instruct",
    "messages": [{"role": "user", "content": "你好"}],
    "temperature": 0,
    "max_tokens": 128
  }'

模型列表查询

curl -sf http://127.0.0.1:8000/v1/models

资源占用（Dummy 验证）

指标	数值
权重加载显存	~14.2 GB
KV Cache 可用	~39.85 GiB
最大并发（4096 tokens）	~182 请求
编译预热时间	~36 秒

故障排查

如遇启动或推理失败，按以下顺序排查：

--enforce-eager：隔离 graph-capture vs operator 问题
检查 HCCL_OP_EXPANSION_MODE=AIV 是否设置（提升通信性能）
检查 NPU 驱动和 CANN 版本兼容性

相关链接

属性

值

模型架构

Qwen2ForCausalLM

模型类型

qwen2

参数量

隐藏层维度

3584

注意力头数

KV 头数

4 (GQA)

层数

词表大小

152064

上下文长度

131072

数据类型

bfloat16

许可证

apache-2.0

验证项

结果

架构识别

✅ Qwen2ForCausalLM

Dummy 权重加载

✅ 成功

ACL Graph 编译

✅ 成功

推理执行

✅ 成功

算子兼容性

✅ 无 CUDA-only 算子

组件

版本

vLLM

0.18.0

torch_npu

CANN 8.5.1

NPU 设备

Ascend910 × 2

部署指南

单卡启动

export HF_ENDPOINT=https://hf-mirror.com
vllm serve Qwen/Qwen2.5-7B-Instruct \
  --dtype bfloat16 \
  --max-model-len 131072 \
  --tensor-parallel-size 1 \
  --port 8000

双卡启动（Tensor Parallel）

export HF_ENDPOINT=https://hf-mirror.com
vllm serve Qwen/Qwen2.5-7B-Instruct \
  --dtype bfloat16 \
  --max-model-len 131072 \
  --tensor-parallel-size 2 \
  --port 8000

推理验证

curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "Qwen/Qwen2.5-7B-Instruct",
    "messages": [{"role": "user", "content": "你好"}],
    "temperature": 0,
    "max_tokens": 128
  }'

模型列表查询

curl -sf http://127.0.0.1:8000/v1/models

指标

数值

权重加载显存

~14.2 GB

KV Cache 可用

~39.85 GiB

最大并发（4096 tokens）

~182 请求

编译预热时间

~36 秒