weixin_72661020/Qwen-7B-Chat
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen-7B-Chat on vLLM-Ascend 0.18.0rc1

1. 简介

本文档记录 Qwen/Qwen-7B-Chat 在 vLLM-Ascend 0.18.0rc1 环境的快速部署与验证结果。Qwen-7B-Chat 是通义千问系列的 7B 参数对话模型,采用标准 MHA + RoPE + SwiGLU + RMSNorm 架构,vLLM 已原生支持 QWenLMHeadModel,无需额外代码修改即可在昇腾 NPU 上运行。

相关获取地址:

  • 权重下载地址(ModelScope):https://modelscope.cn/models/Qwen/Qwen-7B-Chat
  • 权重下载地址(HuggingFace):https://huggingface.co/Qwen/Qwen-7B-Chat
  • Docker Image(vLLM-Ascend 0.18.0rc1):quay.io/ascend/vllm-ascend:v0.18.0rc1

2. 验证环境

组件版本
vllm-ascend0.18.0rc1
vllm0.18.0+empty
transformers4.57.6
torch-npu2.9.0.post1+gitee7ba04
  • NPU:1 逻辑卡(Atlas 800 A2, 910B4, 32GB HBM)
  • 模型路径:/opt/atomgit/models/Qwen/Qwen-7B-Chat
  • 服务端口:8100

3. 服务启动

启动前可先检查端口:

ss -lntp | grep ':8100 ' || true

已验证通过的启动命令:

python3 -m vllm.entrypoints.openai.api_server \
  --model /opt/atomgit/models/Qwen/Qwen-7B-Chat \
  --dtype bfloat16 \
  --tensor-parallel-size 1 \
  --max-model-len 8192 \
  --max-num-seqs 8 \
  --port 8100 \
  --trust-remote-code

或使用 inference.py 脚本:

# 启动 API 服务
python3 inference.py --mode server --port 8100

# 离线推理
python3 inference.py --mode offline

# 客户端调用
python3 inference.py --mode client --prompt "你好,请介绍一下你自己。"

4. Smoke 验证

基础检查:

# 健康检查
curl -sf http://127.0.0.1:8100/v1/models

# 中文对话
curl -sf http://127.0.0.1:8100/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/opt/atomgit/models/Qwen/Qwen-7B-Chat",
    "messages": [{"role": "user", "content": "你好,请用中文介绍一下你自己"}],
    "temperature": 0.1,
    "max_tokens": 256
  }'

# 英文对话
curl -sf http://127.0.0.1:8100/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/opt/atomgit/models/Qwen/Qwen-7B-Chat",
    "messages": [{"role": "user", "content": "Hello, introduce yourself"}],
    "temperature": 0.1,
    "max_tokens": 256
  }'

验证结果:

  • /v1/models 返回 200
  • /v1/chat/completions 返回 200
  • 中文输出正确("我叫通义千问,是阿里云推出的一种超大规模语言模型...")
  • 多轮对话上下文保持正常
  • 代码生成能力可用

5. 性能参考

测试条件:单卡 NPU(910B4),max-model-len=8192,max-num-seqs=8。

指标数值
平均延迟2.67 s
平均吞吐39.2 tok/s
总体吞吐38.4 tok/s

6. 精度评测

使用关键词匹配方式对 5 项基础能力进行评测。

测试项问题期望关键词结果
算术推理What is 2 + 2?4PASS
知识问答What is the capital of France?ParisPASS
中文知识中国的首都是哪里?北京PASS
翻译能力Translate 'hello' to Chinese.你好PASS
代码生成Write a Python factorial functiondef, factorialPASS

精度评测结果:5/5 通过(100%)

7. 注意事项

  • Qwen-7B-Chat 使用 QWenLMHeadModel 架构,vLLM 已原生支持,无需修改模型代码
  • 模型权重从 ModelScope 下载,确保网络连接正常
  • use_logn_attn 特性在 vLLM 实现中未使用,不影响推理精度
  • 单卡部署时 tensor-parallel-size=1,如需多卡可调整为 2 或 4
  • 建议设置 --max-model-len 8192 以适配 32GB HBM 显存