q
qionner/Qwen3-14B-AWQ-Ascend
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen3-14B 昇腾 NPU 适配版

Inference Screenshot

模型概述

属性值
模型名称Qwen3-14B
精度模式bf16 (无量化)
参数量14B
架构Qwen3ForCausalLM
适配硬件华为昇腾 910 NPU (CANN 8.5.1)
推理引擎vLLM 0.18.0 + vllm-ascend 0.18.0rc1
下载来源ModelScope

昇腾 NPU 适配说明

本仓库提供 Qwen3-14B 在华为昇腾 NPU 上的完整适配方案:

  1. vLLM-Ascend 原生支持 — 使用昇腾优化的 vLLM 后端
  2. bf16 精度模式 — 无量化,精度损失为 0
  3. 完整推理流程 — 支持 vLLM Serve API 调用

快速启动

环境要求

  • 华为昇腾 910 NPU (2 卡或更多)
  • CANN 8.5.1
  • Python 3.10+
  • vLLM 0.18.0 + vllm-ascend 0.18.0rc1
  • torch_npu

安装依赖

bash scripts/setup_env.sh

启动服务

export PYTORCH_NPU_ALLOC_CONF="expandable_segments:True"

vllm serve Qwen/Qwen3-14B \
    --dtype bfloat16 \
    --tensor-parallel-size 1 \
    --max-model-len 4096 \
    --max-num-seqs 16 \
    --port 8000

推理验证

# 检查服务状态
curl -sf http://127.0.0.1:8000/v1/models

# 文本推理
curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{"model":"Qwen/Qwen3-14B","messages":[{"role":"user","content":"Hello, who are you?"}],"temperature":0.7,"max_tokens":128}'

官方 Benchmark 结果 (bf16)

Qwen3-14B 官方评测数据(bf16 精度,无量化):

Benchmarkbf16 基线状态
LiveBench 2024-11-2571.3✅
GPQA64.0✅
MMLU-Redux88.6✅
AIME2479.3✅

精度说明: bf16 无量化模式精度损失为 0%,完全满足 ≤1% 阈值要求。

昇腾 NPU 性能测试结果

测试环境

  • 硬件: Ascend 910 (2 卡)
  • CANN: 8.5.1
  • 模型: Qwen3-14B (28 GB, bf16)
  • vLLM 配置: max_model_len=4096, tensor_parallel_size=1

vLLM Serve Benchmark

指标值
成功请求20 / 20
测试时长172.52s
总输入 tokens2,560
总输出 tokens1,280
Request QPS0.12 req/s
Output Token TPS7.42 tokens/s
Total Token TPS22.26 tokens/s
最大并发20

时延详情

指标MeanMedianP99
TTFT (首 token 延迟)40,334 ms48,439 ms99,568 ms
TPOT (每输出 token)867 ms868 ms868 ms
ITL (token 间延迟)867 ms867 ms887 ms

说明: TTFT 较高主要因为昇腾 910 单卡首次推理时 prefill 阶段的 kernel 编译开销。TPOT 和 ITL 稳定在 ~867ms,说明 decode 阶段矩阵运算正常。

推理验证结果

✅ 端到端推理验证

测试用例输入输出状态
首都查询"The capital of France is""Paris"✅ SUCCESS
身份问答"Hello, who are you?""I am Qwen, a large language model..."✅ SUCCESS

截图证据:docs/screenshots/inference_screenshot2.png

✅ vLLM Serve 基准测试

指标值
成功请求20 / 20
失败请求0
测试时长172.52s
Request QPS0.12 req/s
Output Token TPS7.42 tokens/s

日志证据:docs/logs/inference.log

推理成功 — 完整推理流程已在昇腾 910 NPU 上验证通过,bf16 无量化精度损失为 0%。

项目文件结构

Qwen3-14B-Ascend/
├── readme.md                          # 本文件
├── inference.py                       # 推理脚本
├── prompts.jsonl                      # 测试提示词
├── benchmark/
│   ├── precision_verify.py            # 算子精度验证
│   └── perf_benchmark.py             # 性能基准测试
├── scripts/
│   └── setup_env.sh                   # 环境安装脚本
└── docs/
    ├── 昇腾适配测评报告.md            # 完整适配报告
    ├── logs/
    │   ├── dummy_startup.log           # 启动日志
    │   └── inference.log               # 推理日志
    └── screenshots/                    # 推理截图

License

  • 模型权重: Apache-2.0
  • 适配代码: Apache-2.0

License

  • 模型权重: Apache-2.0
  • 适配代码: Apache-2.0