本文档记录 microsoft/phi-1_5(1.3B)在 vLLM-Ascend 0.18.0rc1 环境的快速部署与验证结果。
Phi-1.5 是 Phi-1 的通用文本生成版本,使用相同的 1.3B 参数 Transformer 架构,但在多样化的自然语言和代码数据上继续训练。
相关获取地址:
| 组件 | 版本 |
|---|---|
vllm-ascend | 0.18.0rc1 |
vllm | 0.18.0+empty |
transformers | 4.57.6 |
torch-npu | 2.9.0.post1+gitee7ba04 |
1 张 Ascend910B4/opt/atomgit/.cache/modelscope/hub/models/microsoft/phi-1_58001| 属性 | 值 |
|---|---|
| 参数量 | 1.3B |
| 层数 | 24 |
| 隐藏维度 | 2048 |
| 注意力头 | 32 (MHA) |
| 最大序列长度 | 2048 |
| 词表大小 | 51200 |
| 精度 | float16 |
启动前可先检查端口:
ss -lntp | grep ':8001 ' || true已验证通过的启动命令:
export ASCEND_RT_VISIBLE_DEVICES=0
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export TASK_QUEUE_ENABLE=1
vllm serve /opt/atomgit/.cache/modelscope/hub/models/microsoft/phi-1_5 \
--host 0.0.0.0 \
--port 8001 \
--tensor-parallel-size 1 \
--seed 42 \
--served-model-name phi-1_5 \
--max-num-seqs 64 \
--max-model-len 2048 \
--trust-remote-code \
--gpu-memory-utilization 0.90 \
--dtype float16 \
--no-enable-prefix-caching基础检查:
curl -sf http://127.0.0.1:8001/v1/models
curl -sf http://127.0.0.1:8001/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "phi-1_5",
"prompt": "Explain AI in simple terms:",
"max_tokens": 64,
"temperature": 0.0
}'验证结果:
/v1/models 返回 200/v1/completions 返回 200测试条件:基于 torch_npu + transformers 直接推理,输入 9 tokens / 输出 64 tokens,连续 2 次取平均。
| 指标 | 数值 |
|---|---|
throughput | 26.7 tok/s |
latency (64 tok) | 2.40 s |
latency (128 tok) | 4.79 s |
NPU 峰值内存 | 2.71 GiB |
| 输入长度 | 输出长度 | 吞吐量 (tok/s) | 延迟 (s) |
|---|---|---|---|
| 9 | 32 | 26.5 | 1.21 |
| 9 | 64 | 26.7 | 2.40 |
| 9 | 128 | 26.7 | 4.79 |
| 140 | 128 | 26.2 | 4.88 |
使用 check_accuracy.py 对 NPU 和 CPU 做逐 token logits 对比,覆盖 5 个测试 prompt。
| 指标 | 数值 | 阈值 | 状态 |
|---|---|---|---|
| Top-1 准确率 | 100.00% | >= 99% | PASS |
| 平均余弦相似度 | 0.999996 | >= 0.99 | PASS |
| 平均 KL 散度 | 0.000008 | < 0.01 | PASS |
| 最大 logit 差 | ~0.015 | - | - |
Phi-1.5 的 float16 权重在 NPU 与 CPU 之间的一致性优异。Top-1 预测完全一致,余弦相似度接近 1.0。微小 logit 差异来自 float16 混合精度推理的固有误差。