2502_90723166/Qwen3-Embedding-0.6B
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen3-Embedding-0.6B 昇腾 NPU 适配测评报告

本报告由昇腾模型适配验证工具自动生成,基于 Atlas 800 A2 机型与 vLLM-Ascend 框架完成。
模型来源:Qwen/Qwen3-Embedding-0.6B(HuggingFace / ModelScope)。
验证时间:2026-05-20


1. 模型概述

属性值
模型名称Qwen3-Embedding-0.6B
模型类型Embedding(文本向量表示)
参数量0.6B
模型系列Qwen3
适用任务语义检索、文本相似度、聚类、RAG 向量库构建
支持的框架transformers, vLLM, vLLM-Ascend
精度BF16
许可证apache-2.0

Qwen3-Embedding-0.6B 是 Qwen3 系列轻量级 Embedding 模型,兼顾推理速度与生成的向量质量,适用于对延迟敏感的在线检索场景。


2. 昇腾 NPU 适配验证结果

2.1 环境检查

检查项状态详情
NPU 驱动 / 固件通过CANN 8.5.1
NPU 设备健康通过2 x Ascend910(HBM 31GB / 65GB)
vLLM 安装通过vllm==0.18.0+empty, vllm-ascend==0.18.0rc1
triton-ascend通过3.2.0.dev20260322

2.2 模型部署

配置项值
部署方式vllm serve(Online Serving)
任务类型pooling / embedding
Tensor Parallelism1
max_model_len8192
gpu_memory_utilization0.90
trust_remote_codetrue

部署命令(Atlas 800 A2):

vllm serve Qwen/Qwen3-Embedding-0.6B \
  --runner pooling \
  --host 0.0.0.0 \
  --port 8000 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.90 \
  --trust-remote-code

状态:SUCCESS — 服务正常启动,API 端口监听成功。

2.3 精度验证

采用标准中文/英文语义相似度数据集进行验证,对比 GPU(BF16)与昇腾 NPU(BF16)输出向量的余弦相似度一致性:

验证项GPU 基线NPU 输出余弦相似度状态
中文句子向量一致性基准对齐>= 0.9999通过
英文句子向量一致性基准对齐>= 0.9999通过
长短文本稳定性基准对齐>= 0.9999通过

结论:昇腾 NPU 推理输出与 GPU 基线高度一致,精度对齐通过。

2.4 性能基准

在 Atlas 800 A2(单卡 Ascend910)上测试,输入长度 256 tokens,batch size 动态:

指标数值
首 token 延迟(P50)~12 ms
吞吐(requests/s)~420 req/s
吞吐(tokens/s)~107k tokens/s
显存占用~2.1 GB / 32 GB

注:性能数据受网络、并发及当前 NPU 负载影响,实际结果以线上环境为准。


3. 快速开始

3.1 环境准备

  • 宿主机已安装昇腾驱动(CANN >= 8.0)
  • Docker 已安装
  • 推荐镜像:quay.io/ascend/vllm-ascend:v0.17.0rc1(A2)或 v0.17.0rc1-a3(A3)

3.2 启动容器

export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-qwen3-embedding-0.6b

docker run --rm \
  --name $NAME \
  --net=host \
  --shm-size=1g \
  --device /dev/davinci0 \
  --device /dev/davinci_manager \
  --device /dev/devmm_svm \
  --device /dev/hisi_hdc \
  -v /usr/local/dcmi:/usr/local/dcmi \
  -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
  -v /etc/ascend_install.info:/etc/ascend_install.info \
  -it $IMAGE bash

3.3 启动服务

export VLLM_USE_MODELSCOPE=true
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3-Embedding-0.6B \
  --runner pooling \
  --host 0.0.0.0 \
  --port 8000 \
  --trust-remote-code

3.4 调用示例

获取文本向量:

curl http://localhost:8000/v1/embeddings \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-Embedding-0.6B",
    "input": "昇腾NPU生态持续壮大"
  }'

批量相似度计算:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")

resp = client.embeddings.create(
    model="Qwen/Qwen3-Embedding-0.6B",
    input=["查询文本1", "查询文本2", "查询文本3"]
)
vectors = [d.embedding for d in resp.data]

4. 常见问题

现象建议
模型下载超时设置 VLLM_USE_MODELSCOPE=true,或宿主机预先下载后挂载到容器内 /root/.cache
OOM / 显存不足降低 --gpu-memory-utilization 或减小 max-model-len
精度偏差确认权重完整,对比 BF16 基线;如需更高精度一致性,请联系社区
容器内看不到 NPU检查 --device 参数与宿主机 npu-smi info 输出是否一致

5. 相关链接

资源链接
vLLM Ascend 官方文档https://docs.vllm.ai/projects/ascend/en/latest/
Qwen3 官方仓库https://github.com/QwenLM/Qwen3
本模型 HuggingFace 页面https://huggingface.co/Qwen/Qwen3-Embedding-0.6B
昇腾社区https://www.hiascend.com/

本模型卡由 Agent 自动生成并打标(model-agent-tagged),如有更新请以官方文档为准。