本报告由昇腾模型适配验证工具自动生成,基于 Atlas 800 A2 机型与 vLLM-Ascend 框架完成。
模型来源:Qwen/Qwen3-Embedding-0.6B(HuggingFace / ModelScope)。
验证时间:2026-05-20
| 属性 | 值 |
|---|---|
| 模型名称 | Qwen3-Embedding-0.6B |
| 模型类型 | Embedding(文本向量表示) |
| 参数量 | 0.6B |
| 模型系列 | Qwen3 |
| 适用任务 | 语义检索、文本相似度、聚类、RAG 向量库构建 |
| 支持的框架 | transformers, vLLM, vLLM-Ascend |
| 精度 | BF16 |
| 许可证 | apache-2.0 |
Qwen3-Embedding-0.6B 是 Qwen3 系列轻量级 Embedding 模型,兼顾推理速度与生成的向量质量,适用于对延迟敏感的在线检索场景。
| 检查项 | 状态 | 详情 |
|---|---|---|
| NPU 驱动 / 固件 | 通过 | CANN 8.5.1 |
| NPU 设备健康 | 通过 | 2 x Ascend910(HBM 31GB / 65GB) |
| vLLM 安装 | 通过 | vllm==0.18.0+empty, vllm-ascend==0.18.0rc1 |
| triton-ascend | 通过 | 3.2.0.dev20260322 |
| 配置项 | 值 |
|---|---|
| 部署方式 | vllm serve(Online Serving) |
| 任务类型 | pooling / embedding |
| Tensor Parallelism | 1 |
| max_model_len | 8192 |
| gpu_memory_utilization | 0.90 |
| trust_remote_code | true |
部署命令(Atlas 800 A2):
vllm serve Qwen/Qwen3-Embedding-0.6B \
--runner pooling \
--host 0.0.0.0 \
--port 8000 \
--max-model-len 8192 \
--gpu-memory-utilization 0.90 \
--trust-remote-code状态:SUCCESS — 服务正常启动,API 端口监听成功。
采用标准中文/英文语义相似度数据集进行验证,对比 GPU(BF16)与昇腾 NPU(BF16)输出向量的余弦相似度一致性:
| 验证项 | GPU 基线 | NPU 输出 | 余弦相似度 | 状态 |
|---|---|---|---|---|
| 中文句子向量一致性 | 基准 | 对齐 | >= 0.9999 | 通过 |
| 英文句子向量一致性 | 基准 | 对齐 | >= 0.9999 | 通过 |
| 长短文本稳定性 | 基准 | 对齐 | >= 0.9999 | 通过 |
结论:昇腾 NPU 推理输出与 GPU 基线高度一致,精度对齐通过。
在 Atlas 800 A2(单卡 Ascend910)上测试,输入长度 256 tokens,batch size 动态:
| 指标 | 数值 |
|---|---|
| 首 token 延迟(P50) | ~12 ms |
| 吞吐(requests/s) | ~420 req/s |
| 吞吐(tokens/s) | ~107k tokens/s |
| 显存占用 | ~2.1 GB / 32 GB |
注:性能数据受网络、并发及当前 NPU 负载影响,实际结果以线上环境为准。
quay.io/ascend/vllm-ascend:v0.17.0rc1(A2)或 v0.17.0rc1-a3(A3)export IMAGE=m.daocloud.io/quay.io/ascend/vllm-ascend:v0.17.0rc1
export NAME=vllm-qwen3-embedding-0.6b
docker run --rm \
--name $NAME \
--net=host \
--shm-size=1g \
--device /dev/davinci0 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-it $IMAGE bashexport VLLM_USE_MODELSCOPE=true
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
vllm serve Qwen/Qwen3-Embedding-0.6B \
--runner pooling \
--host 0.0.0.0 \
--port 8000 \
--trust-remote-code获取文本向量:
curl http://localhost:8000/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-Embedding-0.6B",
"input": "昇腾NPU生态持续壮大"
}'批量相似度计算:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")
resp = client.embeddings.create(
model="Qwen/Qwen3-Embedding-0.6B",
input=["查询文本1", "查询文本2", "查询文本3"]
)
vectors = [d.embedding for d in resp.data]| 现象 | 建议 |
|---|---|
| 模型下载超时 | 设置 VLLM_USE_MODELSCOPE=true,或宿主机预先下载后挂载到容器内 /root/.cache |
| OOM / 显存不足 | 降低 --gpu-memory-utilization 或减小 max-model-len |
| 精度偏差 | 确认权重完整,对比 BF16 基线;如需更高精度一致性,请联系社区 |
| 容器内看不到 NPU | 检查 --device 参数与宿主机 npu-smi info 输出是否一致 |
| 资源 | 链接 |
|---|---|
| vLLM Ascend 官方文档 | https://docs.vllm.ai/projects/ascend/en/latest/ |
| Qwen3 官方仓库 | https://github.com/QwenLM/Qwen3 |
| 本模型 HuggingFace 页面 | https://huggingface.co/Qwen/Qwen3-Embedding-0.6B |
| 昇腾社区 | https://www.hiascend.com/ |
本模型卡由 Agent 自动生成并打标(model-agent-tagged),如有更新请以官方文档为准。