一、背景与模型介绍

PaddleOCR-VL 是一款专注文档解析的专家型视觉语言模型（VLM），由飞桨 NaViT 动态视觉编码器与 ERNIE-4.5 语言模型组成的原生多模态架构驱动。其设计极致轻量，核心版本仅 0.9B 参数，在 OmniDocBench 等业界权威基准测试中取得文档解析与元素识别的 SOTA 指标，性能超越多款千亿参数大模型。该模型在 109 种语言的复杂文档解析方面展现出卓越能力，并在文本 / 表格 / 公式 / 图表识别、古籍数字化、金融报表提取、跨语言信息检索等实际应用中表现出色，同时具备推理速度快、资源消耗低的优势。

二、资源列表

A2开箱环境信息：

配置项	版本/规格
驱动版本	25.2.0
CANN 版本	8.3.RC1
torch 版本	2.8.0
torch_npu 版本	2.8.0
vllm 版本	v0.13.0
vllm-ascend 版本	v0.13.0rc1
硬件配置	单张 910B3
部署镜像	quay.io/ascend/vllm-ascend:v0.13.0rc1

三、部署实践

1. 下载权重和代码

从hf-mirror下载模型权重和代码：

git clone https://hf-mirror.com/PaddlePaddle/PaddleOCR-VL

存放在本地目录，例如：

/opt/data/usr/PaddleOCR-VL

2. 拉起镜像

docker run -itd  \
--privileged=true \
--name PaddleOCR-VL --network=host --pid=host --detach=true --shm-size=64g \
--device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2 \
--device=/dev/davinci3 --device=/dev/davinci4 --device=/dev/davinci5 \
--device=/dev/davinci6 --device=/dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/sbin:/usr/local/sbin \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-v /opt/data/usr/:/data/ \
-p $PORT:8000 \
-v /home/usr:/home/usr \
quay.io/ascend/vllm-ascend:v0.13.0rc1 /bin/bash

3. 拉起vllm-ascend推理服务

按实际情况指定使用的device id
注意：served-model-name = paddleocr-vl，后续测试时要使用该模型名称，否则会报错404

export ASCEND_RT_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server \
--model /data/PaddleOCR-VL/ \
--trust-remote-code \
--served-model-name paddleocr-vl \
--dtype bfloat16 \
--enforce-eager

4.测试服务是否正常拉起

从本机启动测试时，base_url = "http://0.0.0.0:8000/v1"
从他机启动测试时，IP地址修改为启动服务的机器的IP地址，base_url = "http://x.x.x.x:8000/v1"

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",
    base_url="http://0.0.0.0:8000/v1",
    timeout=3600
)

# Task-specific base prompts
TASKS = {
    "ocr": "OCR:",
    "table": "Table Recognition:",
    "formula": "Formula Recognition:",
    "chart": "Chart Recognition:",
}

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://ofasys-multimodal-wlcb-3-toshanghai.oss-accelerate.aliyuncs.com/wpf272043/keepme/image/receipt.png"
                }
            },
            {
                "type": "text",
                "text": TASKS["ocr"]
            }
        ]
    }
]

response = client.chat.completions.create(
    model="paddleocr-vl",
    messages=messages,
    temperature=0.0,
)
print(f"Generated text: {response.choices[0].message.content}")

例图1是一张收据 https://ofasys-multimodal-wlcb-3-toshanghai.oss-accelerate.aliyuncs.com/wpf272043/keepme/image/receipt.png
测试指定进行ocr转录任务，正常应返回：

Generated text: CINNAMON SUGAR
1 x 17,000
17,000
SUB TOTAL
17,000
GRAND TOTAL
17,000
CASH IDR
20,000
CHANGE DUE
3,000

例图2是一张营业执照 https://www.nikon.com.cn/tmp/CN/4016499630/3760176746/3248217489/3366686887.jpg
替换上述请求中的image_url，提交请求进行ocr转录任务，正常应返回：

Generated text: 统一社会信用代码
91310000717854505W
证照编号：00000002201906170086
名称 尼康映像仪器销售（中国）有限公司
类型 有限责任公司（台港澳法人独资）
法定代表人 松原徽
经营范围 受日本株式会社尼康及其所投资企业的委托，向其提供下列服务：投资经营决策、资金运作和财务管理、研究开发和技术支持、国内分销及进出口、货物分拨等物流运作、承接本公司集团内部的共享服务及境外公司的服务外包、员工培训与管理及上述相关咨询服务。光学仪器及其相关产品，日用百货、玩具、文化体育用品、文具、纺织品、家居用品、服装、鞋帽和配饰、箱包、电子产品、化妆品的批发、零售（限分支机构经营）、佣金代理（拍卖除外）、进出口、展示（仅限尼康集团产品）并提供相关配套业务及售后服务（不涉及国营贸易管理商品，涉及配额、许可证管理商品的，按国家有关规定办理申请）；上述产品的委托生产，光学仪器及其相关产品的租赁；知识产权咨询（仅限尼康集团自有知识产权）。
【依法须经批准的项目，经相关部门批准后方可开展经营活动】
市场主体应当于每年1月1日至6月30日通过国家企业信用公示系统报送公示年度报告。
2019 年 06 月 17 日
国家企业信用信息公示系统网址：http://www.gsxt.gov.cn
注册资本 美元1000.0000万
成立日期 2005年04月8日
营业期限 2005年04月8日 至 2035年04月7日
住所 上海市黄浦区蒙自路757号1201-1207室

一、背景与模型介绍

配置项

版本/规格

驱动版本

25.2.0

CANN 版本

8.3.RC1

torch 版本

2.8.0

torch_npu 版本

2.8.0

vllm 版本

v0.13.0

vllm-ascend 版本

v0.13.0rc1

硬件配置

单张 910B3

部署镜像

quay.io/ascend/vllm-ascend:v0.13.0rc1