PaddleOCR-VL 是一款专注文档解析的专家型视觉语言模型(VLM),由飞桨 NaViT 动态视觉编码器与 ERNIE-4.5 语言模型组成的原生多模态架构驱动。其设计极致轻量,核心版本仅 0.9B 参数,在 OmniDocBench 等业界权威基准测试中取得文档解析与元素识别的 SOTA 指标,性能超越多款千亿参数大模型。该模型在 109 种语言的复杂文档解析方面展现出卓越能力,并在文本 / 表格 / 公式 / 图表识别、古籍数字化、金融报表提取、跨语言信息检索等实际应用中表现出色,同时具备推理速度快、资源消耗低的优势。
A2开箱环境信息:
| 配置项 | 版本/规格 |
|---|---|
| 驱动版本 | 25.2.0 |
| CANN 版本 | 8.3.RC1 |
| torch 版本 | 2.8.0 |
| torch_npu 版本 | 2.8.0 |
| vllm 版本 | v0.13.0 |
| vllm-ascend 版本 | v0.13.0rc1 |
| 硬件配置 | 单张 910B3 |
| 部署镜像 | quay.io/ascend/vllm-ascend:v0.13.0rc1 |
从hf-mirror下载模型权重和代码:
git clone https://hf-mirror.com/PaddlePaddle/PaddleOCR-VL存放在本地目录,例如:
/opt/data/usr/PaddleOCR-VLdocker run -itd \
--privileged=true \
--name PaddleOCR-VL --network=host --pid=host --detach=true --shm-size=64g \
--device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2 \
--device=/dev/davinci3 --device=/dev/davinci4 --device=/dev/davinci5 \
--device=/dev/davinci6 --device=/dev/davinci7 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/sbin:/usr/local/sbin \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-v /opt/data/usr/:/data/ \
-p $PORT:8000 \
-v /home/usr:/home/usr \
quay.io/ascend/vllm-ascend:v0.13.0rc1 /bin/bash按实际情况指定使用的device id
注意:served-model-name = paddleocr-vl,后续测试时要使用该模型名称,否则会报错404
export ASCEND_RT_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server \
--model /data/PaddleOCR-VL/ \
--trust-remote-code \
--served-model-name paddleocr-vl \
--dtype bfloat16 \
--enforce-eager从本机启动测试时,base_url = "http://0.0.0.0:8000/v1"
从他机启动测试时,IP地址修改为启动服务的机器的IP地址,base_url = "http://x.x.x.x:8000/v1"
from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://0.0.0.0:8000/v1",
timeout=3600
)
# Task-specific base prompts
TASKS = {
"ocr": "OCR:",
"table": "Table Recognition:",
"formula": "Formula Recognition:",
"chart": "Chart Recognition:",
}
messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://ofasys-multimodal-wlcb-3-toshanghai.oss-accelerate.aliyuncs.com/wpf272043/keepme/image/receipt.png"
}
},
{
"type": "text",
"text": TASKS["ocr"]
}
]
}
]
response = client.chat.completions.create(
model="paddleocr-vl",
messages=messages,
temperature=0.0,
)
print(f"Generated text: {response.choices[0].message.content}")例图1是一张收据 https://ofasys-multimodal-wlcb-3-toshanghai.oss-accelerate.aliyuncs.com/wpf272043/keepme/image/receipt.png
测试指定进行ocr转录任务,正常应返回:
Generated text: CINNAMON SUGAR
1 x 17,000
17,000
SUB TOTAL
17,000
GRAND TOTAL
17,000
CASH IDR
20,000
CHANGE DUE
3,000例图2是一张营业执照 https://www.nikon.com.cn/tmp/CN/4016499630/3760176746/3248217489/3366686887.jpg
替换上述请求中的image_url,提交请求进行ocr转录任务,正常应返回:
Generated text: 统一社会信用代码
91310000717854505W
证照编号:00000002201906170086
名称 尼康映像仪器销售(中国)有限公司
类型 有限责任公司(台港澳法人独资)
法定代表人 松原徽
经营范围 受日本株式会社尼康及其所投资企业的委托,向其提供下列服务:投资经营决策、资金运作和财务管理、研究开发和技术支持、国内分销及进出口、货物分拨等物流运作、承接本公司集团内部的共享服务及境外公司的服务外包、员工培训与管理及上述相关咨询服务。光学仪器及其相关产品,日用百货、玩具、文化体育用品、文具、纺织品、家居用品、服装、鞋帽和配饰、箱包、电子产品、化妆品的批发、零售(限分支机构经营)、佣金代理(拍卖除外)、进出口、展示(仅限尼康集团产品)并提供相关配套业务及售后服务(不涉及国营贸易管理商品,涉及配额、许可证管理商品的,按国家有关规定办理申请);上述产品的委托生产,光学仪器及其相关产品的租赁;知识产权咨询(仅限尼康集团自有知识产权)。
【依法须经批准的项目,经相关部门批准后方可开展经营活动】
市场主体应当于每年1月1日至6月30日通过国家企业信用公示系统报送公示年度报告。
2019 年 06 月 17 日
国家企业信用信息公示系统网址:http://www.gsxt.gov.cn
注册资本 美元1000.0000万
成立日期 2005年04月8日
营业期限 2005年04月8日 至 2035年04月7日
住所 上海市黄浦区蒙自路757号1201-1207室