飞桨PaddlePaddle/PaddleOCR-VL
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

PaddleOCR-VL: 基于0.9B超紧凑型视觉语言模型提升多语言文档解析性能

repo HuggingFace ModelScope HuggingFace ModelScope Discord X License

🔥 官方演示: 百度AI Studio | 📝 arXiv: 技术报告

简介

PaddleOCR-VL 是一款顶尖且资源高效的文档解析专用模型。其核心组件为 PaddleOCR-VL-0.9B,这是一款精简却功能强大的视觉语言模型(VLM),它融合了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可实现精准的元素识别。这款创新模型能高效支持 109 种语言,并擅长识别复杂元素(如文本、表格、公式和图表),同时保持极低的资源消耗。通过在广泛使用的公开基准数据集和内部基准数据集上进行全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均达到了顶尖性能。它显著优于现有解决方案,与顶级视觉语言模型相比也展现出强大的竞争力,并且推理速度快。这些优势使其非常适合在实际场景中进行部署应用。

核心特性

  1. 精简高效的视觉语言模型架构:我们提出了一种专为资源高效推理设计的新型视觉语言模型,在元素识别方面实现了卓越性能。通过将 NaViT 风格的动态高分辨率视觉编码器与轻量级 ERNIE-4.5-0.3B 语言模型相结合,我们显著提升了模型的识别能力和解码效率。这种融合在保持高精度的同时降低了计算需求,使其非常适合高效且实用的文档处理应用。

  2. 文档解析领域的顶尖性能:PaddleOCR-VL 在页面级文档解析和元素级识别方面均达到了 state-of-the-art 性能。它显著优于现有的基于流水线的解决方案,并且在文档解析任务上与领先的视觉语言模型(VLM)相比也表现出强大的竞争力。此外,它在识别复杂文档元素(如文本、表格、公式和图表)方面表现出色,适用于包括手写文本和历史文档在内的各种具有挑战性的内容类型。这使其具有高度的通用性,适用于广泛的文档类型和场景。

  3. 多语言支持:PaddleOCR-VL 支持 109 种语言,涵盖全球主要语言,包括但不限于中文、英文、日文、拉丁文、韩文,以及具有不同文字系统和结构的语言,如俄语(西里尔字母)、阿拉伯语、印地语(天城文)和泰语。这种广泛的语言覆盖极大地增强了我们的系统在多语言和全球化文档处理场景中的适用性。

模型架构

最新动态

  • 2025.10.16 🚀 我们发布了 PaddleOCR-VL——这是一款基于 0.9B 超紧凑视觉语言模型的多语言文档解析工具,具备 state-of-the-art(SOTA)性能。

使用方法

安装依赖

安装 PaddlePaddle 和 PaddleOCR:

python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
python -m pip install -U "paddleocr[doc-parser]"
python -m pip install https://paddle-whl.bj.bcebos.com/nightly/cu126/safetensors/safetensors-0.6.2.dev0-cp38-abi3-linux_x86_64.whl

Windows 用户请使用 WSL 或 Docker 容器。

基本使用方法

命令行界面使用方法:

paddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png

Python API 使用方法:

from paddleocr import PaddleOCRVL
pipeline = PaddleOCRVL()
output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png")
for res in output:
    res.print()
    res.save_to_json(save_path="output")
    res.save_to_markdown(save_path="output")

通过优化的推理服务器加速VLM推理

  1. 启动VLM推理服务器(默认端口为8080):

    docker run \
        --rm \
        --gpus all \
        --network host \
        ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server
  2. 调用PaddleOCR命令行工具或Python API:

    paddleocr doc_parser \
        -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png \
        --vl_rec_backend vllm-server \
        --vl_rec_server_url http://127.0.0.1:8080/v1
    from paddleocr import PaddleOCRVL
    pipeline = PaddleOCRVL(vl_rec_backend="vllm-server", vl_rec_server_url="http://127.0.0.1:8080/v1")
    output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png")
    for res in output:
        res.print()
        res.save_to_json(save_path="output")
        res.save_to_markdown(save_path="output")

有关更多使用详情和参数说明,请参见文档。

性能

页面级文档解析

1. OmniDocBench v1.5

PaddleOCR-VL在OmniDocBench v1.5的整体、文本、公式、表格及阅读顺序任务上均取得了SOTA性能

2. OmniDocBench v1.0

PaddleOCR-VL在OmniDocBench v1.0的整体、文本、公式、表格及阅读顺序任务的几乎所有指标上均取得了SOTA性能

注意:

  • 上述指标来源于MinerU、OmniDocBench以及我们的内部评估。

元素级识别

1. 文本

OmniDocBench-OCR-block 性能对比

PaddleOCR-VL 在处理多种文档类型方面展现出强大且通用的能力,使其成为 OmniDocBench-OCR-block 性能评估中的领先方法。

In-house-OCR 性能对比

In-house-OCR 提供了跨多种语言和文本类型的性能评估。我们的模型在所有评估文字类型中均表现出卓越的准确率,且编辑距离最低。

2. 表格

In-house-Table 性能对比

我们自建的评估集包含多种类型的表格图像,如中文、英文、中英文混合表格,以及具有各种特征的表格,例如全边框、部分边框、无边框、书籍/手册格式、列表、学术论文、合并单元格,以及低质量、带水印等表格。PaddleOCR-VL 在所有类别中均实现了卓越的性能。

3. 公式

In-house-Formula 性能对比

In-house-Formula 评估集包含简单印刷体、复杂印刷体、相机扫描体和手写公式。PaddleOCR-VL 在每个类别中均表现出最佳性能。

4. 图表

In-house-Chart 性能对比

该评估集大致分为 11 个图表类别,包括条形-折线混合图、饼图、100%堆积条形图、面积图、条形图、气泡图、直方图、折线图、散点图、堆积面积图和堆积条形图。PaddleOCR-VL 不仅优于专业的 OCR VLMs,还超越了部分 72B 级别的多模态语言模型。

可视化

全面文档解析

文本

表格

公式

图表

致谢

感谢 ERNIE、Keye、MinerU、OmniDocBench 提供的宝贵代码、模型权重与基准测试。同时也感谢所有为这个开源项目做出贡献的人!

引用

如果您觉得 PaddleOCR-VL 对您有帮助,欢迎给我们点赞并引用。

@misc{cui2025paddleocrvlboostingmultilingualdocument,
      title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, 
      author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma},
      year={2025},
      eprint={2510.14528},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2510.14528}, 
}