飞桨PaddlePaddle/PP-LCNet_x1_0_doc_ori_safetensors
模型介绍文件和版本Pull Requests讨论分析

PP-LCNet_x1_0_doc_ori

简介

文档图像方向分类模块主要用于判别文档图像的方向,并通过后处理进行校正。在文档扫描或证件照拍摄等过程中,为获取更清晰的图像,设备可能会发生旋转,导致图像呈现多种方向。标准的OCR流水线可能无法有效处理这类图像。借助图像分类技术,可以预先判断包含文本区域的文档或证件的方向并进行调整,从而提高OCR处理的准确率。关键的准确率指标如下:

模型识别平均准确率(%)模型存储大小(M)说明
PP-LCNet_x1_0_doc_ori99.067基于PP-LCNet_x1_0的文档图像分类模型,包含0°、90°、180°、270°四个类别。

模型使用

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModelForImageClassification

model_path = "PaddlePaddle/PP-LCNet_x1_0_doc_ori_safetensors"
model = AutoModelForImageClassification.from_pretrained(model_path, device_map="auto")
image_processor = AutoImageProcessor.from_pretrained(model_path)

image = Image.open(requests.get("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/img_rot180_demo.jpg", stream=True).raw)
inputs = image_processor(images=image, return_tensors="pt").to(model.device)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(-1).item()
print(model.config.id2label[predicted_label])
下载使用量0