PP-LCNet_x1_0_doc_ori

简介

文档图像方向分类模块主要用于判别文档图像的方向，并通过后处理进行校正。在文档扫描或证件照拍摄等过程中，为获取更清晰的图像，设备可能会发生旋转，导致图像呈现多种方向。标准的OCR流水线可能无法有效处理这类图像。借助图像分类技术，可以预先判断包含文本区域的文档或证件的方向并进行调整，从而提高OCR处理的准确率。关键的准确率指标如下：

模型	识别平均准确率(%)	模型存储大小(M)	说明
PP-LCNet_x1_0_doc_ori	99.06	7	基于PP-LCNet_x1_0的文档图像分类模型，包含0°、90°、180°、270°四个类别。

模型使用

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModelForImageClassification

model_path = "PaddlePaddle/PP-LCNet_x1_0_doc_ori_safetensors"
model = AutoModelForImageClassification.from_pretrained(model_path, device_map="auto")
image_processor = AutoImageProcessor.from_pretrained(model_path)

image = Image.open(requests.get("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/img_rot180_demo.jpg", stream=True).raw)
inputs = image_processor(images=image, return_tensors="pt").to(model.device)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

PP-LCNet_x1_0_doc_ori

简介

模型	识别平均准确率(%)	模型存储大小(M)	说明
PP-LCNet_x1_0_doc_ori	99.06	7	基于PP-LCNet_x1_0的文档图像分类模型，包含0°、90°、180°、270°四个类别。

模型使用

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModelForImageClassification

model_path = "PaddlePaddle/PP-LCNet_x1_0_doc_ori_safetensors"
model = AutoModelForImageClassification.from_pretrained(model_path, device_map="auto")
image_processor = AutoImageProcessor.from_pretrained(model_path)

image = Image.open(requests.get("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/img_rot180_demo.jpg", stream=True).raw)
inputs = image_processor(images=image, return_tensors="pt").to(model.device)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(-1).item()
print(model.config.id2label[predicted_label])