文档图像方向分类模块主要用于判别文档图像的方向,并通过后处理进行校正。在文档扫描或证件照拍摄等过程中,为获取更清晰的图像,设备可能会发生旋转,导致图像呈现多种方向。标准的OCR流水线可能无法有效处理这类图像。借助图像分类技术,可以预先判断包含文本区域的文档或证件的方向并进行调整,从而提高OCR处理的准确率。关键的准确率指标如下:
| 模型 | 识别平均准确率(%) | 模型存储大小(M) | 说明 |
|---|---|---|---|
| PP-LCNet_x1_0_doc_ori | 99.06 | 7 | 基于PP-LCNet_x1_0的文档图像分类模型,包含0°、90°、180°、270°四个类别。 |
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModelForImageClassification
model_path = "PaddlePaddle/PP-LCNet_x1_0_doc_ori_safetensors"
model = AutoModelForImageClassification.from_pretrained(model_path, device_map="auto")
image_processor = AutoImageProcessor.from_pretrained(model_path)
image = Image.open(requests.get("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/img_rot180_demo.jpg", stream=True).raw)
inputs = image_processor(images=image, return_tensors="pt").to(model.device)
outputs = model(**inputs)
predicted_label = outputs.logits.argmax(-1).item()
print(model.config.id2label[predicted_label])