飞桨PaddlePaddle/PP-OCRv5_server_rec_safetensors
模型介绍文件和版本Pull Requests讨论分析

PP-OCRv5_server_rec

简介

PP-OCRv5_server_rec 是 PaddleOCR 团队开发的最新一代文本行识别模型 PP-OCRv5_rec 中的一员。其目标是通过单一模型高效、准确地支持简体中文、繁体中文、英文和日文四大语言的识别,以及手写体、竖排文本、拼音、生僻字等复杂文本场景。关键准确率指标如下:

手写中文手写英文印刷中文印刷英文繁体中文古籍文本日文通用场景拼音旋转扭曲艺术字平均值
0.58070.58060.90130.86790.74720.60390.73720.59460.83840.74350.93140.63970.8401

注:若一行文本中存在任何字符(包括标点符号)错误,则整行标记为错误。这确保了实际应用中的更高准确率。

模型使用

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModelForTextRecognition

model_path="PaddlePaddle/PP-OCRv5_server_rec_safetensors"
model = AutoModelForTextRecognition.from_pretrained(model_path, device_map="auto")
image_processor = AutoImageProcessor.from_pretrained(model_path)

image = Image.open(requests.get("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_rec_001.png", stream=True).raw).convert("RGB")
inputs = image_processor(images=image, return_tensors="pt").to(model.device)
outputs = model(**inputs)

results = image_processor.post_process_text_recognition(outputs)

for result in results:
    print(result)
下载使用量0