在 CORD 上微调的 Donut 模型。该模型由 Geewok 等人在论文《OCR-free Document Understanding Transformer》(https://arxiv.org/abs/2111.15664)中提出,并首次在 this repository 发布。
免责声明:发布 Donut 的团队未为此模型撰写模型卡片,因此本模型卡片由 Hugging Face 团队编写。
Donut 由视觉编码器(Swin Transformer)和文本解码器(BART)组成。给定一张图像,编码器首先将图像编码为嵌入张量(形状为 batch_size, seq_len, hidden_size),然后解码器在编码器编码结果的条件下自回归生成文本。

此模型在 CORD(一个文档解析数据集)上进行了微调。
有关代码示例,我们建议参考 documentation。
CORD:用于 OCR 后解析的综合收据数据集。
