基于 Donut 基础模型(由 Geewok 等人在论文《OCR-free Document Understanding Transformer》中提出,并首次在 此仓库 发布)。
该模型使用数千份带注释的发票和非发票(对于非发票,文档类型将为“Other”)进行训练。这些文档涵盖不同国家和语言,且均为单页。遗憾的是,该数据集为专有数据。模型的输入分辨率设置为 1280x1920 像素,因此任何高于 150 dpi 的样本都不会增加额外价值。
模型在 NVIDIA RTX A4000 上训练了约 4 小时,共 20k 步,最终的 val_metric 为 0.03413819904382196。
训练集中包含以下索引:
DocType Currency DocumentDate GrossAmount InvoiceNumber NetAmount TaxAmount OrderNumber CreditorCountry
Donut 由视觉编码器(Swin Transformer)和文本解码器(BART)组成。给定一张图像,编码器首先将图像编码为嵌入张量(形状为 batch_size, seq_len, hidden_size),然后解码器在编码器编码结果的条件下自回归生成文本。

此模型旨在研究其在处理多语言发票方面的表现。 请在 演示空间 中查看我的观察结果。
请查阅 文档,其中包含代码示例。