Donut 在发票上的微调版本

基于 Donut 基础模型（由 Geewok 等人在论文《OCR-free Document Understanding Transformer》中提出，并首次在此仓库发布）。

该模型使用数千份带注释的发票和非发票（对于非发票，文档类型将为“Other”）进行训练。这些文档涵盖不同国家和语言，且均为单页。遗憾的是，该数据集为专有数据。模型的输入分辨率设置为 1280x1920 像素，因此任何高于 150 dpi 的样本都不会增加额外价值。

模型在 NVIDIA RTX A4000 上训练了约 4 小时，共 20k 步，最终的 val_metric 为 0.03413819904382196。

训练集中包含以下索引：

DocType Currency DocumentDate GrossAmount InvoiceNumber NetAmount TaxAmount OrderNumber CreditorCountry

模型描述

Donut 由视觉编码器（Swin Transformer）和文本解码器（BART）组成。给定一张图像，编码器首先将图像编码为嵌入张量（形状为 batch_size, seq_len, hidden_size），然后解码器在编码器编码结果的条件下自回归生成文本。

model image

此模型旨在研究其在处理多语言发票方面的表现。请在演示空间中查看我的观察结果。

请查阅文档，其中包含代码示例。

基于 Donut 基础模型（由 Geewok 等人在论文《OCR-free Document Understanding Transformer》中提出，并首次在此仓库发布）。

模型在 NVIDIA RTX A4000 上训练了约 4 小时，共 20k 步，最终的 val_metric 为 0.03413819904382196。

训练集中包含以下索引：

DocType Currency DocumentDate GrossAmount InvoiceNumber NetAmount TaxAmount OrderNumber CreditorCountry

model image

此模型旨在研究其在处理多语言发票方面的表现。请在演示空间中查看我的观察结果。

请查阅文档，其中包含代码示例。