HuggingFace镜像/donut-base-finetuned-invoices
模型介绍文件和版本分析

Donut 在发票上的微调版本

基于 Donut 基础模型(由 Geewok 等人在论文《OCR-free Document Understanding Transformer》中提出,并首次在 此仓库 发布)。

该模型使用数千份带注释的发票和非发票(对于非发票,文档类型将为“Other”)进行训练。这些文档涵盖不同国家和语言,且均为单页。遗憾的是,该数据集为专有数据。模型的输入分辨率设置为 1280x1920 像素,因此任何高于 150 dpi 的样本都不会增加额外价值。

模型在 NVIDIA RTX A4000 上训练了约 4 小时,共 20k 步,最终的 val_metric 为 0.03413819904382196。

训练集中包含以下索引:

DocType Currency DocumentDate GrossAmount InvoiceNumber NetAmount TaxAmount OrderNumber CreditorCountry

演示空间可在此处找到

模型描述

Donut 由视觉编码器(Swin Transformer)和文本解码器(BART)组成。给定一张图像,编码器首先将图像编码为嵌入张量(形状为 batch_size, seq_len, hidden_size),然后解码器在编码器编码结果的条件下自回归生成文本。

model image

预期用途与限制

此模型旨在研究其在处理多语言发票方面的表现。 请在 演示空间 中查看我的观察结果。

如何使用

请查阅 文档,其中包含代码示例。

下载使用量0