LayoutLMv3

模型说明

LayoutLMv3 是一个用于文档智能（Document AI）的预训练多模态 Transformer，采用统一的文本和图像掩码机制。其简洁的统一架构和训练目标使 LayoutLMv3 成为一款通用的预训练模型。例如，LayoutLMv3 可以针对多种文本中心任务进行微调，包括表单理解、收据理解和文档视觉问答，同时也能应用于图像中心任务，如文档图像分类和文档布局分析。

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei, Preprint 2022.

结果

数据集	语言	精确率	召回率	F1
XFUND	ZH	0.8980	0.9435	0.9202

数据集	科目	考试时间	姓名	学校	准考证号	座位号	班级	学号	年级	分数	平均值
EPHOIE	98.99	100.0	99.77	99.2	100.0	100.0	98.82	99.78	98.31	97.27	99.21

引用

如果您在研究中发现 LayoutLM 有用，请引用以下论文：

@inproceedings{huang2022layoutlmv3,
  author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
  title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
  booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
  year={2022}
}

许可协议

本项目内容本身基于知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。部分源代码基于 transformers 项目。 Microsoft 开源行为准则

LayoutLMv3

Microsoft Document AI | GitHub

模型说明

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei, Preprint 2022.

结果

数据集	语言	精确率	召回率	F1
XFUND	ZH	0.8980	0.9435	0.9202

数据集	科目	考试时间	姓名	学校	准考证号	座位号	班级	学号	年级	分数	平均值
EPHOIE	98.99	100.0	99.77	99.2	100.0	100.0	98.82	99.78	98.31	97.27	99.21

引用

如果您在研究中发现 LayoutLM 有用，请引用以下论文：

@inproceedings{huang2022layoutlmv3,
  author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
  title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
  booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
  year={2022}
}