Microsoft Document AI | GitHub
LayoutLMv3 是一个用于文档智能(Document AI)的预训练多模态 Transformer,采用统一的文本和图像掩码机制。其简洁的统一架构和训练目标使 LayoutLMv3 成为一款通用的预训练模型。例如,LayoutLMv3 可以针对多种文本中心任务进行微调,包括表单理解、收据理解和文档视觉问答,同时也能应用于图像中心任务,如文档图像分类和文档布局分析。
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei, Preprint 2022.
| 数据集 | 语言 | 精确率 | 召回率 | F1 |
|---|---|---|---|---|
| XFUND | ZH | 0.8980 | 0.9435 | 0.9202 |
| 数据集 | 科目 | 考试时间 | 姓名 | 学校 | 准考证号 | 座位号 | 班级 | 学号 | 年级 | 分数 | 平均值 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| EPHOIE | 98.99 | 100.0 | 99.77 | 99.2 | 100.0 | 100.0 | 98.82 | 99.78 | 98.31 | 97.27 | 99.21 |
如果您在研究中发现 LayoutLM 有用,请引用以下论文:
@inproceedings{huang2022layoutlmv3,
author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
year={2022}
}本项目内容本身基于 知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。 部分源代码基于 transformers 项目。 Microsoft 开源行为准则