LayoutLMv3

模型描述

LayoutLMv3 是一款用于文档人工智能（Document AI）的预训练多模态 Transformer，具备统一的文本与图像掩码功能。其简洁统一的架构和训练目标使 LayoutLMv3 成为一款通用的预训练模型。例如，LayoutLMv3 可针对以文本为中心的任务进行微调，包括表单理解、收据理解和文档视觉问答；同时也能适配以图像为中心的任务，如文档图像分类和文档布局分析。

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei, ACM Multimedia 2022.

引用

如果您在研究中使用了 LayoutLM 并认为其有所帮助，请引用以下论文：

@inproceedings{huang2022layoutlmv3,
  author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
  title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
  booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
  year={2022}
}

许可协议

本项目内容本身根据知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。部分源代码基于 transformers 项目。 Microsoft 开源行为准则

LayoutLMv3

Microsoft Document AI | GitHub

模型描述

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei, ACM Multimedia 2022.

引用

如果您在研究中使用了 LayoutLM 并认为其有所帮助，请引用以下论文：

@inproceedings{huang2022layoutlmv3,
  author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
  title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
  booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
  year={2022}
}