HuggingFace镜像/layoutlmv3-base-chinese
模型介绍文件和版本分析
下载使用量0

LayoutLMv3

Microsoft Document AI | GitHub

模型说明

LayoutLMv3 是一个用于文档智能(Document AI)的预训练多模态 Transformer,采用统一的文本和图像掩码机制。其简洁的统一架构和训练目标使 LayoutLMv3 成为一款通用的预训练模型。例如,LayoutLMv3 可以针对多种文本中心任务进行微调,包括表单理解、收据理解和文档视觉问答,同时也能应用于图像中心任务,如文档图像分类和文档布局分析。

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei, Preprint 2022.

结果

数据集语言精确率召回率F1
XFUNDZH0.89800.94350.9202
数据集科目考试时间姓名学校准考证号座位号班级学号年级分数平均值
EPHOIE98.99100.099.7799.2100.0100.098.8299.7898.3197.2799.21

引用

如果您在研究中发现 LayoutLM 有用,请引用以下论文:

@inproceedings{huang2022layoutlmv3,
  author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
  title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
  booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
  year={2022}
}

许可协议

本项目内容本身基于 知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议 (CC BY-NC-SA 4.0) 进行许可。 部分源代码基于 transformers 项目。 Microsoft 开源行为准则