Microsoft Document AI | GitHub
Kosmos-2.5 是一款用于文本密集型图像机器阅读的多模态文字理解模型。通过在大规模文本密集型图像上进行预训练,Kosmos-2.5 在两项既独立又协同的转录任务中表现出色:(1)生成空间感知文本块,为图像中的每个文本块分配其空间坐标;(2)生成结构化文本输出,将样式和结构转换为 markdown 格式。这种统一的多模态文字理解能力通过共享的仅解码器自回归 Transformer 架构、特定任务提示和灵活的文本表示来实现。我们在端到端文档级文本识别和图像转 markdown 文本生成任务上对 Kosmos-2.5 进行了评估。此外,通过有监督微调,该模型可以轻松适配不同提示的任何文本密集型图像理解任务,使其成为处理含丰富文本图像的现实应用的通用工具。这项工作也为未来多模态大型语言模型的扩展铺平了道路。
Kosmos-2.5: A Multimodal Literate Model
由于这是一个生成式模型,在生成过程中存在幻觉风险,因此无法保证图像中所有 OCR/Markdown 结果的准确性。
Markdown 任务: 使用说明请参考 md.py。
OCR 任务: 使用说明请参考 ocr.py。
如果您在研究中发现 Kosmos-2.5 有用,请引用以下论文:
@article{lv2023kosmos,
title={Kosmos-2.5: A multimodal literate model},
author={Lv, Tengchao and Huang, Yupan and Chen, Jingye and Cui, Lei and Ma, Shuming and Chang, Yaoyao and Huang, Shaohan and Wang, Wenhui and Dong, Li and Luo, Weiyao and others},
journal={arXiv preprint arXiv:2309.11419},
year={2023}
}本项目的内容本身根据 MIT 许可协议进行许可。