Kosmos-2.5

模型描述

Kosmos-2.5 是一款用于文本密集型图像机器阅读的多模态文字理解模型。通过在大规模文本密集型图像上进行预训练，Kosmos-2.5 在两项既独立又协同的转录任务中表现出色：（1）生成空间感知文本块，为图像中的每个文本块分配其空间坐标；（2）生成结构化文本输出，将样式和结构转换为 markdown 格式。这种统一的多模态文字理解能力通过共享的仅解码器自回归 Transformer 架构、特定任务提示和灵活的文本表示来实现。我们在端到端文档级文本识别和图像转 markdown 文本生成任务上对 Kosmos-2.5 进行了评估。此外，通过有监督微调，该模型可以轻松适配不同提示的任何文本密集型图像理解任务，使其成为处理含丰富文本图像的现实应用的通用工具。这项工作也为未来多模态大型语言模型的扩展铺平了道路。

Kosmos-2.5: A Multimodal Literate Model

注意事项：

由于这是一个生成式模型，在生成过程中存在幻觉风险，因此无法保证图像中所有 OCR/Markdown 结果的准确性。

推理

Markdown 任务： 使用说明请参考 md.py。

OCR 任务： 使用说明请参考 ocr.py。

引用

如果您在研究中发现 Kosmos-2.5 有用，请引用以下论文：

@article{lv2023kosmos,
  title={Kosmos-2.5: A multimodal literate model},
  author={Lv, Tengchao and Huang, Yupan and Chen, Jingye and Cui, Lei and Ma, Shuming and Chang, Yaoyao and Huang, Shaohan and Wang, Wenhui and Dong, Li and Luo, Weiyao and others},
  journal={arXiv preprint arXiv:2309.11419},
  year={2023}
}

许可协议

本项目的内容本身根据 MIT 许可协议进行许可。

Microsoft 开源行为准则