pix2struct-base:用户可将此项目用于图像到文本相关任务的微调,如图像 captioning 和视觉问答。该项目是 Pix2Struct 的预训练版本,采用图像编码器-文本解码器架构,通过解析网页截图进行预训练,支持多语言,能灵活集成语言和视觉输入。【此简介由AI生成】 - AtomGit AI社区