HuggingFace镜像/OmniParser-v2.0
模型介绍文件和版本分析
下载使用量0

📢 [GitHub 代码库] [OmniParser V2 博客文章] Huggingface 演示

模型概述

OmniParser 是一款通用屏幕解析工具,它能够将 UI 截图解释并转换为结构化格式,从而改进现有的基于 LLM 的 UI 智能体。 训练数据集包括:1) 一个可交互图标检测数据集,该数据集从热门网页中精选而来,并经过自动标注以突出可点击和可操作区域;2) 一个图标描述数据集,旨在将每个 UI 元素与其相应功能相关联。

本模型中心分别包含了基于上述数据集微调的 YOLOv8 版本和 Florence-2 base 模型。有关所用模型和微调的更多详细信息,请参考论文。

V2 版本的新特性

  • 更大规模、更清晰的图标 caption + 定位数据集
  • 与 V1 版本相比,延迟降低 60%。平均延迟:在 A100 上为 0.6 秒/帧,在单张 4090 上为 0.8 秒。
  • 强大的性能:在 ScreenSpot Pro 上平均准确率达 39.6
  • 您的智能体只需一个工具:OmniTool。通过 OmniParser 结合您选择的视觉模型,即可控制 Windows 11 虚拟机。OmniTool 开箱即支持以下大型语言模型 - OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。详情请查看我们的 github 代码库。

负责任的 AI 考量

预期用途

  • OmniParser 旨在能够将非结构化的截图图像转换为结构化的元素列表,包括可交互区域的位置以及图标潜在功能的说明。
  • OmniParser 计划用于用户已接受过负责任分析方法培训且需要进行批判性推理的场景。OmniParser 能够从截图中提取信息,但对于其输出结果,仍需人类判断。
  • OmniParser 计划用于各种截图,包括电脑和手机截图,以及各种应用程序的截图。

局限性

  • OmniParser 旨在将截图图像忠实地转换为可交互区域的结构化元素和屏幕语义,但它不会检测输入中的有害内容(就像用户可以自由决定任何 LLM 的输入一样),因此期望用户向 OmniParser 提供无害的输入。
  • 尽管 OmniParser 仅将截图图像转换为文本,但它可用于构建基于 LLM 的可执行 GUI 代理。在使用 OmniParser 开发和运行代理时,开发人员需要承担责任并遵循通用安全标准。

许可证

请注意,icon_detect 模型采用 AGPL 许可证,icon_caption 采用 MIT 许可证。请参考各模型文件夹中的 LICENSE 文件。