HuggingFace镜像/Holo3-35B-A3B
模型介绍文件和版本分析

Holo3:面向导航与计算机使用智能体的基础模型

模型说明

Holo3是我们最新一代大规模视觉-语言模型(VLMs),专门针对GUI智能体进行了优化。与前代模型一样,它能在各种数字环境(网页、桌面和移动设备)中运行,通过解读视觉界面、对复杂内容进行推理并执行精准操作。

Holo3在OSWorld-Verified上实现了最先进的性能,为计算机使用智能体树立了新的基准。它不仅保留了Holo2世界级的网页导航能力,全新的Holo3-35B-A3B架构更是旨在真实业务环境中发挥出色性能。

  • 开发机构: H Company
  • 模型类型: 面向导航与计算机使用智能体的视觉-语言模型
  • 架构: 稀疏混合专家模型(MoE),总参数350亿/激活参数30亿
  • 微调基础模型: Qwen/Qwen3.5-35B-A3B
  • 博客文章: hcompany.ai/holo3
  • 快速入门: hub.hcompany.ai/quickstart
  • 许可证: Apache 2.0 许可证


快速开始

探索我们的快速入门指南,了解如何集成我们的推理API。


训练策略

Holo3-35B-A3B基于Qwen3.5架构开发,并经过强化以增强其核心智能体能力支柱:感知与决策。训练流程采用精心筛选的开源数据集、大规模合成轨迹以及高质量人工标注样本的混合数据,确保可靠的多步推理能力。


结果

最先进的导航能力(OSWorld-Verified)

为了在计算机使用和网页导航方面对Holo3进行基准测试,我们使用了OSWorld和WebArena基准。Holo3-35B-A3B在OSWorld-Verified上取得了77.8% 的分数。值得注意的是,它仅通过30亿激活参数就实现了这一成绩,以领先专有模型一小部分的推理成本提供了最先进的性能。

企业就绪度(H 企业基准)

为衡量实际应用价值,我们开发了H 企业基准:这是一套包含 486 项多步骤任务的专用评估套件,涵盖四大类别:电子商务、商业软件、协作以及多应用工作流。在这些复杂的业务逻辑环境中,Holo3 的表现持续显著优于规模更大的竞品。

UI 定位与基础理解

一个世界级的智能体必须先“看见”,才能“行动”。Holo3 在定位交互元素及其功能理解方面表现卓越,其在ScreenSpot-Pro和OSWorld-G上的顶尖性能便证明了这一点。

表 1:计算机使用和基础理解基准的评估结果。


引用

@misc{hai2025holo3modelfamily,
      title={Holo3 - Open Foundation Models for Navigation and Computer Use Agents},
      author={H Company},
      year={2026},
      url={https://huggingface.co/Hcompany/Holo3-35B-A3B},
}
下载使用量0