Holo3是我们最新一代大规模视觉-语言模型(VLMs),专门针对GUI智能体进行了优化。与前代模型一样,它能在各种数字环境(网页、桌面和移动设备)中运行,通过解读视觉界面、对复杂内容进行推理并执行精准操作。
Holo3在OSWorld-Verified上实现了最先进的性能,为计算机使用智能体树立了新的基准。它不仅保留了Holo2世界级的网页导航能力,全新的Holo3-35B-A3B架构更是旨在真实业务环境中发挥出色性能。

探索我们的快速入门指南,了解如何集成我们的推理API。
Holo3-35B-A3B基于Qwen3.5架构开发,并经过强化以增强其核心智能体能力支柱:感知与决策。训练流程采用精心筛选的开源数据集、大规模合成轨迹以及高质量人工标注样本的混合数据,确保可靠的多步推理能力。
为了在计算机使用和网页导航方面对Holo3进行基准测试,我们使用了OSWorld和WebArena基准。Holo3-35B-A3B在OSWorld-Verified上取得了77.8% 的分数。值得注意的是,它仅通过30亿激活参数就实现了这一成绩,以领先专有模型一小部分的推理成本提供了最先进的性能。
为衡量实际应用价值,我们开发了H 企业基准:这是一套包含 486 项多步骤任务的专用评估套件,涵盖四大类别:电子商务、商业软件、协作以及多应用工作流。在这些复杂的业务逻辑环境中,Holo3 的表现持续显著优于规模更大的竞品。
一个世界级的智能体必须先“看见”,才能“行动”。Holo3 在定位交互元素及其功能理解方面表现卓越,其在ScreenSpot-Pro和OSWorld-G上的顶尖性能便证明了这一点。
表 1:计算机使用和基础理解基准的评估结果。

@misc{hai2025holo3modelfamily,
title={Holo3 - Open Foundation Models for Navigation and Computer Use Agents},
author={H Company},
year={2026},
url={https://huggingface.co/Hcompany/Holo3-35B-A3B},
}