AGUVIS：一种统一的纯视觉框架，可跨平台转变自主 GUI 交互

图形用户界面 (GUI) 在人机交互中起着基础性作用，为用户提供跨 Web、桌面和移动平台完成任务的媒介。该领域的自动化具有变革性，可以大幅提高生产力并实现无缝任务执行而无需人工干预。能够理解和与 GUI 交互的自主代理可以彻底改变工作流程，特别是在重复或复杂的任务设置中。然而，GUI 固有的复杂性和跨平台多变性带来了重大挑战。每个平台都使用不同的视觉布局、操作空间和交互逻辑，这使得创建可扩展且强大的解决方案变得困难。开发能够自主导航这些环境并跨平台通用的系统仍然是该领域研究人员面临的持续挑战。

目前，GUI 自动化面临许多技术障碍；其中之一就是将自然语言指令与 GUI 的多样化视觉表现相结合。传统方法通常依赖于文本表现形式（例如 HTML 或可访问性树）来对 GUI 元素进行建模。这些方法存在局限性，因为 GUI 本质上是视觉的，而文本抽象无法捕捉视觉设计的细微差别。此外，文本表现形式在不同平台之间有所不同，导致数据碎片化和性能不一致。GUI的视觉性质与自动化系统中使用的文本输入之间的这种不匹配导致可扩展性降低、推理时间更长和泛化受限。此外，大多数当前方法无法进行有效的多模态推理和基础研究，而这对于理解复杂的视觉环境至关重要。

现有的工具和技术已尝试解决这些挑战，但成功与否参半。许多系统依赖闭源模型来增强推理和规划能力。这些模型通常使用自然语言交流来结合基础和推理过程，但这种方法会导致信息丢失并且缺乏可扩展性。另一个常见的限制是训练数据集的碎片化性质，无法为基础和推理任务提供全面的支持。例如，数据集通常强调基础或推理，但不会同时强调两者，导致模型在某一领域表现出色，而在其他领域却举步维艰。这种分歧阻碍了自主 GUI 交互统一解决方案的开发。

香港大学的研究人员和 Salesforce Research 推出了AGUVIS（7B 和 72B），这是一个统一的框架，旨在通过利用纯视觉观察来克服这些限制。AGUVIS消除了对文本表示的依赖，而是专注于基于图像的输入，使模型的结构与 GUI 的视觉性质保持一致。该框架包括跨平台的一致操作空间，促进了跨平台泛化。AGUVIS 集成了明确的规划和多模态推理来导航复杂的数字环境。研究人员构建了一个大规模的 GUI 代理轨迹数据集，用于在两阶段过程中训练 AGUVIS。该框架的模块化架构包括一个可插入的操作系统，可以无缝适应新环境和任务。

AGUVIS框架采用两阶段训练范式，使模型具备基础和推理能力：

1. 在第一阶段，该模型专注于将自然语言指令与 GUI 环境中的视觉元素进行绑定和映射。此阶段采用绑定打包策略，将多个指令-操作对捆绑到单个 GUI 屏幕截图中。此方法通过最大限度地提高每幅图像的效用而不牺牲准确性来提高训练效率。

2. 第二阶段引入规划和推理，训练模型在各种平台和场景中执行多步骤任务。此阶段包含详细的内心独白，包括观察描述、想法和低级行动指令。通过逐步增加训练数据的复杂性，模型学会以精确和适应性处理细微任务。

AGUVIS 在线下和真实在线评估中均表现出色。在 GUI 基础测试中，该模型的平均准确率达到 89.2，超越了移动、桌面和 Web 平台上的最新方法。在线场景中，AGUVIS 在离线规划任务中，步骤成功率提高了 51.9%，优于竞争模型。此外，与 GPT-4o 相比，该模型的推理成本降低了 93%。通过专注于视觉观察并集成统一的动作空间，AGUVIS 为 GUI 自动化树立了新标杆，使其成为第一个完全自主的纯视觉智能体，能够在不依赖闭源模型的情况下完成真实世界的任务。