AGUVIS:一种统一的纯视觉框架,可跨平台转变自主 GUI 交互

图形用户界面 (GUI) 在人机交互中起着基础性作用,为用户提供跨 Web、桌面和移动平台完成任务的媒介。该领域的自动化具有变革性,可以大幅提高生产力并实现无缝任务执行而无需人工干预。能够理解和与 GUI 交互的自主代理可以彻底改变工作流程,特别是在重复或复杂的任务设置中。然而,GUI 固有的复杂性和跨平台多变性带来了重大挑战。每个平台都使用不同的视觉布局、操作空间和交互逻辑,这使得创建可扩展且强大的解决方案变得困难。开发能够自主导航这些环境并跨平台通用的系统仍然是该领域研究人员面临的持续挑战。

目前,GUI 自动化面临许多技术障碍;其中之一就是将自然语言指令与 GUI 的多样化视觉表现相结合。传统方法通常依赖于文本表现形式(例如 HTML 或可访问性树)来对 GUI 元素进行建模。这些方法存在局限性,因为 GUI 本质上是视觉的,而文本抽象无法捕捉视觉设计的细微差别。此外,文本表现形式在不同平台之间有所不同,导致数据碎片化和性能不一致。GUI的视觉性质与自动化系统中使用的文本输入之间的这种不匹配导致可扩展性降低、推理时间更长和泛化受限。此外,大多数当前方法无法进行有效的多模态推理和基础研究,而这对于理解复杂的视觉环境至关重要。

现有的工具和技术已尝试解决这些挑战,但成功与否参半。许多系统依赖闭源模型来增强推理和规划能力。这些模型通常使用自然语言交流来结合基础和推理过程,但这种方法会导致信息丢失并且缺乏可扩展性。另一个常见的限制是训练数据集的碎片化性质,无法为基础和推理任务提供全面的支持。例如,数据集通常强调基础或推理,但不会同时强调两者,导致模型在某一领域表现出色,而在其他领域却举步维艰。这种分歧阻碍了自主 GUI 交互统一解决方案的开发。

香港大学的研究人员和 Salesforce Research 推出了AGUVIS(7B 和 72B),这是一个统一的框架,旨在通过利用纯视觉观察来克服这些限制。AGUVIS消除了对文本表示的依赖,而是专注于基于图像的输入,使模型的结构与 GUI 的视觉性质保持一致。该框架包括跨平台的一致操作空间,促进了跨平台泛化。AGUVIS 集成了明确的规划和多模态推理来导航复杂的数字环境。研究人员构建了一个大规模的 GUI 代理轨迹数据集,用于在两阶段过程中训练 AGUVIS。该框架的模块化架构包括一个可插入的操作系统,可以无缝适应新环境和任务。

AGUVIS:一种统一的纯视觉框架,可跨平台转变自主 GUI 交互

AGUVIS框架采用两阶段训练范式,使模型具备基础和推理能力: 

1. 在第一阶段,该模型专注于将自然语言指令与 GUI 环境中的视觉元素进行绑定和映射。此阶段采用绑定打包策略,将多个指令-操作对捆绑到单个 GUI 屏幕截图中。此方法通过最大限度地提高每幅图像的效用而不牺牲准确性来提高训练效率。 

2. 第二阶段引入规划和推理,训练模型在各种平台和场景中执行多步骤任务。此阶段包含详细的内心独白,包括观察描述、想法和低级行动指令。通过逐步增加训练数据的复杂性,模型学会以精确和适应性处理细微任务。

AGUVIS:一种统一的纯视觉框架,可跨平台转变自主 GUI 交互

AGUVIS 在线下和真实在线评估中均表现出色。在 GUI 基础测试中,该模型的平均准确率达到 89.2,超越了移动、桌面和 Web 平台上的最新方法。在线场景中,AGUVIS 在离线规划任务中,步骤成功率提高了 51.9%,优于竞争模型。此外,与 GPT-4o 相比,该模型的推理成本降低了 93%。通过专注于视觉观察并集成统一的动作空间,AGUVIS 为 GUI 自动化树立了新标杆,使其成为第一个完全自主的纯视觉智能体,能够在不依赖闭源模型的情况下完成真实世界的任务

AGUVIS:一种统一的纯视觉框架,可跨平台转变自主 GUI 交互

AGUVIS 在 GUI 自动化领域的研究主要包括:

  • AGUVIS 使用基于图像的输入,大大降低了代币成本,并使模型与 GUI 固有的视觉特性保持一致。这种方法使得 720p 图像观测的代币成本仅为 1,200,而可访问性树的代币成本为 6,000,基于 HTML 的观测的代币成本为 4,000。
  • 该模型结合了基础阶段和规划阶段,使其能够有效地执行单步和多步任务。仅基础训练就使模型能够处理单个图像中的多个指令,而推理阶段则增强了其执行复杂工作流程的能力。
  • AGUVIS 集合将现有数据集与合成数据统一并加以增强,以支持多模态推理和基础研究。这会产生多样化且可扩展的数据集,从而能够训练稳健且适应性强的模型。
  • 使用 pyautogui 命令和可插入操作系统允许模型跨平台推广,同时适应特定于平台的操作,例如在移动设备上滑动。

AGUVIS 在 GUI 基础基准测试中取得了显著成果,Web 平台准确率达 88.3%,移动端准确率达 85.7%,桌面端准确率达 81.8%。同时,其效率也十分出色,与现有模型相比,USD 推理成本降低了 93%。

总之,AGUVIS 框架解决了 GUI 自动化中基础、推理和泛化方面的关键挑战。其纯基于视觉的方法消除了与文本表示相关的低效率,而其统一的操作空间实现了跨不同平台的无缝交互。该研究为自主 GUI 任务提供了强大的解决方案,应用范围从生产力工具到高级 AI 系统。

更多详细信息请访问:https://github.com/xlang-ai/aguvis

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/54915.html

(0)

相关推荐

发表回复

登录后才能评论