将 LAM(大型动作模型)与 WebRTC 集成

本文内容来自 WebRTC.ventures 的 Alberto Gonzalez,探讨 WebRTC 应用程序作为使用大型行动模型接口的潜力,包括机遇、挑战和用例。

LAM(大型动作模型)是大型多模态模型(LMM)的一个子集,可以执行动作。与大型语言模型(LLMs)类似,LAMs 将符号推理与神经网络相结合,并利用从大量文本中得出的统计关系进行训练。不过,大型多语言模型通过使用代理将交互转化为具体操作,如点击或键入等用户界面操作,从而扩展了这一能力。

LAM 如何工作?

LAM 利用大型多模态模型 (LMM),可以处理和理解来自图像和文本等多种模态的输入。它们通过以下方式运行

  • 理解元素:该模型可识别网页或应用程序界面上的不同元素,如按钮、文本框和链接。它看到一个按钮,就知道这是一个按钮。
  • 解释操作:模型能理解在这些元素上可以执行哪些操作。它知道按钮可以被点击,文本框可以被填充,链接可以被跟踪。
  • 做出决定:根据上下文(屏幕上的内容和用户想要做的事情),模型会决定采取什么操作。例如,如果用户想要预订酒店房间,模型可能会点击 “立即预订 “按钮。这通常是由代理应用程序在模型之外完成的。

下面是使用浏览器 LAM “查找 ABC 博文 “的高级流程。首先,我们使用一个工具与浏览器交互,打开一个特定的网站。然后,通过图像分析,LAM 提取有关网站和 HTML 元素的信息。然后,LLM 返回推荐的下一步操作。

将 LAM(大型动作模型)与 WebRTC 集成
高级流程:用于浏览器的 LAM

任何流行的 LLM(如 GPT-4o)都可以使用。但您需要一些将响应转换为操作的逻辑,以及一个执行操作的代理。对于浏览器应用程序,这样的代理可以是 Webdriver.io、Playwright 或 Puppeteer。此外,还可以使用 WebRTC 在代理执行操作时向用户提供可视化反馈。

如果您对开源项目感兴趣,一个显著的例子是 OSU-NLP-Group/SeeAct :[ICML’24]。SeeAct 是一个为通用网络代理设计的系统,可在任何网站上自主执行任务,强调大型多模态模型(LMM),如 GPT-4V(ision)。

LAM 提供的机会

利用大型动作模型的功能可以带来以下机会:

  • 增强用户体验和效率: LAM 可以通过自动执行复杂任务并提供实时、高效的解决方案来显著改善用户体验。这可以提高用户满意度和参与度。例如,在实时视频咨询期间,LAM 可以在咨询过程中自动填写表格、安排后续预约并提供文档。
  • 差异化竞争优势:早期采用并成功实施 LAM 可以带来竞争优势。利用这项技术的企业可以提供独特的服务和解决方案,从而在市场上脱颖而出。

LAM 使用案例

LAM 的一些用途包括

  • 旅行准备: 这可能包括搜索电子邮件和日历中的航班信息、办理登机手续以及预订前往机场的乘车服务(交叉检查共享乘车应用程序)。
将 LAM(大型动作模型)与 WebRTC 集成
  • 客户服务:在客户服务场景中,机器人可以协助用户或代理执行操作。虚拟代理可以处理各种任务,例如管理云服务、更新帐户信息、生成视频文档或解决问题。这不仅减少了人类的工作量,而且还提供了更快的结果。
  • 自动化智能测试:这可能涉及 LAM 与应用程序的交互,例如,使用各种输入填写 Web 表单以测试验证规则、错误消息和提交过程。

等等。

LAM 挑战 

并非所有事情都总是一帆风顺的。以下是使用 LAM 时可能遇到的一些挑战:

  • 延迟:将 LAM 实现到 WebRTC 应用程序中涉及复杂的多步骤操作,这会导致高延迟,使实时执行变得困难。异步执行其中一些较长的操作是目前唯一可行的方法。 

虽然技术的进步可能会在不久的将来减少延迟,但今天我们只能专注于单一操作,例如建议、摘要、翻译或与机器人/代理交互,这些操作几乎可以实时实现。

  • 准确性:实施 LAM 需要复杂的 AI 模型,这些模型能够准确理解和执行各种操作。确保这些模型的可靠性和精确性具有挑战性。每次实施的高度针对性对于实现高准确率至关重要。

总之,将 WebRTC 和 AI 的强大功能结合起来,获得更丰富、更身临其境、更安全的通信体验是一个巨大的机遇,行动起来!

编译自:https://webrtc.ventures/2024/06/integrating-large-action-models-with-webrtc/

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论