人工智能体(AI Agents)究竟是什么？

当 ChatGPT 首次亮相的时候，人工智能领域都在谈论新一代人工智能助手，然而过去一年来，大家开始转向了一个新的目标：人工智能体（AI Agent）。

在今年 5 月的谷歌年度 I/O 会议上，谷歌重点介绍了其新推出的名为“Astra”的新人工智能体，用户可以使用音频和视频与之交互。此外，在谷歌之前，OpenAI 的新推出的 GPT-4o 模型也被称为人工智能体。

这不仅仅是炒作（尽管其中肯定也存在一些炒作的成分），科技公司正在投入巨额资金创建人工智能体，这些公司的研究工作可能会带来我们数十年来一直所盼望的那种真正有用的人工智能。

包括奥特曼在内的许多业内人士表示，“人工智能体将会是下一个行业重点。”但人工智能体是什么？我们应该如何使用它们？

如何定义“人工智能体”？

事实上，业界对人工智能体的研究还处于初期阶段，还没有对其进行明确的定义。“简单地理解，它们本质上就是人工智能模型和算法，可以在动态世界中自主做出决策。”英伟达高级研究科学家、人工智能体项目负责人 Jim Fan 表示。

人工智能体的宏伟愿景是一个可以执行大量任务的系统，就好比是一个“人类助手”。未来，它可以帮助你制定假期计划，记住你是否更喜欢豪华酒店，并在四星级或四星级以上的酒店里预订其中的一家；然后，它还将建议最适合你日程的航班，并根据你的喜好规划行程；它可以根据旅行计划和天气预报列出需要携带的个人物品清单；它甚至可能把你的行程安排发送给你的好朋友并邀请他们一起旅行；而在工作中，它可以分析你的待办事项列表并执行任务，例如发送会议邀请、备忘录以及电子邮件等。

“多模态”是人工智能体的重要愿景之一，这意味着它们可以处理语言、音频和视频等。例如，在谷歌的演示中，用户可以用智能手机摄像头对准各种物体并向 Astra 提问，人工智能体可以对文本、音频以及视频输入做出回应。

“这些人工智能体还可以使企业和公共组织的流程更加顺畅。”伦敦大学学院人工智能中心主任 David Barber 表示。

比如，人工智能体可能能够充当更复杂的客户服务机器人。当前基于语言模型的助手只能生成句子中下一个可能的单词并组成句子，而人工智能体将有能力自主处理自然语言命令，并且在没有监督的情况下处理客户服务任务。再比如，人工智能体将能够分析客户的投诉电子邮件，然后知道如何检查客户的单号，访问客户关系管理和交付系统等数据库，以查看投诉是否合法，并根据公司的政策进行处理。

“广义上讲，有两类不同的人工智能体：软件智能体（Software Agents）和具身智能体（Embodied Agents）。”Jim Fan 说道，“软件智能体在电脑或手机上运行并使用应用程序，这些智能体对办公室工作、发送电子邮件或完成这一系列活动非常有用。”

具身智能体是位于 3D 世界（比如电脑游戏中）或机器人中的智能体。具身智能体可以让人们与人工智能控制的非玩家角色一起互动，从而使电子游戏更具吸引力。这类智能体还可以帮助构建更有用的机器人，帮助人们完成家里的日常任务，如叠衣服和做饭等。

Jim Fan 所在的团队在一个名为“Minecraft”的电脑游戏中构建了一个人工智能体（MineDojo）。该人工智能体利用从互联网上收集的大量数据能够学习新的技能和任务，能够在虚拟的 3D 世界中进行自由探索，并完成一系列复杂的任务，比如用栅栏围住骆驼，或是将熔岩铲到桶里。毕竟，电脑游戏能够对真实世界进行模拟，需要让智能体理解物理、推理和常识等。

普林斯顿大学的研究人员在一篇尚未经过同行评审的新论文中表示，人工智能体往往具有三种不同的特征：如果人工智能系统能够在复杂的环境中不受指导地追求困难的目标，那么它们就被认为是智能体；或者能在没有监督的情况下接受自然语言的指导并自主行动，它们也称得上是智能体；最后，“智能体”一词也适用于能够使用网络搜索或编程等工具，以及能够进行规划的系统。

人工智能体并非新鲜事物

华盛顿大学计算机科学教授 Chirag Shah 表示，“人工智能体”一词其实已经存在了很多年，但是其在不同的时间意味着不同的东西。

“已经出现了两波人工智能体热潮，眼下的这一波热潮主要归功于语言模型的繁荣和 ChatGPT 的兴起。”Jim Fan 指出，“上一波热潮是在 2016 年，当时谷歌 DeepMind 推出了 AlphaGo，这是一个强大的围棋人工智能系统，能够做出决策并制定战略。AlphaGo 主要依赖于强化学习，这是一种奖励人工智能算法做出理想行为的技术。”

谷歌 DeepMind 研究副总裁 Oriol Vinyals 表示，“但这些人工智能体太过于‘专一’，换句话说，这些智能体只是为完成某种特地任务而创建的，比如 AlphaGo 就只是会下围棋。相较之下，新一代基于基础模型的人工智能使智能体更加普遍，因为它们可以从人类互动的世界中进行学习。”

“你会觉得这个模型是在与世界互动，然后给你更好的答案或更好的辅助等等。”Oriol Vinyals 说。