AI 聊天机器人如何模仿人类行为:从 LLM 的多轮评估中获得的启示

AI 聊天机器人通过生成看似人类的自然对话,创造了具有情感、道德或意识的幻觉。许多用户与 AI 互动是为了聊天和陪伴,这强化了它真正理解的错误信念。这会导致严重的风险。用户可能会过度依赖AI,提供敏感数据,或依赖它提供超出其能力范围的建议。其他人甚至让AI以有害的方式影响他们的选择。如果不了解AI如何助长这种信念,问题会变得更糟。

目前评估AI聊天系统的方法依赖于单轮提示固定测试,无法捕捉AI在真实对话中的交互方式。一些多轮测试只关注有害的用户行为,而忽略了正常的交互。自动红队适应性过强,结果难以比较。涉及人类用户的研究难以重复和扩展。衡量人们如何看待AI与人类的相似性也是一个挑战。人们本能地认为AI具有人类的特征,这会影响他们对它的信任程度。评估表明,AI的类人行为会让用户认为它更准确,甚至会形成情感纽带。因此,现有方法无法正确衡量这个问题。

为了解决这些问题,牛津大学和谷歌 Deepmind 的研究团队提出了一个评估框架,用于评估AI聊天系统中的类人行为。与依赖单轮提示和固定测试的现有方法不同,该框架通过多轮对话追踪14种特定的拟人行为。自动模拟通过多次交流分析 AI 与用户的交互,提高可扩展性和可比性。该框架由三个主要部分组成。

  • 首先,它系统地监控14 种拟人行为,并将它们分为自我参照和关系特征,包括人格主张和情感表达。
  • 其次,它通过交互式用户模拟扩大多轮评估的规模,以确保一致性和可扩展性。
  • 第三,它通过人类受试者评估来验证结果,以确认自动评估和用户感知之间的一致性。
AI 聊天机器人如何模仿人类行为:从 LLM 的多轮评估中获得的启示

研究人员使用多轮框架评估了人工智能系统中的拟人化行为,其中用户 LLM与目标LLM在四个领域的八种场景中互动:友谊、生活指导、职业发展和总体规划。分析了十四种行为并将其归类为自我参照(人格主张、物理体现主张内部状态表达)和关系(关系建立行为)。960情境化提示每个模型生成4,800个 五轮对话,由三位评判 LLM 评估,最终获得561,600 个评分

分析证实,用户 LLM 表现出比目标 LLM 更高的拟人化分数。在高和低拟人化条件下分析了 1,101 名参与者与 Gemini 1.5 Pro 之间的互动,以评估人类感知的一致性。根据使用AnthroScore测量量化的调查回复,高频受访者还记录了增加的拟人化感知。统计对比发现,不同领域的拟人行为存在很大差异,突出表明人工智能系统在进行口头交互时会表现出类似人类的行为。

AI 聊天机器人如何模仿人类行为:从 LLM 的多轮评估中获得的启示

总之,该框架采用了比单轮方法更好的多轮评​​估技术来评估对话式人工智能中的拟人化行为。结果确定了随着对话而发展的关系建立行为。作为后续研究的基础,该框架可以通过学习识别拟人化特征的出现时间及其对用户的影响来为人工智能开发提供信息。未来的发展可以使评估方法更加精确,增强指标的稳健性,并使分析形式化,从而产生更加透明和道德健全的人工智能系统。

论文地址:https://arxiv.org/abs/2502.07077

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/55914.html

(0)

相关推荐

发表回复

登录后才能评论