基于多视图消息认证的鲁棒多智能体协作 | 南大袁雷、俞扬等

基于多视图消息认证的鲁棒多智能体协作 | 南大袁雷、俞扬等

研究意义

多智能体强化学习近年来在多个领域取得快速发展及诸多傲人的成果,智能体通过与环境进行交互逐步优化,最终得到最优的策略。其中,多智能体协作凭借其在真实应用场景中的常见应用最近得到广泛关注,该类问题中系统中的智能体在一个相同的目标指导下进行动作决策。然而真实环境的局部观测性以及复杂协作要求,往往需要智能体进行信息交换以促进智能体间的协作,由此催生了一个新的子方向——多智能体通信。

多智能体通信关注于如何在智能体进行高效的信息交换也促进系统的协作性能,过去的方法主要关注于如何提升协作性能。较少考虑通信策略在部署过程中可能会出现信道出现干扰的情况,最近极少部分工作开始关注多智能体鲁棒通信,这类工作主要研究在特定约束下的鲁棒性通信,如不超过一半的信道遭受攻击。这些假设极大阻碍了将通信策略部署到真实场景,因为在真实场景中,往往每一条信道在每一时刻都可能遭受不同程度的噪声干扰。基于此,如何开发一种满足以上条件,并且具备可验证性的多智能体通信算法极具挑战并且具有极大的研究和应用价值。

本文工作

如图1所示,考虑在真实应用场景中,每个智能体可能在不同时刻遭受不同的攻击(有些可能遭受特定Attack,或者普通的Noise),或者有些智能体可能不遭受攻击,攻击可能会造成被攻击者拿到的信息发生偏移(如智能体3可能会把坐标(1,2)上的炸弹误认为是金币,从而进行错误决策,导致协作任务失败)。

基于多视图消息认证的鲁棒多智能体协作 | 南大袁雷、俞扬等

基于以上分析,我们拟开发一种鲁棒性多智能体通信算法,以得到一个信道噪声发生情况下的高效协作。具体而言,如图2所示,总共包括三部分。1)每个智能体得到(N-1)份信息,以及自己局部观测;智能体通过学习一个信息聚合模块,该模块借助POE将所得到的信息聚合为一个信息聚合表征,该表征与每一份信息之间具有数值上映射关系。2)在集中式的训练过程中,我们通过通过在真实的状态标准直接的鲁棒性保证,可以得到一个真实状态与最终的决策之间的可验证性鲁棒性保证。为了整体训练,我们通过最小化与之间的距离,由于具有鲁棒性保证,也因此具备鲁棒性保证,最后我们得到每一份信息与之间的鲁棒性保证。3)通过训练之后,智能体可以利用训练好的信息聚合模块,以及自己的策略进行动作选择,得到一个鲁棒的多智能体协作策略。

基于多视图消息认证的鲁棒多智能体协作 | 南大袁雷、俞扬等
图2 算法总体流程

本文的创新点如下:

(1)将多智能体通信建模为一个多视图问题,其中每条信息是真实状态的一个视图。

(2)基于多视图视角,每个智能体通过POE (Product-Of-Experts)得到一个聚合信息表征,并且通过神经网络近似得到每个信息与该聚合信息表征之间的数值关系。

(3)通过神经网络近似得到聚合信息表征与智能体策略之间的数值关系,然后在该聚合信息表征上进行噪声扰动,一个鲁棒的决策模型,并且相继得到每一个信息与最终决策的可验证的鲁棒关系。

实验结果

为了评估算法的有效性,我们在多个合作多智能体基准测试中进行了广泛的实验,包括走廊环境Hallway 、基于级别的食物合作任务LBF 、交通路口Traffic Junction 和两个StarCraft多智能体挑战(SMAC)地图。

基于多视图消息认证的鲁棒多智能体协作 | 南大袁雷、俞扬等
图 3 论文涉及到的实验环境
基于多视图消息认证的鲁棒多智能体协作 | 南大袁雷、俞扬等
图 4 几种算法在两种不同扰动条件下的实证结果。其中Full-Comm、CroMAC w/o adv和QMIX算法是在非噪声条件下进行测试, CroMAC、CroMAC w/o robust和AME在测试过程中都遭受了噪声的影响

由图3可以看出,在所有环境中,QMIX的性能最差,表明所选环境中通信的必要性。Full-Comm在无扰动条件下可以解决所有任务,表明这些任务需要通信,并且可以通过简单的通信机制来解决。CroMAC w/o adv是CroMAC的一个消融版本,在无扰动条件下进行测试,可以达到与Full-Comm相当的协调能力,验证了我们的CroMAC的特定设计并不会对通信目标造成很大的性能降低。相反,在测试阶段发生消息扰动时,很容易发现CroMAC w/o robust(我们提出的方法的一个变体,没有高效的鲁棒机制)与Full-Comm和CroMAC w/o adv相比,性能严重下降。然而,CroMAC表现出比其他方法更高的鲁棒性,令人惊讶的是,在扰动条件下,AME也遭受严重的性能下降,这意味着对于复杂且严重的消息扰动条件,不合理的通信训练无法得到一个鲁棒的通信算法。

基于多视图消息认证的鲁棒多智能体协作 | 南大袁雷、俞扬等
表1 算法的泛化能力测试,我们的算法当前最新的多智能体鲁棒性通信算法AME进行对比,可以发现我们的算法在多个环境下,在遭受不同的噪声攻击下都具有最强的鲁棒性

由于本研究考虑到在训练阶段攻击数量固定的情况下,我们在这里评估了在改变扰动预算并在测试阶段遇到不同扰动方法时的泛化能力。具体而言,我们在每个基准测试上进行实验。如表1所示,我们考虑了八种通信情况,其中“Natural”表示无消息扰动存在,FGSM是与可比方法的训练条件。我们可以发现,在没有消息扰动的自然环境中,AME可以达到与CroMAC相媲美甚至更好的性能,并且在遭受随机扰动时仍然具有竞争力,表明AME在简单消息扰动下具有鲁棒性。然而,当我们改变扰动预算(如FGSM(4))或在Hallway环境中使用其他扰动模型(如PGD)时,AME的性能会急剧下降。另一方面,我们的CroMAC在大多数环境中相对于AME表现出很高的优势,无论遇到不同的扰动预算和扰动方法,都展现出很高的泛化能力。

文章信息

Lei YUAN, Tao JIANG, Lihe LI, Feng CHEN, Zongzhang ZHANG & Yang YU. Robust Cooperative Multi-agent Reinforcement Learning via Multi-view Message Certification. Sci China Inf Sci, in press

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论