MABIM：多智能体强化学习算法的“炼丹炉”

编者按：现实世界中，许多问题和任务都是由多个参与者交互进行的，所以要想使用人工智能技术解决真实世界的问题，就需要更好地模拟这种复杂的环境，而这正是多智能体强化学习（MARL）的强项。早在2020年，微软亚洲研究院基于多智能体强化学习，推出了面向多行业横截面上的多智能体资源调度平台 MARO。

随着研究的深入，研究员们发现互动式的学习环境和测试平台对多智能体强化学习的发展至关重要。为此，近期微软亚洲研究院在 GitHub 开源了一个能够灵活适应多智能体强化学习各种挑战的学习测试平台——MABIM，从而可以更好地测试 MARL 算法，让其更容易迁移到真实的应用场景中。

作者：杨贤亮
来源：微软亚洲研究院
原文：https://mp.weixin.qq.com/s/MQp9Wc5Kpu9gPb-ifFJysg

多智能体强化学习 (Multi-Agent Reinforcement Learning，MARL) 是强化学习研究的一个重要分支，旨在让多个智能体在特定环境中通过合作与竞争的方法来实现共同目标。与传统的单智能体强化学习相比，MARL 具有多项优势：能够更好地模拟现实世界的复杂环境，解决涉及多个参与者的问题，并提高系统的鲁棒性、学习效率、自适应与可扩展性。正是这些优势让 MARL 成为了解决实际问题的有力工具，在机器人协同控制、自动驾驶、游戏、经济学、金融、医疗等领域具有广泛的应用前景。

MABIM基准测试平台：助力训练最具实用价值的MARL算法

强化学习算法的发展与进步离不开互动式学习环境和测试平台。这些环境为强化学习提供了丰富的学习空间，使智能体得以在实践中不断优化决策策略，从而在各种复杂应用场景中取得成功。近年来，MARL 领域涌现出许多不同类型的学习环境，对 MARL 算法的发展产生了积极的影响。然而，目前还没有学习环境既能充分考虑到 MARL 领域的众多挑战，又能提供灵活的定制和扩展。

库存管理作为供应链领域最关键的场景之一，在企业运营中具有非常重要的地位。通过合理的库存管理，企业可以降低成本、提高客户满意度、保障生产稳定、提高资金周转速度，进而实现企业经济效益的最大化。因此，微软亚洲研究院的研究员们以运筹学领域的库存管理问题为基础，设计了一个具有高自由度、支持多级多商品库存网络的 MARL 基准测评框架——MABIM (Multi-Agent Benchmark for Inventory Management)，并已在 GitHub 上开源。

MABIM GitHub 链接：

https://github.com/victoryxl/replenishmentenv

MABIM 平台可以灵活适应 MARL 的各种挑战。通过配置参数，MABIM 能轻松定制不同环境，模拟各种具有挑战性的场景。例如，可以通过设置不同层级的库存网络和不同数量的商品来模拟众多智能体之间的协作、通过设置不同的仓库空间来模拟智能体之间不同程度的竞争与合作、通过设置不同的客户需求来模拟非平稳的环境等等。

MABIM 共内置了51个具有挑战性的任务，涉及 MARL 领域多种不同挑战的组合，可以用来测试 MARL 算法在复杂场景下的适配能力和运行效果。比如，针对解决复杂合作和竞争关系的 MARL 算法，可以使用多个层级库存网络加上受限的仓库库容测试；对于着重解决可扩展性的 MARL 算法，可以使用含有更多个商品（>=1000）的任务进行测试。此外，MABIM 还具有高运行效率、基于 GYM 标准接口、完整的策略可视化工具和基于真实数据等特点，使其能更好地支持 MARL 的研究。

MARL挑战犹在，MABIM的研究还将继续

研究员们利用 MABIM 测试了多种经典的运筹学和多智能体强化学习算法，发现了一些有趣的结论，如 IPPO 算法在智能体数量增多时训练将变得困难，QTRAN 算法会变得不稳定；在资源紧张的竞争环境中，IPPO 表现出短视行为，为了避免短期的损失而采取长期不盈利的策略；在需要上下游合作的环境中，纯 MARL 算法难以学习到有效的上下游策略；在非平稳环境中，MARL 策略优于普通运筹学算法等。这说明，虽然 MARL 算法在业界有很大的应用潜力，但也面临着更大的挑战，如计算复杂度会随智能体数量指数级增加、智能体之间的合作与竞争、不稳定的环境等。

计算复杂度：随着智能体数量的增加，MARL 的计算复杂度会呈指数级增加。这是因为每个智能体都需要考虑其他智能体的策略，从而导致状态空间和动作空间迅速增大。这给学习和优化过程带来了巨大的挑战，尤其是在大规模多智能体系统中，如在库存管理领域，当有大量成千上万的商品需要做决策时，每个商品都可能需要考虑其他商品的决策。这使得计算复杂度迅速增加，让实时决策和控制变得困难。

合作与竞争：智能体之间的合作和竞争关系是 MARL 的核心挑战之一。合作关系需要智能体之间共享信息和协调行动，而竞争关系需要智能体在有限资源下优化自身目标。这些关系的建立和维护对于学习有效策略至关重要，但在实际应用中可能非常困难，比如在库存管理场景中，多个商品需要在有限的资源下竞争（预算、仓库货架空间等），同时也需要与其他商品合作以维持整体效益最大化。在这种情况下，设计既能合作又能竞争的强化学习算法是一项巨大的挑战。

不稳定的环境：在 MARL 中，智能体的行为会影响环境，从而影响其他智能体的学习过程，这使环境变得非平稳和不确定，给学习和优化带来了额外的困难。比如在库存管理领域，每个商品的未来需求是不确定的，导致了整个环境有很大的不确定性。

虽然 MABIM 是基于库存管理任务的学习环境，但其涉及的众多问题在业界具备一定的普遍性，经过 MABIM 测试的 MARL 算法将更容易迁移到业界的其它应用中。未来，微软亚洲研究院还将继续完善 MABIM，包括将库存管理模型扩展到树形或网络结构，以评估智能体之间的通信能力；隐藏部分商品特征，以评估算法在部分观测情况下的表现。通过这些扩展，研究员们希望 MABIM 能够更接近真实场景，进一步降低算法从实验室到真实系统迁移的代价，助力业界解决真实场景中的难题。