柠檬友玩

首页 > 游戏资讯 > 正文

星际争霸2协同对抗基准超越SOTA,架构解决多智能体强化学习问题。

时间:2022-12-26 09:59:01

机心报道

编辑:杜伟、陈萍

星际争霸2协同对抗基准超越SOTA,架构解决多智能体强化学习问题。

这项工作再回到那个老生常谈的问题吧。 Transformer真的万能吗?

多智能体强化学习( MARL )是一个具有挑战性的问题,不仅要识别每个智能体的策略改进方向,而且要结合各个智能体的策略更新,实现提高的整体性能。 最近,这个问题得到了初步解决,有研究者引入了集中训练分布式执行( CTDE )的方法,使代理在训练阶段可以访问全局信息。 但是,这些方法不能完全覆盖多智能体交互的复杂性。

事实上,一些方法被证明是失败的。 为了解决这个问题,提出了多智能体优势分解定理。 在此基础上,推导出HATRPO和HAPPO算法。 但是这些方法也有局限性,这些方法仍然依赖于精心设计的最大化目标。

近年来,序列模型( SM )在自然语言处理( NLP )领域取得了实质性进展。 例如GPT系列、BERT在广泛的下游任务中表现出色,并且在小样本泛化任务中获得了较强的性能。

序列模型与语言的序列特性自然契合,可用于语言任务,但序列方法不限于NLP任务,是广泛应用的通用基础模型。 例如,computervisualization(cv )可以将图像拆分为子图,并按顺序排列它们,就像它们是NLP任务的主题一样。 最近有名的模型Flamingo、DALL-E、GATO等都有序列方法的影响。

随着Transformer等网络架构的出现,序列建模技术也引起了RL社区的关注,促进了基于Transformer架构的一系列离线RL开发。 这些方法在解决一些最基本的RL训练问题上显示出了很大的潜力。

虽然这些方法取得了显著的成功,但是多代理系统中最困难的,没有MARL独有的、为建模侧面——代理之间的交互而设计的方法。 事实上,仅仅给所有代理提供Transformer策略并对其进行单独的训练并不能保证提高 MARL协作性能。 因此,虽然有许多强大的序列模型可用,但MARL并没有真正利用序列模型的性能优势。

如何在串口模型中解决MARL问题? 上海交通大学、Digital Brain Lab、牛津大学等研究者提出了一种新型的多代理传输器( mat,Multi-Agent Transformer )体系结构,该体系结构将合作MARL问题

本文的目标是在MARL和SM之间架起桥梁,释放MARL现代序列模型的建模能力。 MAT的核心是编码器解码器架构,利用多智能体优势分解定理,将联合策略搜索问题转化为序列决策过程。 由此,多智能体问题显示了线性时间的复杂性,最重要的是,这样可以保证MAT单调的性能提高。 与以前的技术(如诊断传输器)需要预先收集的离线数据不同,MAT通过在线策略在环境中进行在线测试和错误训练。

论文地址: https://arxiv.org/pdf/2205.14953.pdf项目主页: https://sites.Google.com/view/multi-agent-transformer 按照多代理模块、Dexterous Hands Manipulation和Google Research Football标准进行了广泛的实验。 结果表明,与MAPPO和HAPPO等强基线相比,MAT具有更好的性能和数据效率。 另外,该研究证明,无论代理数量如何变化,MAT在从未见过的任务中都很优秀,但是是优秀的小样本学习者。

背景知识

本节首先介绍了合作MARL问题式和多代理优势分解定理,这是本文的基础。 然后,他们回顾了现有的MAT相关的MARL方法,最后引出了Transformer。

传统多主体学习范式(左)与多主体测序范式(右)的对比。

问题公式

合作MARL问题通常可以从离散部分观察马尔可夫决策过程( Dec-POMDPs )

可以建模。

多智能体优势分解定理

代理根据q_(o,a )和v_) o )来评价行为和观察的值,定义如下。

定理1 )以多主体优势分解( I_1) n作为主体的数组。 以下表达式始终成立,无需进一步假设。

重要的是,定理1为指导渐进改善行为的选择方法提供了直觉。

现有的邮件方法

研究人员总结了目前的两种SOTA MARL算法,均建立在近端策略优化( Proximal Policy Optimization,PPO )之上。 po是一种以简洁和性能稳定性闻名的RL方法。

多代理邻域策略优化( MAPPO )是第一个将PPO应用于MARL的最直接的方法。

异构代理近端策略优化( HAPPO )是目前的SOTA算法之一,可以充分利用定理)1)实现有单调增长保证的多代理信赖域学习。

变换模型

基于定理(1)中描述的数组属性以及HAPPO背后的原理,人们开始直观地认为用Transformer模型实现多主体的信赖域学习。 Transformer体系结构将代理团队作为序列来处理,可以在避免MAPPO/HAPPO缺点的同时,对数量和类型可变的代理团队进行建模。

多代理传输器

为了实现MARL序列建模范式,研究人员提供的解决方案是多智能体传输( mat )。 应用Transformer架构的思路是:代理观察序列( o^i_1,o^i_n )输入与动作序列( a^ i_1,a^i_n )输出之间的匹配正如在定理(1)中避免的那样,动作a^i_m依赖于以前的所有主体的决策a ^i_1:m1。

因此,如下图(2)所示,MAT中包含了用于学习联合观察显示的编码器和以自回归方式向每个主体输出动作的解码器。

的参数由表示,以任意顺序获得观察序列( o^i_1、o^i_n ),并将其传递至若干计算块。 每个块由自我提醒机制、多层感知机制( MLP )和残差连接组成,以防止梯度随着深度的增加而消失和网络退化。

的参数用表示,将嵌入的联合动作a^i_0:m1,m={1, n}传递给解码块序列。 重要的是,每个解码块都有掩码的自我提醒机制。 为了训练解码器,研究人员如下最小化PPO目标。

MAT中的详细数据流如下图所示。

实验结果

为了评估MAT是否符合预期,研究人员在星际旅行多代理挑战( SMAC )标准( MAPPO以上具有优秀性能)和多代理MuJoCo标准( HAPPO以上具有SOTA性能)中对MAT进行了测试

此外,研究人员在bimanualdxteroushandmanipulation ( Bi-dex hands )和Google Research Football基准中进行了MAT的扩展测试。 前者提供挑战性的双手操作任务,后者提供一系列足球游戏中的合作场景。

最后,由于Transformer模型通常在小样本任务中表现出强大的泛化性能,所以认为MAT在从未见过的MARL任务中也具有同样强大的泛化能力。 因此,他们在SMAC和多代理MuJoCo任务中设计了零样本和小样本实验。

在协作MARL基准测试中的性能

如下表1和图4所示,在SMAC、多代理MuJoCo和Bi-DexHands基准中,MAT在大多数任务中优于MAPPO和HAPPO,在同构和异构代理任务中具有强大的构建能力此外,MAT获得了比MAT-Dec更好的性能,表明了解码器架构在MAT设计中的重要性。

同样,研究者在Google Research Football基准中也得到了同样的性能结果。 如以下图5所示。

MAT用于小样本学习

表2和表3总结了各算法的零样本和小样本的结果,粗体数字显示了最佳性能。

研究人员还提供了数据相同情况下MAT的性能,并与对照组一样从头开始训练。 如下表所示,MAT取得了很多最好成绩,这显示了MAT小样本学习的强大泛化性能。