时间:2022-12-16 09:57:01
耕发自凹非寺量子位出品|公众号QbitAITeam OG,Dota2世界冠军战队。

在人工智能OpenAI Five面前,OG不堪一击。 由5人组成的战队,此前毫无悬念地以0:2败北,2局加起来,OG只推了2个外塔。
但是,这还不是AI的顶点。
现在,OpenAI训练了一个叫Rerun的新AI。 相对于碾压OG的OpenAI Five,Rerun的胜率……呃……达到了……98%。
听到这个消息,一位推特网友发表了明志。
主要是自学可以活跃在Dota2这样复杂的游戏中,人工智能怎么做到呢? 今天公布了关于这个的答案。
是的。 OpenAI不仅发表了Rerun,还通过论文正式发表了对Dota2项目3年以上的研究。
在这篇论文中,OpenAI说明了整个系统的原理、体系结构、计算量、参数等很多方面。 OpenAI通过batch size和增加总训练时间等方法扩展计算规模,表明目前的强化学习技术可以在复杂的电竞游戏中达到超越人类的水平。
这些研究可以进一步应用于各种各样的两个对手持续的零和博弈。
(可能是读了之后) OG战队在推文:“Wow! 这篇论文看起来很棒! ”
面对这一情景,有网友说:“Wow! OG战队夸耀论文很漂亮吗? 好久不见了呢……
这篇论文到底说了什么?
我们总结了几个要点。
重点1 ) Dota2比围棋更复杂,电竞游戏比棋类游戏更复杂。
克服这一难题的关键是将现有的强化学习系统的规模扩展到前所未有的水平。 这花了几千个GPU和几个月的时间。 OpenAI为此构建了分布式的训练系统。
培训的挑战之一是环境和代码不断变化。 为了避免每次更改都需要重新开始,OpenAI开发了一组名为surgery的工具,可以在不影响性能的情况下重新开始训练。
游戏时间约为每游戏45分钟,每秒生成30帧游戏画面。 OpenAI Five每四个帧执行一次动作。 国际象棋一局约80手,围棋一局约150手。 相比之下,Dota2需要下一盘棋,AI需要“打”约20000手。
而且,由于战争的雾的存在,在Dota2中对战的双方只能看到全面游戏中的局部情况,其他部分的信息处于隐藏状态。
与下围棋的Alpha GO相比,打Dota2的AI系统,batch size大50-150倍,模型大20倍,训练时间长25倍。
要点2 ) AI怎么学会打Dota2? 人通过Dota2,用键盘和鼠标等实时决定。 如上所述,OpenAI Five每四帧做一个行为。 这被称为时间步骤。 在每个timestep期间,OpenAI接收血液量、位置等数据。
即使是同一条信息,人和OpenAI Five的接收方式也完全不同。
人工智能系统发出动作指令时,大概可以这样想。
AI的背后是神经网络。 Policy()被定义为从观察数据到动作概率分布的函数,这是拥有1.59亿个参数的RNN神经网络。 该网络主要由单层、4096-unit的LSTM构成。
结构如下图所示。
LTM贡献了该模型84%的参数。
运动员训练使用的是增强型近端策略优化( PPO )方法,这也是OpenAI目前默认的强化学习训练方法。 这些代理的目标是未来报酬的指数衰减和。
在训练策略的过程中,OpenAI Five不使用人类的游戏数据,而是进行自我游戏。 围棋和将棋等问题中,也应用了同样方式的训练。
其中,80%的战斗对手是使用最新参数的分身,20%的对手是旧参数的分身。 每重复10次,新训练的分身就会被标记为前辈。 当前正在训练的AI打败新秀或老前辈时,系统会根据学习率更新参数。
根据OpenAI CTO以前的说法,在打败OG之前,OpenAI Five练习了相当于45000年的Dota。 AI每天的训练量相当于人类玩180年的游戏。
要点3 )复杂的AI系统,比如计算量和超参数训练,肯定会消耗很多资源。
OpenAI估算了优化的GPU消耗量,最后的结论是OpenAI Five的GPU计算使用量为77050~82050 pflops/sdays左右,但今天新提到的更强的Rerun,是之后两个月的
顺便说一下,OpenAI发表的是用于最优化的计算量,只是训练中所有开销的一小部分,约占30%。
到目前为止,OpenAI已经明确了OpenAI Five的日常训练需要256枚P100 GPU和12.8万个CPU内核。
对于整个神经网络的超参数,论文表明OpenAI在训练Rerun时,根据经验进一步简化了超参数。 最后,他们只更改了四个重要的超级参数:
learningrateentropypenaltycoefficientteamspiritgaetimehorizon
当然,OpenAI表明这些超级参数还有进一步优化的余地。
要点4 :除了自学的最后一点,还有一点要强调。
OpenAI在论文中表明,AI系统在学习Dota2的过程中,并不完全依靠强化学习来自学,而是运用了一些人类知识。 这和后来的AlphaGo Zero不同。
一些游戏机制是用脚本编写的程序。 例如,英雄购买装备、学习技能的顺序、信使的控制等。 OpenAI在论文中说,使用这些脚本有几个历史原因,在成本和时间方面也有考虑。 但论文指出,这些也最终可以自学完成。
论文全文为dota2withlargescaledeepreinforcementlearning,OpenAI公开了更详细的信息。 如果您感兴趣,下面是传送门:
https://cdn.openai.com/dota-2.pdf
回顾对战的最后,回顾一下OpenAI Five在接下来的两局中击败OG的比赛全过程。
第一局AI (天辉) :火枪、飞机、冰女、死亡先知、摇摆
人(夜鲫)小牛、巫医、毒龙、暗刺、影魔
选择阵容后,OpenAI Five觉得自己有67.6%的胜率。
刚开局,OpenAI Five拿走了血,人类军团也很快杀死了AI方面的冰女。 此后,双方前期在数量上一直格格不入。 AI在经济上总是整体领先,但最富有的英雄是人类哥哥的影魔。
这也可以看出双方在战略上的明显区别: OG是三核双辅助的传统双人模式,而AI五位英雄的经济分配相对平均,是“大锅饭”。
经过几轮激烈的推进和团战,游戏进行到19分钟左右,AI的自我胜率预测超过了90%。 自信满满的AI一下子攻入了人类的高地。
OG随后选择了分流推进,但几位解说推测这是为了尽量分散AI,防止它们被抱着推进,但没有什么效果。
但是,持续到38分钟,人类的小牛刚刚买下了活着的地方,AI最后的总攻击就斩断了人类的基地。
OpenAI Five赢了第一局。 现场也是掌声。
在这场比赛中,AI表现出了清奇的想法。 外出穿衣选择两大药,后续装备也倾向于买补给品,而不是提高自身属性。
另外,上面提到的“大锅饭”政策,以及比赛前期就频繁地买工作,都和人类职业选手的习惯大不相同。
第二局AI (天辉) :冰女、飞机、斯温、巫医、毒龙
人类(夜鲫)火枪、小牛、死亡先知、小鱼人、瑞安
选择英雄后,AI对自身的胜率预测为60.8%,略低于之前游戏的阵容。
比赛前两分钟,双方都在祥和中进入各自的带线,没想到,人单Topson很快就送血了。
此后,人类的代表们以惊人的速度崩溃了。
5分钟AI信心大幅上升,预测有80%的胜率。7分钟,AI推开了道塔; 10分钟,AI已经领先人类4000金币,推了两座塔,为自己估计了95%的胜率。
11分钟后,AI已经向OG的高地进攻。
在短短21分钟内,OG的基地被攻破,OpenAI Five轻松获得了第二局。 直到比赛结束,OG取了头也是个位数,AI变成了46:6。
这个游戏非常容易就赢了,但在对局中发现AI在细节上有不足。 例如,对于在复杂的森林中行走的人,AI什么也做不了。 在今天的比赛中,Ceb在森林周围救了自己的命。
最后,祝大家周末愉快。
结束了
量子比特QbitAI 头条号合同
关注我们,第一时间了解尖端技术动态