剑指多人夺旗游戏,曾经挑战围棋之巅的Deepmind团魂燃烧了

很多人小时候都玩过的抓人、抢凳子游戏,在现在一些西方小朋友记忆里,可能会被替换成夺旗游戏。

夺旗游戏的规则为,对垒双方需要在保护自己阵营里旗子的同时,夺取藏在对方阵营里的敌旗带回自己的基地,而玩家一旦在抢旗过程中被敌人抓到,就会出局。

夺旗游戏规则,会跑就能玩

对于人类小孩来说,这种目标明确的合作类游戏非常容易掌握,但 AI 却会因为游戏规则过于简单、自由度过高、合作人数太多而陷入深深的迷惑。

唉呀摔倒了

通过端到端的强化学习,AI 已经能在单挑中战胜围棋世界冠军、打败顶级《星际争霸》玩家。但在多人组队竞争游戏中,由于可能出现的情况过于复杂,对于 AI 而言,在学习难度上,5 岁小孩都会玩的夺旗还真的比围棋高出不少。

最近,工程师们终于教会了 AI 夺旗。

上月底,DeepMind 在 Science 上发表了论文《基于人口强化学习的 AI 在 3D 多人游戏中达到人类水平》(Human-level Performance In 3D Multiplayer Games With Population-based Reinforcement Learning),介绍了一种能让 AI 自己学会夺旗,并制定团队策略的模型。

DeepMind 研究员、论文第一作者 Max Jaderberg 表示:“在训练过程中没有人告诉 AI 如何玩这款游戏——只有在胜利或失败后才知道 AI 是否了解怎么玩游戏。”

在最终测试中,这个名叫 FTW(For The Win)的夺旗 AI 取得了比人类更好的表现。在 2 个人类对抗 2 个 AI 的比赛中,AI 组平均每局比人类多拿 16 个旗。在两位人类专业选手开黑的情况下,人类对 AI 的胜率才勉强提到了 25%(6%平局)。

FTW 以压倒性的优势胜出。

DeepMind测试员苦战中

终于,连团队合作也不是人类的专利了。

《雷神之锤3:竞技场》夺旗大战

DeepMind 用来训练 FTW 的“斗兽场”,是大受欢迎的第一人称射击游戏《雷神之锤3:竞技场》中的夺旗模式。

MineCraft 重现的《雷神之锤》夺旗地图

在夺旗模式中,红蓝双方在随机生成的对称地图中比赛,五分钟内谁抢到的旗子最多谁就赢。旗子位于地图两端的基地,双方基地被标记为不同颜色。

在夺旗过程中,除了追逐和躲避,玩家还可以用激光“点杀”扛旗的对手。点到对手后,旗子会被回收,对手几秒后会在自家基地里重生。

在以往的训练过程中,工程师们往往会帮助 AI “作弊”——让 AI 访问环境模型、其他玩家或智能体的先验状态。比如在 DeepMind 与暴雪合作训练的《星际争霸2》智能体 AlphaStar 眼里,游戏就是被拆解好的各种特征层。

AlphaStar 眼中的《星际2》

而在训练 FTW 时,AI 没有开启上帝视角,只能通过观察和移动与环境和其他智能体交互。FTW 可以前后左右移动,通过左右旋转扫视周围环境,获得的输入信息只有第一人称视角画面,和正常玩家完全一样。

FTW 眼中的地图

为了给提供足够多的队友和敌人,工程师在地图里投放了 30 个智能体进行“大混战”。

为了防止智能体记忆地图,每次的场地也是随机生成的。

就像学生学习有快有慢一样,30 个智能体的水平和偏好也参差不齐。在下图底部,每一个圆圈都代表一个智能体,圆圈内部的深色面积越大,则该智能体越强。在训练过程中,智能的计算策略也在不停地进化和变异。

几千局游戏后,每个智能体都建立了各自的奖励信号和小目标,有的决定去拔掉旗子,有的决定专门抢人头,真正做到了分工明确。

FTW 自学成才

据论文描述,在计算公式中,有几个重要的参数。第一是智能体“看”到的第一人称视图像素,以RGB数值输入;第二是游戏中的得分,直接在得分板上显示;第三是 AI 采取的行动路径(左转右转或前进后退)。而智能体的最终目的,是找出一种使积累奖励值最大化的策略。

在训练时产生的数据分别被传递到两个循环神经网络,一个快,一个慢。快速神经网络处理和预测时间序列中不断发生的事件,慢速神经网络则对于养成行为策略有监督作用,两者在最后相互耦合,共同输出游戏行为。

此前,多人游戏中的智能体常常采用“左右互搏”的方式来自我进化,但这样训练出的智能体在团队合作中表现很不稳定。举个例子,在某些情况下 AI 会变成人工智障,在游戏刚开始时就有 10 个 AI 冲出去抢旗。

对此,DeepMind 提出的解决方案是,并行训练多个不同的智能体集群相互配合,并基于比赛结果优化内部奖励系数。

通过个体和团队训练的双层流程,智能体确立了复杂的奖励机制——最大化自我奖励的内部目标,和达成夺旗目的的外部目标。就像一个团队里有负责支援的角色,也有冲锋陷阵赢得鲜花荣耀的角色,而在 FTW 的奖励机制里,它们都是 MVP。

请停止你的 AI 行为!

在这种训练框架下,FTW 出现了很有意思的进化。

随着训练的进行,FTW 有了自家基地的概念,然后认清了对方基地在哪,最后对旗帜的形状和位置有了反应。在发现可以“点杀”敌人之后,FTW 立即更新了自己的行动。而此前,工程师从未有针对性地培训过智能体进行这些行为(对比 AlphaStar,曾将游戏任务拆分成多模块分别进行强化学习)。 这些结果表明,纯粹通过强化学习的训练,FTW 自发产生了和游戏规则相关的概念。

一开始混乱的行为渐渐有序

据论文中说明,在进行游戏时 FTW 会自行分析将近200多个影响最终决策的问题,其中包括:我手上有旗帜吗?我最近见到过我的队友吗?我能很快到达敌方基地吗?

通过比较这些问题的答案和得分情况,FTW 自行生成了能提高胜率的策略。

比如,在一名队友运送旗帜期间,会有另一名队员埋伏在敌方基地,因为 FTW 知道一旦运旗的队友被击杀,敌方旗帜马上会刷新,早就埋伏好的队员就可以立刻捡起来。

FTW 做出决策时被各个条件激活的区域

此外,在训练过程中,FTW 曾经追着抢到旗的队友跑,后期发现这种策略对胜率无益,遂舍弃。在游戏快要结束时,FTW 更倾向于在自家基地门口防守,以防止对方缩小比分差距,而在游戏前期则倾向于进攻。

在最终的测试中,DeepMind 团队发现 FTW 能以 16 分的平均优势击败由两名人类玩家组成的团队。即使是开黑的专业玩家,在 FTW 面前的也胜率只有 25%。

为了确保游戏公平,工程师给 FTW 加上了 267 毫秒的反应延迟,结果 FTW 的胜率降低了,但仍高于人类。

未来的 AI 会进化出个性吗?

DeepMind 这篇论文证明,即使没人教,没有上帝视角,甚至连基本游戏概念都没有,放养的 AI 也能在多智能体环境中学会竞争和合作,甚至出现和高级团队策略。

此外,每个智能体都进化出了各自的“小目标”,达成自己设定的目标就会获得奖励。就好像每个 AI 都在小时候写了一篇《我的理想》,无论是防守还是进攻,它们都有光明的前途。

也许在不久的将来,我们不仅能在游戏中遇到行动和人类类似的 NPC,把单机游戏玩出联机感,还能养成一只有“个性”有理想的 AI。

想想还有点小激动!

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章