DeepMind 的一个名为 Open-Ended Learning Team 的小组开发了一种训练 AI 系统玩游戏的新方法。DeepMind 的团队并没有像其他玩游戏的 AI 系统那样将其暴露于数百万个先前的游戏中,而是为其新的 AI 系统代理提供了一组最低限度的技能,他们使用这些技能来实现一个简单的目标(例如发现另一个玩家在虚拟世界中),然后在此基础上进行构建。研究人员创建了一个名为 XLand 的虚拟世界一个色彩缤纷的虚拟世界,具有一般的电子游戏外观。在其中,研究人员称之为代理的 AI 玩家开始实现一个总体目标,并且在他们这样做的过程中,他们获得了可用于实现其他目标的技能。研究人员然后改变游戏,给代理一个新的目标,但允许他们保留他们在以前的游戏中学到的技能。
该技术的一个示例涉及代理试图进入其世界的一部分,该部分太高而无法直接爬上并且没有诸如楼梯或坡道之类的接入点。在四处走动时,代理发现它可以移动它发现的平坦物体作为坡道,从而到达它需要去的地方。为了让他们的代理学习更多技能,研究人员创建了 700,000 个场景或游戏,其中代理面临大约 340 万个独特的任务。通过采用这种方法,代理能够自学如何玩多种游戏,例如标记、夺旗和捉迷藏。研究人员称他们的方法具有无限挑战性。XLand 另一个有趣的方面是存在一种霸主,一个实体,它密切关注代理并记录他们正在学习哪些技能,然后生成新游戏以增强他们的技能。使用这种方法,只要代理被赋予新任务,它们就会继续学习。
在运行他们的虚拟世界时,研究人员发现代理通常是偶然地学到了新技能,他们发现这些技能有用,然后在这些技能的基础上进行开发,从而获得更高级的技能,例如在没有选择的情况下诉诸实验,与其他代理合作并学习如何使用对象作为工具。他们表示,他们的方法是朝着创建通用算法迈出的一步,这些算法可以学习如何自己玩新游戏这些技能有朝一日可能会被自主机器人使用。