新智元报道
来源:openai
编辑:元子
【新智元导读】在上周末彻底攻陷了Dota人类顶级职业战队OG后,OpenAI站出来介绍了OpenAI Five是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。
OpenAI Five是第一个在电子竞技游戏中击败世界冠军的人工智能,在上周末与2-0大败世界冠军Dota 2团队OG,这是AI第一次在直播中击败了电子竞技专家。
OG和OpenAI开发组
本次比赛还得出了两个惊人的发现:
尽管训练的时候专注于击败其他疯狂电脑,但OpenAI Five在比赛中却展现出和人类玩家的优秀的团队协作意识。这意味着未来的AI系统可以从竞争型AI转变为合作型AI
总决赛让OpenAI的科学家可以回答一个重要的研究问题:OpenAI Five在多大程度、以何种方式能够被确定的打败?并且可能是有史以来最大规模的、人们可以有意识地与之交互的高强度深层强化学习智能体的部署
彻底攻陷了人类顶级职业玩家后,OpenAI站出来介绍了OpenAI Five是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。
为什么选择Dota?
OpenAI Five的初衷是为了解决现有深度强化学习算法无法实现的问题。为此需要大幅增加工具的的能力、复杂的算法思想(例如分层强化学习)。
OpenAI Five将世界视为一堆必须破译的数字。它使用相同的通用学习代码,无论这些数字代表Dota游戏(约20,000个数字)或机器人手(约200个)的状态
为了构建OpenAI Five,研究人员创建了一个名为Rapid的系统,以前所未有的规模运行PPO。结果超出了研究人员最大的期望,产生出了世界级的Dota机器人,没有触及任何基本的性能限制。
当今的监督学习算法之所以能有如此强大功能,是以大量经验为代价的,这在游戏或模拟环境之外是不切实际的。研究人员认为减少经验量是深度学习的下一个挑战。
研究人员表示,从今天开始OpenAI Five将不会继续打比赛,但取得的进步和技术的发展将继续推动未来的工作。研究人员认为Dota对于监督学习开发来说比现在使用的标准环境更具有内在的趣味性和难度。
算力
OpenAI Five这次的胜利是由于一次重大变化:训练计算量增加了8倍。前期阶段研究人员通过提高培训规模来推动进一步的发展,之后将绝大部分算力用于培训单一的OpenAI Five模型,相当于延长了训练时间。
总的来说,当前版本的OpenAI Five已经消耗了800 petaflop/s-days,并且在10个实时月内获得了45000年的游戏经验,平均每天获得250年的模拟经验。OpenAI Five的总决赛版本与TI版本相比,胜率为99.9%。
迁移学习
尽管模型大小和游戏规则发生了变化,但目前版本的OpenAI Five自2018年6月以来一直在不断训练。在每种情况下,研究人员都能够将模型转移并继续培训,这对于其他领域的监督学习来说是一个开放的挑战。
据悉,这可能是监督学习智能体第一次使用如此长期的训练课程进行训练。
更多Dota英雄
研究人员看到从训练5个英雄到训练18英雄速度并没有减弱的很明显,于是假设对更多英雄来说也是如此,随后开始大量尝试整合新英雄。
研究人员花了几个星期的时间训练英雄池,最多达到了25个英雄。将这些英雄带到大约5k MMR(大约95%的Dota玩家)。尽管在进步,但学习速度还不够快,无法在总决赛之前达到职业水平。
研究人员没有太多时间调查原因,但他们认为可能需要更好的匹配扩展的英雄池,需要更多的训练时间让新英雄达到老英雄的同等水平。想象一下当你习惯了某个英雄后,学习新英雄的难度是多么大!
协同模式
它实际上感觉很好; 我的毒蛇在某些时候为我献出了生命。 他试图帮助我,想着“我确定她知道她在做什么”然后显然我没有。 但是,你知道,他相信我。 对于[人类]队友,我并没有那么多.-无论如何
在总决赛期间,研究人员展示了OpenAI Five与人类一起在团队中的表现,两队的成员都是2个真人带3个智能体
OpenAI Five与人类的协同作战能力为人类与人工智能互动的未来提供了一个引人注目的愿景:人工智能系统能够和人类协作并增强人类体验。
玩家认为从机器人队友哪里感受到了战友之情,并从这些先进的系统中学到了很多东西,整体来说是一种有趣的体验。
值得注意的是,OpenAI Five展示了zero-shot迁移学习,与人类并肩作战或者对抗人类。研究人员非常惊讶这一点和它一样有效。事实上,研究人员考虑在国际上进行协同作案韩比赛,但认为需要专门的训练。
OpenAI Five Arena
目前研究人员还不知道OpenAI Five在多大程度上能够通过更机智的策略被击败,所以研究人员推出了OpenAI Five Arena。这是一项公开的实验,任何人都可以跟OpenAI Five组队或者对战。
竞技场于4月18日星期四太平洋标准时间下午6点开放,并于4月21日星期日太平洋标准时间晚上11:59关闭。玩家需要注册,所有游戏的结果将自动报告给竞技场公共排行榜。
下一步干什么
一旦研究人员审查了OpenAI Five Arena的结果,研究人员将发布对OpenAI Five的更多技术分析,之后将继续使用OpenAI中的Dota 2环境。
研究人员已经看到过去两年在监督学习能力方面取得了快速进展,并认为Dota 2将在推进无论是通过较少的数据还是真正的人工智能合作实现有能力的表现方面,持续提供帮助。
参考链接
https://openai.com/blog/how-to-train-your-openai-five/
注册地址:
https://arena.openai.com/