文/陈根
人工智能技术的发展离不开大量的数据资源,其中,最需要数据的技术之一就是深度强化学习,即人工智能通过反复进行的数百万次模拟、试错进行学习。这也意味着,资金较为缺乏的学术界实验室很难赶上富有的科技公司。
近日,来自南加州大学和英特尔实验室的一个团队创造了一种方法,可以在学术实验室常见的硬件上训练深度强化学习算法。在2020年国际机器学习大会(ICML)上,他们发表了一篇论文,描述了他们如何能够使用一个高端工作站来训练人工智能。
有趣的是,该项目的灵感来源与研究人员的研究需求息息相关。该项目的主要作者,南加州大学的研究生AlekseiPetrenko在英特尔的暑期实习即将结束时,失去了进入该公司超级计算集群的机会,使尚未完成的深度强化学习项目陷入危险之中。所以他和同事们决定找到一种方法,继续研究其项目。
深度强化学习的领先方法是将一个人工智能体置于一个模拟环境中,该环境为实现某些目标提供奖励,智能体以此作为反馈来制定最佳策略。这涉及到三个主要的计算工作:模拟环境和Agent;根据学习到的规则决定下一步做什么,称为策略;并使用这些操作的结果更新策略。
Petrenko表示,训练总是受到最慢过程的限制,但在标准的深度强化学习方法中,这三项工作往往是交织在一起的,因此很难单独优化它们。研究人员的新方法,被称为样本工厂,将它们分开,这样资源就可以被专门用来使它们都以峰值速度运行。
Petrenko解释说,进程之间的数据管道化是另一个主要瓶颈,因为这些数据通常会分散在多台机器上。而其团队利用了在一台机器上工作的优势,简单地将所有数据塞进共享内存,所有进程都可以同时访问这些数据,这极大加快了运行的速度,而后,在3D训练环境DeepMindLab中,他们的训练速度达到每秒4万帧,比第二名提高了15%。
此外,法国里昂国家应用科学研究所从事深度强化学习研究的研究生,Edward Beeching表示,这种方法可能难以应对记忆密集型挑战,比如Facebook去年发布的真实感3D模拟器Habitat。但他补充说,这类有效的培训方法对于小型研究团队至关重要。