资料来源:Allshire等人。
去年,马克斯普朗克智能系统研究所(Max Planck Institute for Intelligent Systems)组织了“真正的机器人挑战赛”(Real Robot Challenge),这是一场挑战学术实验室的竞赛,要求他们提出解决方案,用低成本的机器人手来重新定位立方体。参与挑战的团队被要求解决一系列不同难度的物体操作问题。
为了解决真正的机器人挑战带来的一个问题,多伦多大学向量研究所、苏黎世联邦理工学院和MPI Tubingen的研究人员开发了一个系统,允许机器人获得具有挑战性的灵活操作技能,有效地将这些技能从模拟转移到真正的机器人。在arXiv上预先发表的一篇论文中,该系统在挑战组织者提出的远程TriFinger系统完成涉及灵巧操作的挑战性任务时,取得了83%的显著成功率。
“我们的目标是使用基于学习的方法,以低成本的方式解决去年真正的机器人挑战中引入的问题,”开展这项研究的研究人员之一阿尼梅什加格(Animesh Garg)告诉TechXplore。“OpenAI的Dactyl系统之前的工作给我们带来了特别的启发,这些工作表明,使用无模型强化学习结合领域随机化来解决复杂的操作任务是可能的。”
从本质上讲,加格和他的同事们想要证明,他们可以用特里芬格机器人系统解决灵巧的操作任务,用比之前研究中更少的资源将模拟结果转移到现实世界中。为了做到这一点,他们在模拟中训练了一个强化学习代理,并创建了一种深度学习技术,可以根据机器人的观察计划未来的行动。
资料来源:Allshire等人。
加格解释说:“我们遵循的过程包括四个主要步骤:在物理模拟中设置环境,为问题规格选择正确的参数,学习稳健的政策,并将我们的方法应用于一个真实的机器人。”“首先,我们创建了一个模拟环境,与我们试图解决的真实场景相对应。”
模拟环境是使用NVIDIA最近发布的Isaac Gym Simulator创建的。这个模拟器可以实现高度逼真的模拟,利用NVIDIA gpu的能力。通过使用Isaac Gym平台,Garg和他的同事能够显著减少将灵活的操作技能从模拟转换到现实世界所需的计算量,降低他们的系统从一个拥有数百个cpu和多个GPU的集群到一个GPU的需求。
加格说:“强化学习要求我们在问题中使用适合解决任务的变量表示。”“真正的机器人挑战要求参赛者在位置和方向上休息立方体。这使得这项任务比之前的努力更具挑战性,因为学习后的神经网络控制器需要能够权衡这两个目标。”
为了解决“真正的机器人”挑战带来的物体操作问题,加格和他的同事决定使用“关键点再现”,一种通过聚焦图像中的主要“兴趣点”来再现物体的方法。这些点不受图像大孝旋转、扭曲或其他变化的影响而保持不变。
资料来源:Allshire等人。
在他们的研究中,研究人员用关键点来代表一个立方体的姿态,机器人希望在输入到神经网络的图像数据中对这个立方体进行操作。他们还用它们来计算所谓的奖励功能,最终可以让强化学习算法随着时间的推移提高它们的表现。
加格说:“最后,我们给环境添加了随机因素。”“这包括随机输入到网络,它采取的行动,以及各种环境参数,如立方体的摩擦和添加随机力。这样做的结果是迫使神经网络控制器表现出对一系列环境参数的鲁棒行为。”
研究人员在他们用Isaac Gym创建的模拟环境中训练了他们的强化学习模型,历时一天。在仿真中,该算法使用了16000个模拟机器人,产生约50,000步/秒的数据,然后用于训练网络。
加格说:“然后,该政策被上传到机器人农场,在那里,它被部署在多个类似机器人池中的任意一个机器人上。”“在这里,政策不会根据每个机器人的独特参数进行重新训练它已经能够适应它们。在操作任务完成后,数据被上传,供研究人员访问。”
资料来源:Allshire等人。
加格和他的同事最终能够有效地将深度强化学习算法在模拟中获得的结果转移到真正的机器人上,而计算能力远远低于其他团队过去所需要的。此外,他们还演示了高度并行仿真工具与现代深度强化学习方法的有效集成,以有效解决具有挑战性的灵巧操作任务。
研究人员还发现,使用关键点表示法可以更快地训练,在现实任务中获得更高的成功率。在未来,他们开发的框架将有助于加速关于灵巧操作和sim2real转移的研究,例如允许研究人员完全在模拟中开发策略,使用适度的计算资源,并将它们部署在真正的低成本机器人上。
加格说:“我们现在希望在我们的框架基础上继续推进手拉手操作的状态,以实现手拉手放置以外的更通用的操作。”“这项工作为我们研究操纵语言的核心概念奠定了基础,特别是涉及直接抓取和物体重新定位的任务,从打开水瓶到抓取咖啡杯。”