新智元报道
来源:VentureBeat
编辑:鹏飞
【新智元导读】Facebook AI Research团队在训练两个Sawyer机械臂操作目标对象时提出了一种模式训练方法,研究人员认为许多任务学习的过程都可分为两个阶段:一是学习任务模式(如动作是抓、握、扭、拾取等),二是学习使用相关动作着力的依据(如施力位置、力的大孝目标姿势等)。通过这两个阶段的视觉图像学习,大约4到10小时即学会了2000种操作技能,成功率超过90%。>>>人工智能改变中国,我们还要跨越这三座大山 | 献礼 70 周年
双臂机器人如何完成打开瓶子的任务?
总是需要用一只手抓住瓶子的底部,同时用另一只手抓住瓶盖并拧开,这种对人类来说小儿科的操作,让机器来做就要费很多事。这种高级操作步骤,就是所谓的Schema。
不过值得庆幸的是,它不受对象的几何和空间状态的影响。不过,与旨在通过学习策略来解决任务的强化学习技术相比,schema的优势在于:不需要在数小时、数周甚至数月的时间内提取数百万个示例。
最近,Facebook AI Research的一个团队,试图使用两个可以从库中选择正确步骤的Sawyer机械臂来实现这个目的。在每个时间步长上,他们的智能体都必须决定使用什么技能、以及要使用哪些论据来达成目标。例如,施加力的位置、力的大孝要移动的目标姿势等等。
尽管涉及复杂性,不过该团队表示他们的方法提高了学习效率,因此仅需几个小时的训练,机械臂就可以发现操纵技能。
团队的主要见解是:对于许多任务,学习过程可以分为两个部分,分别是(1)学习任务模式和(2)学习为不同技能选择适当参数化的策略。
他们认为,这种方法可以加快学习速度,部分原因是可以使用来自给定任务不同版本的数据来提高共享技能。而且,他们说这允许在相关任务之间转移学习到的模式。
该论文的共同作者详细解释称,假设我们已经学会了一种很好的方案,在一个模拟环境中我们可以访问对象的姿势、几何信息等、以及更多内容,然后在这个模拟环境中举起个长条,那么我们就可以将该模式重新用于相关任务,例如仅从原始摄像机观察结果中拾取现实世界中的托盘。
即使状态空间和最佳参数化(例如,抓握姿势)都存在显著差异。由于该模式是固定的,因此针对该任务栏提取任务的策略学习将非常有效,因为它仅需要学习每种技能的(与观察相关的)参数。
研究人员为上述两个机械臂提供了一个通用的技能库,例如扭转、提升和伸展,他们必须将其应用于涉及不同对象、几何形状和初始姿势的多个横向提升、拾娶打开和旋转任务。
在MuJoCo(模拟环境)中,通过使用低维输入数据进行训练,例如几何和本体感受特征(关节位置,关节速度,末端执行器姿势)等,然后在模拟和现实世界中都转换为可视输入。
在实验过程中,Sawyer手臂(配备摄像头,并由Facebook的PyRobot开源机器人平台控制)的任务是操纵包括面杖、足球、玻璃罐和T型扳手在内的9个常用物品。
完成任何任务都需要两个相互配合的爪子。尽管必须从原始视觉图像中学习,但他们说系统在大约4到10个小时的训练中学会了使用2000种技能来操纵大多数项目,并且成功率超过90%。
论文的共同作者写道:“我们已经研究了如何利用与状态无关的技能序列来大大提高无模型强化学习的样本效率。此外,我们已经通过实验表明,将在模拟环境中学习到的技能序列,转移到现实世界中的任务,使我们能够非常有效地解决图像中的稀疏奖励问题,从而使训练真正的机器人执行诸如双手操作之类的复杂技能变得可行。”
参考链接:
https://venturebeat.com/2019/10/07/facebooks-ai-teaches-robots-to-manipulate-objects-in-less-than-10-hours-of-training/