大数据文摘出品
作者:张强、宋欣仪
人类每天都在进行不同层次的规划活动,比如说每天早上起床以后,你习惯性走到厨房喝一杯咖啡:你会先走下走廊,左转进入过道,然后进入右边的房间。
对于这些习惯成自然的流程,你无需思考,不会刻意去想你要使用哪一个肢体动作。但对于机器人而言,这并非易事。
Facebook刚刚发布了主导研究的新系统,让机器人也可以通过观看视频,拆解动作,并学习如何组合这些动作形成自己的规划。
层级抽象结构(hierarchal abstractions)
已经有越来越多的研究表明,层级抽象结构(即视觉运动子程序)可以提高强化学习中的采样效率,这是一种利用奖励驱动智能体达到目标的AI训练技术。
在过去,这些层次结构必须通过端到端的训练来手动编码或获取,而这需要大量的时间、注意力和长久的耐心。
Facebook这次的新研究提出,刻意让机器人通过观看视频学习导航,描述一个通过用逆向机器学习模型摄取视频伪标签(在本文中,伪标签指智能体想象的行为),从而学习层次结构的系统。
论文作者分别来自Facebook AI研究室,加州大学伯克利分校和伊利诺伊大学厄巴纳香槟分校。
这让人想起去年Facebook开源的一组模型Talk the Walk。它只需要360°的全景图像、自然语言以及一张有当地地标(比如银行和餐馆)的地图就可以通过问路,实现在整个纽约市的街道导航。
具体实现方式
机器人通过观看这些视频,研究这些简单的视觉运动子程序是如何组合以达到高级的抽象层次,这些视觉运动子程序能够解决一些已知问题,即经典的规划中的高计算成本和强化学习中的样本复杂性的问题。
研究者提出的系统分为两个阶段,在第一阶段,研究人员通过运行在随机探索数据上自我监督的智能体模型生成伪标签。模型从分布在四个环境中的1500个不同位置学习,在不同的位置随机执行30个不同步骤的动作,从而产生45,000个交互样本。
在系统的第二阶段,大约217,000个伪标记视频被剪辑成220万个单独的小视频,再将其输入预测参考视频中相应动作的模型,同时再通过一个单独的网络检查参考视频中的动作序列,并编码其行为作为向量。另一个模型通过推断第一帧的轨迹的编码,来预测哪一个子程序可以调用给已有的视频郑
交互样本从1000万减少到4.5万
在一个部署在办公环境的真实世界中的机器人实验中,研究人员表明,相比单纯交互的方法,至少应用在之前从未见过的环境上,通过观看视频来学习技能(这里指采用最高效的方式前往目标位置)的方式能达到更好的效果。
最令人印象深刻的是,训练有素的模型学会了自主地前进导航并避开障碍物,比通过单纯交互方式要快4倍,这使得机器人能够做到完全自主地长距离行进。
“特别引人注目的是,这些模型从总计45,000次的环境交互中学习,”研究人员写道,“从第一视角的视频中成功学习,使得智能体能够执行连贯的轨迹,即使它只执行过随机动作。此外,它优于最先进的技能学习技术,该技术需要更大量的训练样本,大致1000万个。”
相关报道:
https://venturebeat.com/2019/05/30/facebooks-ai-learns-how-to-get-around-an-office-by-watching-videos/
论文地址:
https://arxiv.org/abs/1905.12612