您可能已经了解到苏黎世大学通过AI实现了无人机的杂技飞行,IEEE Spectrum的这篇新闻将为您介绍更多的技术细节。
这种无人机可以完成即使是对最优秀的飞行员来说都具有挑战性的表演。
Quadrotor是有史以来最敏捷,最灵动的机器之一。在熟练的飞手手中,他们可以作出一系列惊人的空中机动动作。尽管近年来无人机在真实环境中的自主飞行已经有了不错的进步,但它们仍未展示出与人工操作的无人机相等的灵敏性。
最近,苏黎世大学和苏黎世联邦理工学院的机器人与感知小组与英特尔合作开发了一套神经网络训练方法。这套方法能让四旋翼无人机仅通过机载电脑和传感器就可以进行非常极限的机动动作。
有两点值得注意的地方:这些四旋翼无人机在进行这些机动动作时,是完全自主的,没有依赖任何运动捕捉设备或外部摄像机(所有传感与计算都在无人机上进行)。另一方面,整套系统的AI训练都是在仿真中完成的并直接应用到实机上的,没有从仿真到实机的转移步骤。
通常来说,无人机从仿真到实机落地需要将无人机和跟踪系统结合,以使其在调参时不会因为仿真和实机的巨大差异而陷入泥沼之中。研究人员在描述这套系统的论文中写道:“即使是微小的错误也可能导致灾难性的后果。”
为了实现这种与“零次学习”类似的,从无到有将模拟映射到真实场景的转换,模拟中的神经训练网络使用到了专家控制器(expert controller),它很明白需要教些什么给那些知识储备并不完善的“学生控制器(student controller)”。这意味着,当“学生”在跟随“专家”学习的过程中,他们最终获取到的“知识(模拟感官输入)”是经过了抽象的,这会帮助它们认识真实世界中并没有精确数据的各种事物。这涉及到将图像数据进行抽象化模拟。而当我们无法分辨抽象的模拟与抽象的现实之间的差异时,这套系统就能实现从模拟到真实的飞跃。
阿木点评:“零次学习”指的是在没有某个类别的训练样本的情况下,可以通过学习一个有相同映射特征的样本来处理没有见过的类别。例如,一匹马的主要特征和抽象化概念(通过四条腿站立,有修长的躯干和一个脑袋),在驴或骡子上也有体现。也许我们没有见过驴或骡子,但我们知道马,那么我们看到不认识的驴时就可以说“这个东西和马很像”。
研究人员是通过Gazebo进行仿真的,Gazebo稍加修改就可以很好地进行四旋翼无人机的物理仿真。在硬件方面,研究人员使用搭载了Nvidia Jetson TX2和Intel RealSense T265(针对V-SLAM进行了优化的双目鱼眼摄像头)的无人机进行了实验,该无人机自重1.5kg,具有4:1的推重比。它通过AI进行了训练,可以作出三种极限机动动作和它们所有的组合形式。
极限飞行技巧的参考轨迹
上面的轨迹依次为:Powerloop、Barrel Roll、MattyFlip。
下面的轨迹这是这三种机动的组合。
所有这些机动动作都需要谨慎的操作和承受高达3 G的加速度,而MattyFlip对人类飞行员来说尤其是一种极具挑战的空中机动,因为整个机动动作都是在向后飞行时完成的。尽管如此,在进行了仅仅几个小时的模拟训练后,无人机完全具备了在现实世界中实现在这些机动动作的能力,甚至在复合机动中预测出一点接下来会执行的动作。当然,在迅速应对意外情况方面专业飞手仍然比AI更具优势。当我们在户外进行操作无人机时,从突然的劲风到愤怒的小鸟,到处都是无人机的天敌。
为了获得更多详细信息,我们(IEEE Spectrum)与苏黎世大学机器人感知小组的安东尼奥洛奎西奥(Antonio Loquercio)进行了交谈。
IEEE Spectrum:您能解释一下抽象层如何与模拟传感器对接以实现有效的从模拟到真实的转换吗?
安东尼奥洛奎西奥(Antonio Loquercio):抽象层将在原始的传感器信息上应用一个特殊的函数,同样的函数还会被应用于真实和模拟环境的传感器。该函数的输出结果是“抽象化后的传感器测量值”,这使得对同一场景来说,模拟和真实环境的区别就会变得模糊。例如,假设我们有一系列的模拟图像和真实图像。考虑到渲染的差异,我们可以很容易地将真实对象与模拟对象区分开。但是,如果我们应用了“特征追踪”的抽象函数,它们是时间上的点对应关系,由于点对应关系与渲染无关,因此很难确定哪个是模拟的特征,哪个又是真实的特征。这适用于人类以及神经网络:通过原始图像进行的训练策略会使得其提供的模拟到真实的转换能力较低(由于模拟和真实的图像之间差异太大),而通过抽象图像进行的训练则具有较高的转换能力。
IEEE Spectrum:在如此极限的机动中,像Intel RealSense T265这类双目摄像头的视觉输入对于状态估计有什么用?使用事件相机会改善状态估计吗?
安东尼奥洛奎西奥(Antonio Loquercio):我们的端到端控制器不需要状态估计模块。但是,它与传统状态估计管线共享某些组件,特别是特征提取器和惯性测量单元(IMU)的预处理和集成函数。神经网络的输入是特征追踪和IMU的测量值。当查看参考度低的图像时(例如,当摄像机朝向天空时),神经网络将主要依靠IMU的输入。当有更多视觉特征可用时,神经网络将用于校正来自IMU的数据漂移。总的来说,我们注意到在很短的时间内,IMU的测量就足以满足。但时间一长,视觉信息对于修正IMU的数据漂移并完成操纵是必不可少的。视觉信息在时间最长的机动动作中最多可将坠机几率降低30%。我们很肯定事件摄影机可以在当前方法上作出进一步改进,因为它们可以在无人机高速运行时提供有价值的视觉信息。
IEEE Spectrum:您说无人机经过训练后可以作出“即使是专业级飞行员也无法完成的机动动作”,有什么实际的例子吗?
安东尼奥洛奎西奥(Antonio Loquercio):Matty Flip可能是我们能实现的最好的机动动作之一,但这对人类飞行员来说却非常具有挑战性。因为它要求飞行员一直向后看来进行Power Loop。对人类来说,这是极具挑战性的动作,因为他们根本看不到前进的方向,也无法估计实时速度。而对无人机来说,这种机动根本没有问题,因为它们可以自己估计前进速度和倒退速度。
IEEE Spectrum:该系统的性能受到哪些限制?
安东尼奥洛奎西奥(Antonio Loquercio):目前的主要限制是机动的持续时间。我们从未训练过执行时间超过20秒的空中机动。我们计划未来解决这一限制,并训练通用的控制器,使其能够在较小的数据漂移下,以这种敏捷的方式飞行更长的时间。这样我们就可以开始在无人机竞赛中与人类飞行员进行竞争。
IEEE Spectrum:您能谈谈如何将这里开发的技术应用到无人机机动以外的领域吗?
安东尼奥洛奎西奥(Antonio Loquercio):当前的成果使无人机能够在空旷环境中进行机动动作和敏捷地飞行。我们现在正在努力在复杂环境下实现同样的效果,这需要使该系统更加了解周围环境。无人机机动当然只是一个展示方式。我们选择它是因为它能对控制器的性能进行压力测试。但是,其他一些需要无人机快速灵活飞行的场景也可以从我们的系统中受益。例如无人机递送,搜救或勘察。更快的速度使无人机能够在更短的时间内覆盖更多的空间,从而节省了电量消耗。事实上,自主无人机在进行灵敏飞行时的电量消耗非常接近缓速悬停时的电量消耗,真是不可思议。
- End -
技术发展的日新月异,阿木实验室将紧跟技术的脚步,不断把无人机行业最新的技术和硬件推荐给大家。看到经过我们培训的学员在技术上突飞猛进,是我们培训最大的价值。如果你在无人机行业,就请关注我们的公众号,我们将持续发布无人机行业最有价值的信息和技术。