是什么在阻碍通用型机器人的诞生?
8月10日晚,雷军在小米十一周年“我的梦想,我的选择”年度演讲上正式发布了小米MIX 4和小米平板5系列等诸多旗舰产品。除此之外,最令人惊喜的就是结尾的“One More Thing”小米首款仿生四足机器人CyberDog“铁蛋”。
据介绍,CyberDog搭载了小米自研高性能伺服电机,最大提供3.2m/s的行走速度。内置超感视觉探知系统和AI语音交互系统,可实现自主识别跟随、SLAM建图和导航避障功能,还能支持多种仿生动作姿态。
在现场,雷军就让“铁蛋”表演了“握手”、“拜年”和“翻跟头”等多种功能。此外,CyberDog还具有宠物化特征,可以满足跟随主人的场景需求。
CyberDog
其实,自从波士顿动力(Boston Dynamics)的Spot机器狗火了以后,国内类似的产品层出不穷,包括宇树、、云深处、蔚蓝、哈崎乃至腾讯都有相关的四足机器人问世。
不过,或许是现实与理想之间的差距过于巨大,互联网舆论对于这类四足机器人普遍不是十分看好,较典型的评价有“这个有什么用?”、“它到底能干什么?”,等等。
的确,现有的机器人还无法实现帮你从冰箱里拿饮料、刷盘子、粉刷墙壁、搬东西上楼等等。我们大多数人能够接触到的性能最好的机器人就是一个带有激光雷达的扫地机器人,或者刚见起色的自动驾驶汽车。
但相比这些专用型机器人,或许“通用型机器人”(General-Purpose Robot,GPR)才是机器人技术的集大成者。也只有GPR才能满足我们对机器人最完美的想象。
通用型机器人可行吗?
要回答这个问题,我们需要从硬件和软件两个角度来分析。硬件层面,机器人硬件可以分为3部分:本体、传感器和大脑。就本体而言,波士顿动力公司的Spot机器狗就可以满足最基础的需求。
传感器要稍微复杂一些。几乎可以肯定的是,我们有足够好的视觉传感器。激光雷达也很好,麦克风无疑也是足够好的。然而,我们是否拥有足以用于GPR的触觉传感器还不确定。
最近一篇展示新型触觉传感器的论文显示,将垃圾分为7类的准确率为94%。这很好,但远没有达到人类的水平。不过,那篇论文仅仅依靠触觉传感器。如果视觉系统足以识别大多数物体,机器人手臂很可能在没有完美的触觉识别的情况下也能操纵它们。
另外,这篇论文也它展示了在极具挑战性的地形上的运动情况。在当前的触觉传感器水平上,机器人借助机器学习学会了与冰和岩石等棘手物质进行互动。就触觉传感器而言,我暂且认为是“快接近了”。
最后就是“大脑”了。你可能会认为大脑比传感器更难,但事实并非如此。我们知道,我们的计算机将能够运行所需的软件,因为它们是通用设备。我们每个GPR可能需要大量的计算机芯片,但如果允许一些芯片存在于云端而不是在机器人本身,我们就可以获得几乎无限的计算能力。
说完3大类硬件,我们再来聊聊软件。可以说,软件是真正的障碍,我们没有运行GPR所需的软件,而且需要很长的时间来开发它。更夸张点说,我们甚至不一定知道如何编写它。
既然毫无头绪,我们不妨从当前最火热的神经网络开始。通过观察 GPT-3和 AlphaGo Zero 的成功,我们可以提出一个假设建立一个通用机器人不需要神经网络的进步,我们可以通过我们今天拥有的大型神经网络来实现GPR。
按道理说,一个通用机器人只需要做几件事:理解人类的语言、将文字与实物联系起来、在不破坏任何东西的情况下在三维空间中运动、在理解完一个指令后制定一个计划实现它。
事实上,我们已经有了能做这些事情的神经网络。例如GPT-3、DALL-E、自动驾驶汽车,以及学会玩所有游戏的神经网络。而且,随着任务复杂度的提升,上述这类神经网络的能力也会跟着变强。
相比数据,更缺训练环境
和大量的数据支持相比,巨型神经网络的训练需要很长的时间以及至关重要的训练环境。正如自动驾驶汽车发展一样,我们需要首先建立一个虚拟的训练环境,让神经网络可以进行大部分的训练。
当然,一些训练将需要在现实世界中进行,但绝大部分将在虚拟中完成。这样一个训练环境将是成千上万(数百万)真实世界场景的集合,神经网络可以探索并与之互动。
然而,开发必要的训练环境是一项极其困难的任务,原因有二。
第一个是物理因素。就像电子游戏开始看起来像现实生活,但它们仍然只是物理建模。而现实是物理建模需要耗费的人力财力往往数以亿计。
第二个是多样性。如上所述,真实世界中有成千上万的物体,有数十亿种变化。所以训练环境也必须囊括这些变化中的一些重要部分,这样神经网络才能够归纳出所有的可能集合。而且每一个都必须达到模拟软件的物理保真度。
因此,一旦我们创造了一个具有前所未有保真度的物理模拟环境(我们可以运行成千上万的实例......),我们就必须让工程师找出现实世界中发现的数十亿物体的每一个物理参数吗?
不一定。AlphaFold是一个神经网络,在蛋白质折叠方面达到了惊人的预测能力水平。它所做的事情是“预测一个物体的物理性质”。我们完全有可能训练出能够预测(推断)日常物体物理属性的神经网络。
在实践中,它看起来是这样的你将把你的手机对准一个物理物体,并从各个角度拍摄它,也许手机会用不同层次/颜色的光来照亮它。然后你以几种方式与该物体互动、敲击它、向上和向下抛掷它、试着轻轻弯曲它、在地板上滚动它,也许你会写下它是什么做的。
然后,神经网络将在训练环境中创建一个虚拟版本的物体,具有其所有的物理特征。
数以百万计的人将不得不对数十亿的物体做类似的工作。但是,相对于创造GPR的大局,这是最容易的部分。
我们今天还没有这种虚拟化技术,甚至没有与之相当的东西。但它是开发训练具有GPR能力的神经网络所需的虚拟训练环境的关键一步。物理模拟和虚拟化是构建通用机器人必须克服的两大障碍。
这之后,就相对顺利了。我们可以在数千台极其强大的计算机上托管虚拟环境。另外一提,训练巨型神经网络仅在电力上就花费数亿美元。
算一笔账
总而言之,我们几乎拥有开发GPR所需的所有技术。那我们不妨来看看这样一个项目的经济可行性。
训练环境:Unity技术公司已经筹集了大约10亿美元来建立一个世界级的视频游戏引擎。假设我们的虚拟环境成本是其20倍,那就是200亿美元;
虚拟化100亿个对象:一个物体50美分似乎是合理的,那就是50亿美元;
训练神经网络:据估计,GPT-3需要1,200万美元来训练。让我们假设,我们需要的神经网络的训练费用是其1,000倍,总共就是120亿美元;
硬件:波士顿动力公司最近以略高于10亿美元的价格被出售,让我们假设开发我们的硬件的成本是其5倍(包括传感器、芯片和其他东西),共计是50亿美元;
制造:一旦我们完成了开发,我们将需要一个工厂。《经济学人》最近撰文指出,世界上最昂贵的工厂为170亿美元。虽然最现实是机器人工厂将比半导体工厂更便宜,但让我们假设第一个工厂成本是其两倍,共计340亿美元。
这样粗糙一算,总数就是760亿美元。这是一个令人匪夷所思的巨额资金。话虽如此,但相比于实现的目标而言,它并没有那么大。阿波罗计划的成本以今天的美元计算超过2,000亿美元。
更何况通用机器人能够赚更多的钱。一旦项目开展,它很快就会成为地球上最大的制造行业。现在,这个位置由汽车制造业占据,2020年全球收入约为3亿美元。通用机器人可能会比汽车更大,保守估计行业龙头企业将获得10%的市场价值(苹果的净利率是20%)。
这意味着,在满负荷生产的一年里,该公司可以赚到3,000亿美元。假设第一家工厂将生产价值1,000亿美元的GPR,在50%的利润率下,那就是500亿美元,足以收回所有的研发费用(或工厂的成本)。
参考资料:https://howthehell.substack.com/p/general-purpose-robots