生成式人工智能正在加速人形机器人的生长。多模态的大模型,让机器人可以观察和模仿人类,学会人类习惯性的动作,开始完成一些简单的任务。
技术、市场与政策一起发力,催生人形机器人进入量产时代,比汽车更便宜。人形机器人将是真正制造业强国的标志。
10月底,工信部发布《人形机器人创新发展指导意见》,谋划三年,展望五年,将人形机器人的关键技术,类比为“大脑、小脑、肢体”。大脑意味着对泛化场景的感知、理解与决策,它的发展主要依赖于人工智能大模型的进展,尤其是多模态大模型推动下的“具身智能”。
所有的生物,都是通过身体体验这个物理世界,逐步产生智能的。人形机器人要成为真正的智能体,也要经过这一步。这正是大模型与生成式人工智能最热门的探索方向。
今年,谷歌先后发布了能理解视觉语言的PaLM-E等多模态大模型,让机器人将视觉转化为行动的RT-2;微软则发布了“ ChatGPT for Robotics ”,允许人类用熟悉的自然语言对机器人下达指令。人类不必过多地标注数据,机器人可以更自主地控制自己。
动作模态是具身智能的关键。特斯拉的Optimus能模仿人类动作,将连续的运动信号内化为自己能理解的指令。这些动作彼此高度依赖,它根据上一个动作的输入,来输出下一个动作。然后,视觉画面又给了它反馈,让它明白自己是否做的到位,是否需要自我纠正。
这让特斯拉Optimus,距离首次亮相才过两年,就进步迅速。去年的AI日上,它还是由几个大汉搀扶着上舞台,和大家打招呼的。今年上半年,它已经可以自己走动了;下半年,它还学会了干家务,累了还能休息一下,做一个舒展的瑜伽动作。
人形机器人本质是通用机器人:它可以适应多种环境,执行不同的任务;稍加学习,还能做得越来越好。具身智能泛化了人形机器人的能力。给它一个你想要的结果,它就会自动处理三维物理世界扔给你的所有细节。
通用机器人还意味着在人类社会即插即用。这个三维物理世界,是以人类为中心的。人形机器人的存在,是为了适应这些环境。不像上一代机器人,为了让它更好地工作,人类还得花一大笔钱,为它修建标准化的场地,制造专门的工具,甚至还要让人类离得远远的。
这就是为什么现有的人形机器人,身材与造型基本与人类相仿。特斯拉的Optimus身高173厘米,体重57公斤,小米的CyberOne、傅里叶智能的GR-1、Agility Robotics的Digit,也都差不多;宇树科技的Unitree高高瘦瘦,波士顿动力的Atlas更为敦实。
这不仅让它们看上去更亲切,更让它与人类社会无缝交互。而且,这也能更好地形成人类与机器人之间的直接映射,让训练与反馈更具体。
市场正在探索,拥有了泛化场景的感知、理解与决策的“大脑”的最小可行(MVP)的人形机器人是什么样子。一条路线更侧重稳健有力的双足,一条路线更侧重灵巧精密的双手。两者都需要负责运动控制的“小脑”与刚柔耦合的“肢体”。中国希望到了2025年核心部组件安全可控,到了2027年供应链体系安全可控。
Apptronik迭代了好几代只有上半身的人形机器人;Agility Robotics设计过一个有史以来百米短跑最快的人形机器人,它只有下半身。它们暂时不考虑英国Engineered Arts 公司那样面部表情和肢体语言丰富的人形机器人Ameca。
还没到颜值影响机器人就业的时候。在美国劳工部的描述中,大约65%的工种需要移动,其中20%需要两条腿来完成;高达98.7%的工作,需要灵巧双手精细操作。工作世界中几乎所有的东西,都是为了符合人类双手工作的具体细节而构建的。
人形机器人驱动控制技术专利占比趋势
二十多年来,人形机器人技术专利的申请量逐步上升,本体结构、智能感知与驱动控制备受重视。专利申请的重心正在逐步从下肢结构与步态控制,转向手臂结构及其运动控制,且有进一步增加的趋势。今年很多“具身智能”的演示,几乎都是机器臂完成的。“人”就是这样的生物:大约四分之一的骨头位于双手;手指在一生中弯曲和伸展约 25 万次;手掌共有17,000个触觉感受器和游离神经末梢。
市场尝试拥抱人形机器人。它不知疲倦,没有人口危机,长期来看,单位时间成本更低。继福特买去研究解决“最后一公里”问题后,今年,亚马逊也试用了Agility Robotics的人形机器人Digit。它最大承重16公斤,续航2小时,能将空箱子递给员工,并回收放到架子上。Digit计划于2024年量产。第一条生产线是位于俄勒冈州的RoboFab,年最大产能1万台。
Digit原型的成本高达25万美元。特斯拉希望Optimus成本降至2万美元。Figure创始人认为没有理由做不到:一个人形机器人,大约1000 个零件,重量70 公斤;一辆电动汽车1万个零件,重量2000公斤左右。秘诀在于规模量产。根据经验曲线(Experience Curve),每当量产翻倍,成本有望下降至少15%。
特斯拉在电动汽车价格战上颇有心得,这次也不会例外。人形机器人技术与动力电池技术、自动驾驶技术等日益融合,传感器、芯片等核心供应链高度复用。这也是为什么汽车企业尤为热衷人形机器人。除了特斯拉,始祖级的Ashimo来自日本本田,话题级的波士顿动力被韩国现代收编;在国内,小鹏发布PX5,比亚迪投资智元,小米则同时宣布了汽车与CyberOne。
当然也需要垂直自研。Figure与宇树科技都认为,现有的适合高速场景的车用硬件,无法在功能上或价格上,完全适配低速场景的人形机器人。得益于自研硬件在商业量产的四足机器人上的验证,从立项到推出人形机器人,宇树科技只用了半年。
只有少数几个国家,具备量产商用人形机器人的条件。中国是世界上最大的机器人市场,尽管迄今为止主要是工业机器人与服务机器人,但更通用的人形机器人,将替代它们的其中一部分,并在持续迭代中创造新的增量市常为了服务这个高速增长的市场,国际机器人联合会(IFR)称,供应链企业不断在中国增加产能。此外,应用市场的繁荣,为训练“具身智能”提供了更充沛的高质量数据。
今年以来,中国各级政府正在引导创业者与投资者抓住机遇。《人形机器人创新发展指导意见》是全球第一部由政府出台的顶层设计文件。京津冀地区早已行动起来。北京设立100亿元规模的机器人产业基金;河北省20亿元的机器人产业基金成立;唐山成立50亿人民币的机器人产业基金。长三角与珠三角地区也有相应政策法规,那里产业集群密集,自下而上追逐商机。
设计和商业化下一代人形机器人的竞赛正在进行中。它在人类社会的渗透曲线,将与电动汽车相似。特斯拉先后在2008年与2012年开始交付RoadSter与Model S。2024年,将是人形机器人的“RoadSter时刻”,卖的不多,但完成了商业化验证,为2027年的“Model S时刻”蓄力。这一次,它可能会首先发生在中国。
主要参考报告:
人形机器人技术专利分析报告
人形机器人创新发展指导意见
WR Industrial Robots 2023
WR Service Robots 2023
RT-2: Vision-Language-Action ModelsTransfer Web Knowledge to Robotic Control