优必选人形机器人正在叠衣服
优必选人形机器人Walker S接入文心一言大模型后,不仅掌握了叠衣服的动作,还能为用户提供穿搭建议;经过ChatGPT训练的人形机器人Figure 01,可以从桌面上一堆物品中准确挑出唯一的食物苹果……
如果说去年人形机器人企业喜欢秀“肌肉”展示机器人的行动能力,而进入2024年,这些企业迫切地秀起了“智商”展示人形机器人经过生成式人工智能(AIGC)训练后的聪明劲儿。
AIGC为人形机器人增智
人形机器人Figure 01与实验者互动
人形机器人与AIGC的融合应用吸引了科技巨头“真金白银”的青睐美国人形机器人公司Figure AI在3月宣布获得6.75亿美元融资,微软、Open AI、英伟达、亚马逊工业创新基金、英特尔投资等科技大厂赫然出现在投资方之列。
行业人士判断,Figure 01在AI大模型训练后能力快速进化,成为获得科技企业青睐的主要原因。今年1月,Figure 01通过端到端神经网络,仅经过10小时训练就掌握了制作咖啡的技能。1个月后,Figure 01已学会搬运箱子,并掌握了运送至传送带的新技能。3月,Figure 01不仅能够与人进行对话交互,理解人类的意图,还能够进行推理、自行识别、计划和执行任务。
对于AIGC让人形机器人“变聪明”的具体原理,产业专家告诉《中国电子报》记者:“可以理解为通过算法模拟人脑的运行机制,根据一定规模的数据和算力,实现人脑类似的智力。”专家解释道,经过AI大模型训练,机器人也能通过学习样本数据,像人类一样识别文字、图像和声音,了解和学习新事物,以帮助人类在复杂环境中执行复杂任务。
“大模型具备像‘思维链’这样一些复杂的能力,在面对复杂任务的时候知道如何拆分和理解,包括通过知识的引入来实现符合物理常识的规划。”中国人形机器人百人会副理事长、科大讯飞副总裁刘聪解释道。
人形机器人公司优必选相关负责人在接受《中国电子报》记者采访时,从研发角度解释了大模型对人形机器人研发的积极作用。他表示,AIGC让人形机器人的交互体验更加自然。在研发方面,AI大模型也作出了巨大贡献:一方面,生成式人工智能可以提升人形机器人的研发效率,自动生成特定目标的基础代码,节约工程师人力资源;另一方面,人形机器人可以借助大模型自动生成代码并完成既定目标,省去研发过程中非常细节的指令,使运动规划变得更加便捷。
北京理工华汇智能科技有限公司研发的人形机器人汇童
北京理工华汇智能科技有限公司团队提出了机器人生成与技能基元库融合的学习方法,研究基于机器人生成式的长程任务分解方法,提高机器人自主任务能力。该公司相关负责人表示,人形机器人可以通过其自研的机器人GPT分解长程任务指令,生成短程任务指令并匹配机器人技能库生成交互行为,构成决策回路。
具身智能的最佳范式
尽管AIGC让人形机器人具备了逻辑、分析思考及完成简单任务的能力,但是产业界一致认为,两者的关系不能简单理解为“AIGC让人形机器人更聪明”。
“ChatGPT等大模型展现出了处理多模态数据和满足人类需求的交互能力,但这种交互仍局限于数字世界。”中国工程院院士蒋昌俊在中国具身智能大会上表示,要实现真正的通用人工智能,需要赋予AI在真实物理世界中交互的能力。这意味着要让AI拥有实体,像人类一样具备感知、思考和行动能力。
相较于被行业专家称为“离身智能”的ChatGPT、Sora等依靠互联网数据训练的模型,“具身智能”则强调有物理身体的智能体与物理环境进行交互的能力。根据中国计算机学会的阐述,具身智能是指支持感觉和运动能力的物理智能体,像人类一样通过视觉、听觉、触觉等感官,以及语言、运动、交互等行为,完成一系列智能任务的能力。
简而言之,现阶段AI大模型可以帮助人们处理文字、图片和视频问题,却无法为人们解决物理生活中的问题……倒一杯水、做一餐饭、打扫房间的卫生,这样的任务需要具身智能来完成。而人形机器人被产业界视为具身智能的最理想范式。
“人形机器人像人一样有手有脚,有无穷的延展性。可以把具身智能最大的潜能发挥出来。”中国人形机器人百人会副秘书长、星动纪元创始人陈建宇详细解释了人形机器人作为具身智能的三点优势:一是可以最大程度地适配人类环境,人形机器人可以上下楼梯,直接使用门把手和桌子、椅子、杯子,无须改变根据人类的使用习惯设计的工具和环境;二是人形机器人可以直接搬运和采用人类的行为数据;三是人形机器人具备与人类相似的形态,更能满足人类的情感和审美诉求,特别适合在偏服务类的场景中应用。
黄仁勋与多个人形机器人同台亮相
“人工智能的下一个浪潮将是具身智能,即能理解、推理并与物理世界互动的智能系统。”英伟达首席执行官黄仁勋曾公开表示,“为通用人形机器人建立基础模型是当今人工智能领域最令人兴奋的问题之一。”
谷歌、英伟达、微软、亚马逊等科技企业火速瞄准“具身智能”赛道,从各个维度切入人形机器人领域。Open AI为一家挪威人形机器人公司1X Technologies提供技术支持。亚马逊投资了美国机器人公司Agility Robotics,其人形机器人Digit已经在美国得克萨斯州的仓库搬运塑料箱。谷歌发布新型机器人Transformer架构,通过动态分配计算资源,跳过非必要计算,提高训练效率和推理速度。英伟达发布人形机器人通用基础模型Project GR00T,旨在进一步推动其在机器人和具身智能方面的突破。还有消息称,苹果公司正在组建机器人团队。
聪明的大脑要搭配发达的四肢
在AIGC加持下的人形机器人会叠衣、泡茶、搬运的种种表现,也让人们开始畅想人形机器人作为劳动力的未来。对此,业内专家纷纷呼吁,人形机器人产业仍处于发展初期,切莫片面追逐AIGC的能力,让人形机器人误入“思想上的巨人、行动上的矮子”的歧途。理想的具身智能体不仅需要聪明的大脑作决策,还需要发达的四肢执行任务。
“硬件工程师一直在忙碌,软件工程师和算法工程师一直在等待。”中国人形机器人百人会副理事长、上海人形机器人中心董事长、中国北方车辆研究所所长刘勇表示,如今人形机器人能够与AI顺利融合发展,建立在机械本体数十年不断进化的基础上,例如传感器、执行器、新能源电池等关键器件的功能和成本都在不断优化。
中国人形机器人百人会专家委员会成员,香港大学机器人研究所所长席宁认为,AIGC不能帮人形机器人完成所有工作。他说,人形机器人完成工作需要解决四个维度的问题逻辑关系、时序关系、空间关系和互动关系。席宁表示:“AI大模型能解决的是第一个维度逻辑关系的问题,机器人可以根据语言命令分析问题和做好任务规划。但是对于机器人怎么抓物品、移动速度多快、如何定位目标等,AI大模型就无能为力了。”
工信部去年11月印发的《人形机器人创新发展指导意见》中指出,以大模型等人工智能技术突破为引领,在机器人已有成熟技术基础上,重点在人形机器人“大脑”和“小脑”、“肢体”关键技术、技术创新体系等领域取得突破。
美国工程院院士李飞飞团队研发的灵巧手可以完成剪纸等复杂动作
“关节和灵巧手是人形机器人机械本体进化的重要部件,灵巧手到底该怎样设计,怎样兼顾它的灵巧性和成本,这些都是需要探索的重要问题。”陈建宇表示。
在场景探索方面,研发团队纷纷结合具体应用场景进行研发,面向工业制造、灾害救援、危险作业、智慧物流、安防巡逻、服务娱乐等具体场景针对性地开发了人形机器人。例如,北京理工华汇智能科技有限公司研发的人形机器人“汇童”可以在火灾等灾害发生时,作为消防员替身自主进入极端环境实施救援工作,执行搜寻和搬运等具体任务。
除了提高关键部件性能、切合应用场景训练,行业专家还呼吁完善人形机器人供应链体系,降低本体成本。在专家看来,在“木桶效应”之下,任何短板都会成为人形机器大规模商业化进程的阻碍。