《科创板日报》3月19日讯(编辑 宋子乔)一个有灵魂的机器人/仿真人被制造出来,磕磕碰碰地生活在人类世界,在此过程中碰撞出爱情、友情、亲情……相信你对这个剧本并不陌生,匹诺曹、剪刀手爱德华、银翼杀手等作品都已精彩演绎。
在现实世界中,这类具备自主决策和行动能力的机器人/仿真人是通用AI的高级形态具身智能机器人,一个具有物理实体、可与真实世界进行多模态交互,像人类一样感知和理解环境,并通过自主学习完成任务的智能体。
正如斯坦福大学计算机科学教授李飞飞所说,“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”
简单来说,具身智能机器人可以听懂人类语言并完成相应任务。理想很丰满,现实科学止步于“听懂人类语言”,人们依然严重依赖手写代码来实现对机器人的控制。
英伟达机器人研究高级主管、华盛顿大学教授 Dieter Fox 指出,机器人研究的一个关键目标是构建在现实世界中对人类有帮助的机器人。但要做到这一点,它们必须首先接触并学习如何与人类交互。
如何实现更加便利的人机交互?
GPT等大模型的出现,为推翻树立在人类与人工智能面前的“巴别塔”提供了新思路已有不少研究者尝试将多模态的大语言模型与机器人结合起来,通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,帮助机器人处理具身推理任务。
谷歌、微软的AI团队走在前列,试图以大模型为机器人注入灵魂。
3月8日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。
在最近的一项研究中,微软团队在探索如何将 OpenA研发的ChatGPT扩展到机器人领域,从而让我们用语言直观控制如机械臂、无人机、家庭辅助机器人等多个平台。研究人员展示了多个 ChatGPT 解决机器人难题的示例,以及在操作、空中和导航领域的复杂机器人部署。
两者抱有同样的期许:人类操作机器人,不需要学习复杂的编程语言或机器人系统的细节,“言出”(向机器人口述/比划需求)即“法随”(机器人完成任务)。
今年2月,谷歌拉响“红色代码”警报,以应对 ChatGPT 带来的威胁。其新推出的PaLM-E模型与具身智能密不可分,完成机器人具身任务一直是该模型研究的重点,谷歌是否有意押注具身机器人,以完成对ChatGPT聊天机器人的超越?
这个我们不得而知,但显然,微软并不懈怠,同样有志于此,其研究人员相信,基于语言的机器人控制将会为让机器人从科学实验室走进日常用户的生活中奠定基矗
如果说chatGPT为代表的大模型开启了通用AI新时代,那么多模态的、具身的、主动交互式的人工智能体一定是这一时代的必由之路。
或许你并不需要聪明伶俐的在线陪聊教会你什么是量子纠缠,但你可能需要一个“身边人”为你做饭洗碗递工具。