机器人如何更像人?
作者/IT时报记者沈毅斌
编辑/ 孙妍
两个月前在上海举办的世界人工智能大会上,来自多家企业的人形机器人“十八金刚”集体出道,不仅成为镇馆之宝,还向观众展现出一张未来科技蓝图。作为改革开放“排头兵”,深圳也加入由AI卷起的科技浪潮中。
9月8日至10日,以“智创未来价值链接”为主题的第五届深圳国际人工智能展(GAIE)在深圳会展中心拉开帷幕。展会现场,迎宾巡更机器人在入口处迎接远道而来的观众,并发放论坛议程;休息区可以品尝咖啡机器人和炒面机器人的“手艺”;智能访客机器人回答着观展问题......具身智能凭借强大的交互能力,成为全场焦点。
目前,具身智能在语言对话交互方面已经取得一定进步,不过在行动、情感等方面的交互还较为简单,恐怖谷效应依然存在。“人形机器人在交互领域达到‘手眼心脑’协同,实现人机共融,才是未来发展的方向。”数字华夏解决方案总经理戴鹏表示。
行动交互
输入感知信息,输出运动执行
“各位参会的先生们女士们,以及现场的机器人朋友们,大家好。”在智能机器人创新发展论坛上,北京大学人工智能研究院、具身智能与机器人研究中心主任刘宏用一句开玩笑式的打招呼方式吸引了观众的注意。之所以这样打招呼,刘宏说,因为已经将机器人看作是一个有思想的独立个体,未来将是人机共存的时代。
如今,大模型的出现赋予具身智能一颗“智慧大脑”,也推动具身智能走向更深的应用场景。但想要成为独立个体,还要求具身智能将思考变为行动,具备一套强大的执行交互能力。在刘宏眼中,将输入的感知信息转化为输出的运动执行,才能被定义为具身智能。同时需要具备安全性、灵活性、流畅度、自主性,即行为越来越像人,才能实现人机自然交互。
行为认知学习和未来运动预测是行动交互的关键。在行为认知方面,多位业内人士都表示需要以人脑为参考。忆海原识总裁助理陈诗薇在论坛上表示,需要为具身智能打造一个类脑智能,即利用丰富的基础模型,结合生物神经系统工作原理的技术体系。相比深度学习体系,类脑计算体系结构由扩展机制、变量体系、抽象模块、基础模型等多种核心组成,结构更加复杂,却具有较强的可塑性机制,可快速刻画出行为的因果联系,数据量小也能进行训练。
中国科学院院士、北京科学智能研究院理事长鄂维南在论坛上也表示,下一代大模型实现进一步智能化,需要借鉴人脑的“记忆分层”,将技术框架进行分层处理。
在未来运动预测方面,目前基于RNN方法(循环神经网络),可以学习时序数据中的动态依赖性。简单理解是通过反馈连接,将此前识别信息用于当前决策中。但人体运动是一种相互组合的复合运动,例如走路动作由迈步和摆手两个原子动作组成,而训练数据不足会使得人体运动预测任务面临挑战,学习中的误差也会积累。
对此,刘宏提出一个复合动作生成模块,该模块基于VAE模型(变分自编码器,学习潜在变量,生成新的数据样本),将复合动作拆分提炼成若干个原子动作,再组合成动作序列进行行为交互训练。这就意味着使用原子动作训练就可以生成合成复合运动,解决复合运动训练数据收集费时费力的痛点。
尽管已经有解决方案提出,但是浙江大学智能系统与控制研究所机器人实验室主任熊蓉认为,技术层面还需要进一步打磨,包括从提升整个运动的可靠性,长时间长距离拟人化的各种动态运动;操作层面,需要提升适应各种场景的智能性;从产品上来说,需要去定义适合市场需求的产品,并且要去打造供应链,降低成本,以及面向应用去做各种开发。
情感交互
手眼心脑协同,避免恐怖谷效应
在某个展会上,几位拥有长发、人脸的人形机器人舞动双手,跳起网红舞蹈“科目三”。尽管动作十分标准,但面对越来越像人的人形机器人,难免会产生恐怖谷效应。仅做到行动交互并不能让人类打心底接受人形机器人,因此需要提升情感交互能力。
“我们需要一款‘有温度’的人形交互机器人。”戴鹏在论坛上表示,传统人形协作机器人具备自动控制和编程能力,可以与人类在同一工作空间协同作业;而有温度的人形交互机器人,是实现和人类一样“手眼心脑”协同。“眼”为眼神交流与表情互动;“心”则能读懂人的喜怒哀乐,感知人类细微且丰富的情感和认知状态;“脑”是具备丰富的通用知识,能进行有深度的情感沟通,其中最直观的感受便是表情的呈现。
以数字华夏打造的交互型人形机器人“夏澜”为例,脸部多达26个执行器,19个电机模拟面部肌肉进行控制。表情交互技术以多模态大模型为基础,通过视频数据,机器人自我模型就会通过观察学习视频中人类的交流方式、情感表达等实现泛化交互。在现实交流时,表情预测和眼动追踪可以让机器人预测面部活动,从而快速做出表情回应。
无独有偶,多家机器人研究院也在强化情感互动能力。今年5月,中国科学技术大学计算机科学与技术学院机器人实验室内,“90后”博士曹荣昀自主研发了一款人形情感交互机器人。该款机器人的亮点在于其高度仿真的面部表情和触感。通过部署30个电机驱动器,实现机器人面部肌肉的协同工作,让机器人呈现出真实自然的表情。
为了让人形机器人提升情感交互能力,戴鹏在论坛上公布了人形机器人交互技术框架,可以分为laaS(基础设施即服务)、核心能力、RaaS(机器人即服务)三层,其中核心能力包括感知理解引擎、综合决策引擎、任务编排引擎,以及情感分析和表情控制两种模型。
排版/孙妍