当前人形机器人还面临两大难点,一是机器人目前的“软”件端,适合机器人的通用大模型和垂直专业模型,还在攻坚阶段;此外,灵巧手目前在技术和成本上都有需要攻克的难点。
现在人形机器人的成本还没有达到客户的要求,此外量产还涉及到供应链的问题。现阶段,人形机器人主要是在科研平台搭建各类应用,包括对硬件的开放,离我们所说的软件开发应用,还有相当一段距离。
当“具身智能”成为2024世界机器人大会众人热议的焦点时,北京航空航天大学机器人研究所名誉所长王田苗提出了不一样的视角。他认为这次展会,展示的大部分是垂直领域的具身技能。现阶段,对于具身智能机器人或人形机器人,业界基本停留在对通用领域的探索上。
具身智能(Embodied Intelligence)强调机器人通过综合感知、推理和自主决策,实现多任务处理和复杂环境中的人机交互,具备广泛的认知能力;而具身技能(Embodied Skills)更聚焦于特定场景下的专业化能力,旨在高效完成特定任务,应用更垂直、商业化更容易。业内认为,具身智能侧重“广而全”的智能化,具身技能则注重“专而精”的能力。
现为北航机器人研究所名誉所长,中关村智友研究院院长的王田苗在机器人行业已深耕三十多年。2020年,王田苗联合十五位科学家发起成立了“智友科学家基金”,重点关注具身智能、机器人、机器人上游核心部件等领域。
北航机器人研究所名誉所长,中关村智友研究院院长王田苗
在此次大会上,人形机器人的数量达到历年之最。对外展出的27款人形机器人从“双臂”“手指”灵活协同操作,到“双脚”在复杂地形行走,再到开发基于人工智能大模型的“大脑”,形态各异。王田苗认为,这种百花齐放的现象是技术发展早期的正常现象。当前人形机器人还面临两大难点,一是机器人目前的“软”件端,适合机器人的通用大模型和垂直专业模型,还在攻坚阶段;此外,灵巧手目前在技术和成本上都有需要攻克的难点。
世界机器人大会上展示的人形机器人,该款机器人引起现场人群围观
8月23日,围绕具身智能当前面临的难点和挑战话题,王田苗接受了澎湃科技(www.thepaper.cn)等媒体的采访。
以下是澎湃科技采访王田苗内容:
机器人的“软”件端和灵巧手是需要攻坚的难点
澎湃科技:大会期间,具身智能成为业内讨论的热词,您怎么看这波具身智能热潮?
王田苗:目前,我认为大家在思考人形机器人或具身智能机器人发展时需要思考三个问题:
第一,在什么场景下应用。未来三至五年,机器人很有可能会进入复杂环境,在安全和功能上得到有效检验,通过客户的检验,这是目前非常重要的问题。在危险环境、工业、家用甚至一些泛商业化的场景中,技术都不停在迭代。
第二,以应用为牵引,两件事情值得特别关注:一是机器人的“软”件,以大模型和数据驱动的生成和学习,这波具身智能的浪潮,最重要的是让大模型赋能机器人,从而实现人机交互,将复杂任务拆解为子任务;二是各种子任务和现实中的物理空间的结合,这需要视觉模型和触觉模型,没有视觉就没有空间的推理,没有触觉,很难完成精细的装配甚至操作。
第三,除了能行走稳定、安全以外,有一双灵巧手也很重要。Figure AI的新款产品也将重点放在了灵巧手,特斯拉在更新应用时也会涉及灵巧手。
这三个问题可能是作为我们具身智能研究的三大重点,也是热点。
目前“软”件端,通用大模型和垂直专业模型还在攻坚阶段。此外,泛化运行的机器人,不论是轮式还是有足机器人,最终实现操作和交互的是双手,所以灵巧手是目前人形机器人需要在技术和成本上攻克的难点。
这次展会,大部分其实是垂直领域的具身技能,这是我自己浅显地理解。现阶段,基本停留在对通用领域的探索上。
现场另一款人形机器人展示其灵巧手部分
澎湃科技:从人形机器人研发的角度看,大模型可以重点解决哪些技术问题?
王田苗:大模型对人形机器人的核心贡献在于实现类似人类的交互、推理和环境适应能力。然而,目前仍存在理论和技术挑战。人类认知是分层的,有概念逻辑认知、感知、视觉与触觉,还有肢体协调运用,这些不同层次的关系尚未完全理清。此外,大模型在算法选择上,是监督学习、强化学习,还是端到端学习或者模拟学习,这些都在探索中。另外,训练大模型的数据生成方面也存在问题,尤其是实际操作数据的获龋
大模型有望在通用机器人和具体操作中发挥作用,但现实中许多任务仍需专和精。大家希望能通过大模型培养出“全能型”机器人,但这是理想,还需进一步探索,最终还涉及科学研究与应用场景的结合,以及功能、安全和成本的平衡。
现阶段人形机器人量产主要面向科研平台
澎湃科技:为什么一定要做人形?在工业场景中,专用机器人也可以做,人形和专用这两者之间,会不会有替代性关系?
王田苗:从技术和产业的发展阶段来看,人形机器人加上大模型可能会形成机器人的新品类。人形机器人应用的特别重要的场景是复杂空间,小批量多品种很难实现大规模自动化甚至是特别危险的场景;由于是新物种,就会涉及很多新结构,比如电机驱动感知一体化关节、传感、数据生成和服务等,它有可能会促成新应用场景和应用产业;此外,以人形机器人作为抓手,可能会把机器人的理论、技术、产品都推到新的阶段。
未来20年,人形机器人在智能机器人领域的占比,目前有两种不同的观点。一种乐观的看法是,人形机器人的市场份额将超过50%或60%;而另一部分产业观察者则认为,人形机器人可能只会占据20%或30%市场份额。因为它们只解决了一部分需求,而其他类型的机器人,如臂式、履带式、轮式,以及协作型和并联型机器人等,将满足多样化的需求。
我个人认为,最终采用哪种形式的人形机器人,首先取决于底层技术创新达到的程度;其次,还取决于具体的应用场景和客户需求,即客户是否愿意为这种服务成本和产品功能买单。因此,不应该绝对地认为人形机器人一定行或者一定不行。
澎湃科技:今年也出现了售价10万块以下,相对更便宜的人形机器人,这是否意味着人形机器人量产的前夜?
王田苗:现阶段无论15万还是10万或更便宜,主要还是面向科研平台展示。现在客户对人形机器人的成本要求还没有形成闭环,量产还涉及供应链的问题。现阶段,主要是以科研的平台搭建起来,在科研平台搭建各类应用,包括对硬件的开放,离我们所说的软件开发应用,还有相当一段距离。
澎湃科技:现在每家公司人形机器人的形态不太一样,比如有的手指是三指,有的是五指,有的机器人有腿,有的可能干脆没有腿。接下来,人形机器人是否会出现一个统一的形态?
王田苗:任何一个颠覆性技术出现时,大家对它都会抱有很大希望,因此会出现五花八门、各种形态的机器人,有的连脑袋都可以转180度,腰部甚至手都能随意旋转。日本在上世纪70年代初,他们有近200家公司在尝试各种机器人应用,发展到如今的关节、并联结构等。我觉得当前这种状态是非常正常的,技术应当不断发展。但在未来,肯定会形成若干标准化的品类,因为这些品类会在效率、操作时间、成本等方面达到最佳,同时供应链也会逐步形成。
不过,这需要一个过程。目前来看,可能需要10年。因为在人形机器人发展中,我认为这是通用人工智能走向现实,接触物理世界的必经之路。任何科学技术的发展都需要很长的时间和成本,无论是汽车、手机,还是机器人研发,每个阶段都需要10到20年的迭代。
很多人对未来的颠覆性发展过于乐观、过于渴望,往往会夸大。但现实并非如此,最终还是要看技术是否真的被需要,功能是否完善,是否涉及社会安全,成本是否能够被接受,以及产业化标准是否健全等多个因素,这是一系列的综合考虑。
很多人希望技术能够迅速突破,好像第二天、第二年就会实现颠覆性进展,但这并不现实。
专精特新小企业,建议从具身技能入手
澎湃科技:您有科研学术界背景,对产业也有研究,您觉得机器人产业在的推进过程中,还有哪些问题需要解决?
王田苗:通常来说,科学家应该更多地从事基础研究,或通用的理论,比如关注通用大模型等。至于具身智能或具身技能,产业界应从应用领域以及相应的供应链、使用安全性、有效性和成本等方面去验证。
但现在科技创新和产业发展出现了一个现象:基础研究和产业、工程研究联系得越来越紧密。不仅时间周期缩短,三者之间也相互促进、相互启发,又相互推动应用,密不可分。在这个过程中,出现了大学联合企业做基础性研究,产业界、企业界联合大学做应用技术研究等现象。科技创新和产业发展联系越来越紧凑,时间周期也越来越短,并不能按照我们想象的分段式地发展。
澎湃科技:对于创业公司来说,是围绕具体场景找到机器人相对实用的模型方法好,还是应该攻克体积相对完善的通用大模型?
王田苗:如果是专精特新小企业,我建议还是围绕一个具体的应用,从具身技能入手。这样可能更能通过客户的认可,包括大企业给的训练数据、资金支持。对于融资很多甚至有产业背景资源支持的企业,可能会往更通用、更泛化的路径走。不过,到后期也要实现落地。
对于创业企业来说,新型物种形态的潜在应用刚需,无论规模大小都值得探索;二是要关注上游核心部件的突破,包括肢体传感器、大脑(具身智能)和小脑(具身技能)的功能。
此外,人形机器人能否结合大模型和感知模型将技能泛化,譬如解决上下料、抛光打磨、搬运清洁等场景中的免编程问题,未来,我们希望通过大模型实现复杂任务的自动分解,进而达到免编程,这将为应用场景带来巨大空间。