原文作者:Elizabeth Gibney
人工智能与机器人技术交汇融合,相互助力实现飞速发展。
美国Figure公司开发的人形机器人使用了OpenAI的语言视觉模型。图片来源:AP Photo/Jae C. Hong/Alamy
对于看着《星球大战》长大的这一代科学家来说,屋里屋外仍见不到如C-3PO般智能的机器人,实在令人失望。那些能够在工作生活中为我们提供帮助的人形机器人,到底何时才能出现呢?
人工智能技术的快速发展或能填补这一空白。美国斯坦福大学机器学习和机器人研究人员Alexander Khazatsky说:“如果下一代人就能目睹那些科幻场景变为现实,我也丝毫不会感到惊讶。”
从OpenAI到谷歌DeepMind,几乎所有人工智能领域的科技巨头,都在致力于将支持聊天机器人的多功能学习算法(即基础模型)引入机器人领域,从而使机器人具备常识,有能力处理各种任务。许多研究人员认为,未来机器人功能将更强大,反应将更迅速。美国科技公司英伟达的机器人营销经理Gerard Andrews说:“我们相信机器人行业将迎来巨大变革。”今年三月,英伟达公司发布了用于人形机器人的通用人工智能模型。
与此同时,机器人还能促进人工智能的发展。许多研究人员希望,在人工智能训练中,通过引入环境互动实现“人工通用智能”,即人工智能在处理各项任务时展现出类似人类的认知能力。美国Meta公司的人工智能研究员Akshara Rai说:“具身智能是通向真正智能的最后一步。”
不过,尽管许多研究人员对将人工智能引入机器人行业感到兴奋,但他们也提醒说,一些看着很厉害的演示也仅仅只是演示而已,往往是希望引发热议的公司所为。美国麻省理工学院的机器人专家Rodney Brooks认为,从演示到实际应用,任重而道远。其公司iRobot研发了Roomba扫地机器人。
人工智能与机器人融合之路阻碍重重,例如,需要收集大量合适的数据供机器人学习,解决硬件稳定性以及安全性等问题。新加坡国立大学人机互动专家Harold Soh认为,“应该探索”用于机器人的基础模型。然而,这能否像一些研究人员所愿触发机器人行业的革命,他对此持保留态度。
坚实的基础
机器人这个词的内涵包括了各种自动化设备,从广泛用于制造业的机械臂,到自动驾驶汽车和用于战争和救援任务的无人机。多数机器人都不同程度地应用了人工智能技术,例如物体识别。美国机器人公司创新中心MassRobotics的联合创始人Joyce Sidopoulos指出,这些机器人一般用于执行特定任务,在特定环境中工作,或在一定程度上还需要人工控制。美国机器人公司Boston Dynamics研发的机器人Atlas,曾在2018年展示了令人惊叹的跑酷技能。然而,即使是Atlas,也需要在全面探测周边环境后,基于内置模板库选择最佳行动方案。
大多数涉足机器人领域的人工智能专家,希望研发出行动更自主、适应性更强的机器人。Sidopoulos说,他们的工作可能始于工厂“取放”产品的机械臂,最终或能研发出为老年人提供陪伴和支持的人形机器人,“应用领域非常广泛。”
人形机器人在设计上很复杂,而且可能不适用于某些任务,但它有一个巨大优势,即完美融入人类构建的世界,像人一样与周围的环境互动。
然而,控制机器人非常困难,人形机器人尤甚。那些看似简单的任务,比如开个门,实际上却非常复杂,要求机器人了解门开合的不同机制,对把手施力大小,以及如何在这个过程中保持平衡。现实世界变化不仅多端,而且持续变化着。
目前流行的机器人控制方式,是使用驱动ChatGPT等聊天机器人和图像生成器的人工智能基础模型。这类模型基于类似大脑的神经网络,学习大量通用数据。它们将训练数据的不同元素相互关联,收到输出指令时,利用这些关联生成恰当的单词或图像,结果往往令人惊叹。
同样,机器人基础模型也通过互联网上的文本和图像进行训练,获取物体性质及环境等信息。它还能从机器人操作实例中学习。例如,观看视频中机器人根据指令反复尝试或人类远程操作机器人,辅以相应指令,可用于训练机器人基础模型。经过训练的机器人基础模型可以观察场景,并利用所学来预测什么操作能带来最佳结果。
谷歌DeepMind公司研发的的机器人基础模型Robotic Transformer 2 (RT-2) 处于业内领先水平,可用于操作其姊妹公司Everyday Robots打造的移动机械臂。同其它机器人基础模型一样,它也是用互联网和机器人操作视频进行训练的。得益于线上训练,即使指令超出视频学习范围,RT-2也可以完成指令[1]。例如,它可以按照指令将饮料罐放到泰勒斯威夫特的照片上,尽管RT-2观看的13万个操作示例中并没有出现过这位明星的图像。
换言之,机器人能将从互联网中获取的知识(比如歌手泰勒斯威夫特的长相)应用于操作中。美国谷歌DeepMind公司的人工智能和机器人研究员 Keerthana Gopalakrishnan指出,“机器人能够迁移应用由互联网习得的概念”,这从根本上减少了机器人为应对不同情况而需要学习的数据量。
然而,要完全理解动作的基本原理及其影响,机器人仍需学习大量操作实例。问题就在这里。
数据匮乏
聊天机器人可通过互联网中浩如烟海的词汇进行训练,但我们无法找到同等量级的机器人行为的数据。Khazatsky说,数据的缺乏让机器人技术止步不前。
一个办法是收集数据。Khazatsky和同事创建了开源数据集DROID[2],收录全球18个实验室远程操作德国Franka Robotics公司制造的Franka Panda 7DoF机械臂的视频,时常约350小时。这些视频以机器人视角录制,操作环境包括浴室、洗衣房、卧室和厨房等。Khazatsky说,场景的多样性有助于机器人出色完成未曾接触过的任务。
接到指令“找出灭绝的动物”后,谷歌 RT-2机器人从桌上一堆物品中选择了恐龙玩具。图片来源:谷歌DeepMind
Gopalakrishnan参与了十余个实验室的联合项目,致力于收集从单机械臂到四机械臂等多种形态的机器人数据。他们认为,学习一类机器人与现实世界交互的经验,有助于人工智能操控其它类型的机器人,就像学习英语可以帮助语言模型生成中文,因为不同语言所描述世界的基本概念是相同的。这似乎是可行的。该项目研发的基础模型RT-X已于2023年10月发布[3],与基于单一机器人架构训练的模型相比,它在实际任务中表现更出色。
许多研究人员表示,这种多样性至关重要。人工智能专家、美国人工智能公司Covariant联合创始人陈曦(Peter Chen)说:“我们认为,真正的机器人基础模型不应该只囿于一种机器人形态。”
Covariant也在努力扩大机器人数据库规模。该公司由前OpenAI研究人员参与创建,他们自2018 年开始收集30种机械臂的数据。这些机械臂来自全球各地的仓库,均使用Covariant的软件。Covariant的Robotics Foundation Model 1(RFM-1)采集的数据不仅有视频,还包括货物重量、施力大小等传感器读数。Gopalakrishnan解释,理论上,这类数据有助于机器人处理柔软的物体,例如使它学会避免挤压香蕉。
Covariant建立了一个专有数据库,数据量达到数千亿token(现实世界的机器人信息单位)。陈曦介绍,这与OpenAI 2020年发布的大语言模型GPT-3的训练数据规模相当。他说:“我们拥有的这类数据最多,这是我们一直以来关注的重点。”陈曦表示, RFM-1即将发布,届时搭载Covariant软件的机器人的操作员,就可以用文字或语音发布一般性指令,例如“从储藏箱中取出苹果”。
另一种获取大量动作类视频的方法针对于人形机器人,让人工智能通过观看真人视频来学习网络上能找到数以十亿计的真人视频。Andrews举例说,英伟达公司的GR00T基础模型正在学习人类执行各种任务的视频。Gopalakrishnan说,尽管模仿人类有望提高机器人技能,但这并非易事。她解释道,机器人视频一般都附有背景介绍和对应指令等信息,而真人视频则没有。
虚拟现实
研究人员说,获取交互数据的最后一个可行方法是模拟。许多机器人专家正在研究建立三维虚拟现实环境,其物理机制与真实世界类似,然后将其连接到机器人大脑进行训练。模拟器可以产生大量数据,让人类和机器人在罕见或危险的虚拟场景中互动,这样既没有风险,也不会造成机械损伤。英伟达公司的Andrews说:“如果你有大量机械臂,想通过实操练习让它们变得灵活,那电机恐怕要过热报废了。”
然而,打造性能优良的模拟器也不容易。Khazatsky说:“模拟器物理特性优良,但还达不到完美的程度,要模拟多样化的场景,难度几乎与收集多样化的数据相当。”
Meta和英伟达公司都押注通过模拟增加机器人数据。他们分别建立了复杂的模拟世界Habitat和Isaac Sim。在这些模拟世界中,机器人在数小时内就能获得在真实世界数年才能积累的经验,然后在试验中成功利用所学应对现实世界中从未遇到过的情况。Rai说:“模拟是推动机器人技术发展的强大工具,但却未得到足够的重视,我很高兴看到它的发展势头越来越好。”
许多研究人员认为,基础模型能够制造出可替代人工的通用机器人。今年二月,美国机器人公司 Figure获得6.75亿美元投资,用于研发搭载OpenAI语言视觉模型的通用人形机器人。在一段展示视频中,机器人得到“给我一些食物”的模糊请求后,给人拿来了一个苹果。这段视频在X(前身为 Twitter)上的点击量已达480万次。
这个机器人的基础模型是如何训练的,它在不同环境中具体表现如何,目前尚不清楚(OpenAI 和Figure都未回应《自然》的采访请求)。Soh认为应谨慎对待这种展示。他说,视频中的环境非常空旷。提高环境的复杂度可能会让机器人感到困扰,就像自动驾驶汽车难以应对复杂路况。Soh说:“作为机器人的研究者,我们有理由对这类视频持保留态度。作为制作者,我们知道100次拍摄通常只能成功一次。”
前路的挑战
人工智能专家在机器人大脑研发领域突破不断,但机器人行业有人指出硬件也是一个挑战:机器人设计复杂,而且经常损坏。陈曦说,硬件虽在升级,但“很多人只看到基础模型的发展前景,却不知道打造这类机器人有多困难。”
另一个问题是,使用视觉数据完成大多数交互训练的机器人基础模型,到底可以走多远。Soh指出,机器人可能需要大量其他类型的感觉数据,例如触觉或本体感觉(身体在空间中的位置感)。目前还没有这样的数据集。他说:“我认为,这些缺失的数据,对人形机器人在真实环境中高效工作是必需的。”
将基础模型应用于真实世界还面临着另一个重大挑战安全性。近两年,大语言模型大量涌现,人们发现它们会提供错误和有偏见的信息。它们还可能受到诱导做程序禁止的事情,比如告诉用户如何制作炸弹。赋予人工智能一个躯体,就会把这类错误引入真实世界,产生威胁。Gopalakrishnan说:“如果机器人出错,会伤到人、弄坏东西,或造成损害。”
Gopalakrishnan介绍,机器人行业将借鉴人工智能安全领域的宝贵经验。此外,她的团队还为一些机器人人工智能模型设置了等级高于学习的规则,例如不要尝试与人、动物或其它生物体互动的任务。她说:“在我们对机器人有信心之前,需要大量的人类监管。”
尽管存在风险,但人工智能和机器人技术的融合和促进方兴未艾。Gopalakrishnan认为,将人工智能大脑与实体机器人关联,可以改善基础模型,例如让它们具备更好的空间推理能力。Rai说,一些研究人员认为“真正的智能只能产生于与真实世界的互动之中”,Meta正是践行者之一。有人说,现实世界中的互动,能让人工智能不再囿于学习模式和预测,真正理解这个世界并进行推理。
未来如何,尚无定论。Brooks认为,机器人会不断改进并应用于新的领域,但这些应用终究不如人形机器人替代人类劳动来得吸引人。然而,也有人认为,研发出实用安全的人形机器人,帮人做晚饭、跑腿和叠衣服是可能的,只不过可能要花费数亿美元。Khazatsky说:“我相信有人能成功的。就是要花上大量的金钱,还有时间。”
原文以The AI revolution is coming to robots: how will it change them?标题发表在2024年5月28日《自然》的新闻特写版块上
nature