不知道你是否曾有过这样的想法:当一个「甩手掌柜」,把一切家务都交给家务机器人。说实话,这是在科幻作品中经常能够看到的场景。
毕竟,谁不想拥有一位任劳任怨的「 赛博仆人」呢?
来自旧金山的初创公司 Physical Intelligence(物理智能,简称 Pi)正在致力于帮助人们实现这个梦想。这家公司近日展示了一种「接受了前所未有的数据量训练」的人工智能模型,它已经学会了干各种有用的家务活。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
Physical Intelligence 发布的视频显示,他们的机器人可以十分灵巧地完成各种家务活,包括但不限于: 整理摆满了杯子和盘子的桌面:
把咖啡豆从袋子舀到机器当中:
展开全文
甚至可以组装纸箱:
最令人深刻的是,它们 可以取出烘干机内的衣物并折叠整齐。两只机械臂如同人类的双手一般,配合熟练:
有趣的是,该公司开发的这种算法有时会表现出一些的 类似人类的怪癖,例如摇晃 T 恤和短裤,让它们平整地铺开。
Physical Intelligence 的首席执行官豪斯曼(Hausman)指出,折叠衣服对于机器人来说尤其具有挑战性,需要更多关于物理世界的一般智能,因为它涉及处理各种会不可预测地变形和皱折的柔性物品。
他还表示,目前的算法并不很稳定。就像 AI 聊天机器人有时也会「 崩溃」一样,这些「家务机器人」有时也会做出一些令人不可思议的举动:比如它会将鸡蛋塞满已经装不下的纸箱,把纸箱强行合上;有一次在装东西时,机器人突然把盒子从桌上扔了下去。
Physical Intelligence 的 CEO 豪斯曼. 图片来自:The Information
尽管算法还不完美,但 Physical Intelligence 至少为未来的「 通用家务机器人」提供了一种可能性。
然而,豪斯曼的野心远不止于此。「家务」只是其中一种用途,「 通用」才是公司的雄心壮志:
我们的目标是通过一个通用模型将人工智能带入物理世界,基本上对于任何应用程序来讲,该模型可以为任何机器人或任何物理设备提供动力。
图片来自:maginative
换句话说,Physical Intelligence 的目标是创建一个类似于大型语言模型(LLMs)的 物理世界模型,这是一种「 通用人工智能模型」。
他们将构建语言模型的技术与控制和指导机器的自有方法相结合,并通过训练大量的机器人数据来实现。豪斯曼表示,他们的方法「 非常通用」,可以利用来自不同机器人类型的数据进行训练,类似于人们训练语言模型的方式。
公司在过去八个月中开发了其「基础模型」,名为 π0(pi-zero)。π0 通过使用来自多种机器人执行各种家务的数据进行训练,公司还经常让人类远程操作机器人以提供必要的教学。
Physical Intelligence 的联合创始人之一、加州大学伯克利分校的副教授谢尔盖莱文(Sergey Levine)表示,他们训练的 数据量比以往任何机器人模型都要大得多,并且「幅度非常大」。
谢尔盖莱文(Sergey Levine). 图片来自:YouTube
与其他公司譬如 Figure AI 和特斯拉专注于构建仿人机器人,以及像 Covariant 这样的公司开发通用机器人软件不同,Pi 旨在创建 可以应用于广泛机器人硬件的软件。
对此,知名科技投资者,也是 Pi 的联合创始人之一的拉奇格鲁姆(Lachy Groom)表示「使人类变得有趣的是我们的大脑,而不是我们的硬件,我们是 终极的通用主义者」。
特斯拉开发的名为「Optimus」的人形机器人
Physical Intelligence 面临的一个关键挑战是,与大型语言模型训练中可用的文本数据相比, 用于训练的机器人数据规模有限。
因此,公司必须生成自己的数据,并想出提高从更有限数据集中学习的技巧。
实际上,为了开发 π0,公司结合了所谓的 视觉语言模型(在图像和文本上训练)和 扩散建模(从 AI 图像生成中借鉴的技术),以实现 更通用的学习。
一切的一切,都在为「 通用」而努力。
对于 Physical Intelligence 的现状和未来,莱文的观点是:
为了让机器人能够承担人类要求它们做的任何杂务,这种学习需要大幅扩大。尽管还有很长的路要走,但我们有一些你可以认为是基础框架的东西,未来的事情从中可见一斑。
但同时,莱文对 Pi 的发展充满信心。他表示有足够的迹象表明,在现实世界中使用机器人的最大障碍「 现在已经可以解决」。
文|范津瑞