北京时间3月13日深夜,一段人形机器人视频在社交媒体上热传,主角是Figure AI的人形机器人。2月底,Figure AI刚刚传出被OpenAI、微软及亚马逊、英伟达等投资的消息,最近一轮融资中筹集了6.75亿美元。此次机器人展示正是由Figure AI和OpenAI合作完成。
视频中,Figure AI人形机器人具有视觉能力并能表述所见画面,它伸手拿起桌上的苹果,并解释了这么做的原因,人类的提问后,这台人形机器人“思索”2~3秒后便能顺畅作答,手部动作速度则接近人类。据视频介绍,机器人采用了端到端神经网络,且视频并未加速。
Figure AI创始人Brett Adcock和AI团队负责人Corey Lynch在社交媒体上解释,该人形机器人由OpenAI提供了视觉推理和语言理解,Figure AI的神经网络则提供快速、灵巧的机器人动作。人形机器人将摄像机的图像输入和麦克风接收的语音文字输入OpenAI提供的视觉语言大模型(VLM)中,该模型可以理解图像和文字。Figure机载相机以10hz的频率拍摄画面,随后神经网络以200hz的频率输出24个自由度动作。画面中的人形机器人不依赖远程操作,行为都是学习而得的。两周前,Figure AI才宣布与OpenAI合作,以突破机器人学习的界限,这个视频是合作13天的成果,双方正在为人形机器人研发下一代AI模型。
“机器人的速度有了显著提高,我们开始接近人类的速度。“Brett Adcock表示。
Figure AI成立于2022年,已开发一款名为Figure 01的通用机器人,完成最新6.75亿美元融资后,估值达到约26亿美元左右。对比今年2月发布的一条视频,其机器人进行的是双腿行走、拿起塑料箱的任务,最新视频展示的新技能则是与人类对话的能力。
人形机器人进展已在加快。去年年底,特斯拉发布了第二代人形机器人Optimus Gen2的产品展示,该人形机器人搭载了AI大模型,可拿起鸡蛋。今年1月发布的视频中,特斯拉人形机器人可以折叠衣服。语言对话上,英国公司Engineered Arts人形机器人Ameca不久前与人类对话的视频也曾引发关注,该机器人具备视觉能力,可以描述空间特征,例如窗户开着、光线太亮,眼球和嘴巴都会动,表情逼真。
OpenAI也借着与Figure AI的合作展示了大模型应用至人形机器人方面的能力。在趋于激烈的市场竞争中,OpenAI已在加快迭代。
今年3月,被视为OpenAI最强竞争对手的Anthropic发布其最新大模型系列Claude 3,其中Claude 3 Opus在多项基准中得分均超GPT-4和Gemini 1.0 Ultra。彼时有AI业内人士告诉第一财经记者,在OpenAI站在第一梯队、Anthropic等站在第二梯队的层层向下“打压链”中,Anthropic最新产品推出可能会打乱OpenAI的节奏,更早推出GPT-5。近日记者从大模型从业者了解到,实际使用中Claude 3在某些任务下的表现较好,可胜过GPT-4。
OpenAI确乎更希望稳住自身地位。除了与Figure AI合作外,美国当地时间周三,OpenAI CTO Mira Murati(米拉穆拉迪)还透露,文生视频模型Sora或将于今年末发布,OpenAI正在通过红队测试确保Sora的安全和可靠性。昨日则有消息称,网友发现在必应等搜索引擎可搜到GPT-4.5 Turbo产品页面,页面摘要显示GPT-4.5 Turbo在速度、准确性和可扩展性上超越GPT-4 Turbo,支持25.6万tokens的上下文窗口,但很快相关链接就下架了,这或许意味着OpenAI将加快推出大模型新版本。