英伟达创始人CEO黄仁勋在2023年ITF世界大会发表视频演讲。他表示:“人工智能和加速计算正在共同改变技术行业。下一波人工智能浪潮将是一种被称为具身AI的新型人工智能,即能够理解、推理并与物理世界互动的智能系统。”
黄仁勋介绍了英伟达的多模态人工智能系统VIMA,该系统可以根据视觉文本提示来执行任务,例如“重新排列对象匹配场景”。
据介绍,VIMA在英伟达的AI平台上运行,它可以学习概念并采取相应的行动,例如机器可以识别两个不同的物体,并能学会把一个小部件放进一个容器中。
AI系统的能力表现在上下文理解和情境感知方面,具身AI能够在现实世界中进行操作和感知,更好地理解上下文和情境;通过物理环境的感知和实际操作,具身AI能够获得更全面的信息和数据,进一步提高对环境的理解和决策能力。
类似的例子在微软近期发表的一篇论文中也有提到。微软科学家向AI系统提出问题:“我们这里有一本书、九个鸡蛋、一台笔记本电脑、一个瓶子和一个钉子,如何将它们牢牢地堆叠在一起?”
回答这样的问题需要对物理世界有直观了解。AI系统的聪明回答让研究人员们惊讶,他们认为AI展现出了一定的人类逻辑能力。AI写道:“把鸡蛋放在书上,将它们排成三排,中间留出空间,小心不要把鸡蛋弄碎了。然后将笔记本电脑放在鸡蛋上面,笔记本电脑放在书和鸡蛋正上方,他平坦坚硬的表面将为下一层提供稳定支撑。”
“理解了物理世界的人工智能可以学习模仿物理世界并做出符合物理规律的预测。”黄仁勋表示。此外,英伟达的元宇宙平台Omniverse还运行了VIMA的数字孪生。
他还称,目前“具身AI”的实例很多,包括机器人技术、自动驾驶汽车,甚至是聊天机器人。“在机器人技术、自动驾驶汽车和智能制造领域开辟了数万亿美元的市场机遇。”黄仁勋表示。
具身AI涉及多种技术,如机器人技术、计算机视觉、自然语言处理、动作规划和控制等。英伟达的GPU架构使得高性能计算在训练和推断阶段能够更加高效地运行,加速了具身AI技术的发展和应用。
当谈到这样的系统如何利好半导体行业的技术进步时,黄仁勋表示:“我期待物理人工智能、机器人技术和基于Omniverse的数字孪生有助于推动芯片制造的未来。”
按照“具身AI”的定义,美国的科技巨头都早已开始布局。这是一种能够通过感知、推理、决策和行动来与环境互动,并具有自主决策和行动的能力的人工智能系统。
例如特斯拉推出的人形机器人擎天柱就越来越具备这样的能力,它们可以通过机器人的身躯来模拟人类的行为和动作,以更加逼真地与人类进行互动。此外,特斯拉的Dojo AI超级计算机项目也用于加速训练和推理具身AI模型。
出门问问创始人李志飞对第一财经记者表示:“具身AI可以理解为给AI大脑加上躯体,让它去跟物理环境进行交互,从而展现出智能体的行为。”他补充道,这样的“躯体”也并不是一定要像特斯拉的人形的机器人那样。
目前已经在开发具身AI技术的知名企业包括波士顿动力(Boston Dynamics),该公司的的机器人产品Atlas和Spot,已经展示了先进的感知、运动控制和自主决策能力。此外,苹果、谷歌、亚马逊、微软等科技巨头都已经拥有了智能语音助手系统,具身AI领域正处于快速发展阶段,未来可能会涌现更多的创新和进展。
随着具身AI的能力和应用范围不断发展,自身的性能和智能水平也将得到进一步的提升,从而推动人工智能的发展。但专家认为,解决安全、隐私和伦理等问题也同样重要。
清华大学国强教授、智能产业研究院首席研究员聂再清对第一财经记者表示:“由于具身AI在与人类互动和操作的过程中需要收集大量的来自现实世界中的数据,用于模型训练和改进,因此从保护数据隐私安全的角度来看,无疑是提出了更大的挑战。”