之所以我们人类能够学会社会生活和相互合作(或竞争),关键的一点就是在婴儿说出第一句话之前,他们就已经形成了关于物体和人的心理模型。
但对于人工智能来说,即使是最基本的行为推理任务也仍然是一个挑战。
先进的深度学习模型可以完成复杂的任务(如检测图像中的人和物体),有时甚至比人类做的更好。但它们似乎很难超脱出图像的视觉特征,进而对其他智能体正在做或希望完成的事情做出推断。
为了填补这一空白,IBM、麻省理工学院和哈佛大学的科学家们开发了一系列测试,致力于评估人工智能模型像儿童一样通过观察和理解世界进行推理的能力。
研究人员在介绍这个名为AGENT的数据集的新论文中写道:“就像人类婴儿一样,机器智能体必须具备足够的理解人类思维的能力,才能成功地参与社交互动。”
在今年的国际机器学习会议(ICML)上,AGENT为衡量人工智能系统的推理能力提供了一个重要基准。
观察和预测智能体行为
一直以来,科学家在测试人工智能系统的常识和推理方面都做了大量的工作。其中许多都集中在自然语言理解方面,包括著名的图灵测试(Turing Test)和威诺格拉德模式挑战赛(Winograd Schema Challenge)。相比之下,AGENT项目侧重关注的是人类在能够说话之前学到的各种推理能力。
麻省理工学院-IBM沃森人工智能实验室的首席研究员Dan Gutfreund说:“我们的目标是参照发展心理学的文献,创建一个基准来评估婴儿在前语言阶段(在他们生命的前18个月)学习的与直觉心理学有关的特定常识能力。”
当我们还是孩子的时候,我们就学会了通过观察我们周围的环境来学习区分物体和人。随着我们观察事件的发展,我们培养了直观的心理技能,通过观察其他人的行动预测他们的目标,并不断纠正和更新我们的心理能力。更重要的是,我们是在很少或根本没有指示的情况下学习的这一切。
AGENT(行动Action、目标Goal、效率Efficiency、共同约束coNstraint、效用uTility)测试背后的想法是评估人工智能系统能多好地模仿这种基本技能,它们能发展出什么心理推理能力,以及它们学到的表征能多好地概括到新情况。
该数据集由短序列组成,显示了一个智能体朝着多个对象中的一个导航的方式。这些序列是在ThreeDWorld中产生的,这是一个为训练人工智能而设计的虚拟3D环境。
AGENT测试分两个阶段进行。首先,向人工智能展示一个或两个描述智能体行为的序列。这些例子应该使人工智能熟悉虚拟智能体的偏好。例如,一个智能体可能总是选择一种类型的物体,而不管前面有什么障碍物,或者它可能选择最近的和最容易接近的物体,而不考虑它的类型。
在熟悉阶段之后,人工智能会被给定一个测试序列,它必须确定智能体是以预期的方式还是以非预期的方式行事。
这些测试总共有3,360个,横跨四种类型的场景,从非常简单的行为(无论环境如何,智能体都喜欢一种类型的物体)到更复杂的挑战(智能体表现出成本-回报估计,权衡实现目标的难度和它将获得的回报)。人工智能还必须考虑行动智能体的行动效率(例如,当没有障碍物时,它不应该进行不必要的跳跃)。而在一些挑战中,场景被部分遮挡,使环境的推理更加困难。
人工环境中的真实场景
测试的设计者已经考虑到了人类的归纳偏见,这意味着智能体和环境受制于对人类来说是合理的规则(例如,跳跃或攀登障碍物的成本随着其高度而增长)。这一决定有助于使挑战更加真实,更容易评估。研究人员还指出,这类偏见也很重要,有助于创建与人类行为更一致和兼容的人工智能系统,并能与人类同行合作。
研究人员通过Amazon Mechanical Turk对人类志愿者进行了挑战测试。他们的研究结果显示,平均而言,人类可以通过观察熟悉的序列和判断测试的例子来解决91%的挑战。这意味着人类利用他们对世界和人类/动物行为的先验知识来理解智能体如何做出决定(例如,在其他条件相同的情况下,智能体会选择奖励较高的对象)。
另外,研究人员还有意限制数据集的大小,以防止非智能的捷径来解决这些问题。因为如果给定一个非常大的数据集,机器学习模型可能会学习做出正确的预测,而没有获得关于智能体行为的基本知识。
“仅仅在我们的数据集上从头开始训练是不行的。相反,我们建议,为了通过测试,有必要通过架构中的归纳偏见,或者从额外数据的训练中获得额外的知识。”研究人员写道。
然而,研究人员在测试中还是实施了一些“捷径”。AGENT数据集包括深度图、分割图,以及场景中每一帧的物体和障碍物的边界框。这些场景在视觉细节上也极为简单,由八种不同的颜色组成。所有这些都使人工智能系统更容易处理场景中的信息,并专注于挑战的推理部分。
目前的人工智能能解决AGENT挑战吗?
研究人员在两个基准人工智能模型上测试了 AGENT 挑战。第一个,贝叶斯逆向规划和核心知识(BIPaCK),是一个集成物理模拟和规划的生成模型。
该模型使用数据集提供的全部地面真实信息,并将其输入其物理和规划引擎,以预测智能体的轨迹。研究人员的实验表明,当BIPaCK拥有关于场景的全部信息时,它的表现可以与人类媲美,甚至比人类更好。
然而,在现实世界中,人工智能系统无法获得精确注释的地面真实信息,必须在不同的背景和光照条件下执行检测物体的复杂任务,这个问题人类和动物很容易解决,但对于计算机视觉系统来说仍然是一个挑战。
在他们的论文中,研究人员承认,BIPaCK 需要准确地重建三维状态和内置的物理动态模型,而这些在现实世界的场景中不一定能得到。
研究人员测试的第二个模型代号为ToMnet-G,是DeepMind的科学家在2018年提出的心灵理论神经网络(ToMnet)的扩展版本。
ToMnet-G使用图神经网络对场景的状态进行编码,包括物体、障碍物和智能体的位置。然后,它将这些编码送入长短时记忆网络(LSTM),以跟踪智能体在整个帧序列中的轨迹。该模型使用它从熟悉的视频中提取的表征来预测智能体在测试视频中的行为,并按照预期或非预期的方式对它们进行评级。
ToMnet-G的优势在于它不需要BIPaCK预先设计的物理学和常识性知识。它从视频和以前在其他数据集上的训练中学习一切。另一方面,ToMnet-G经常学习错误的表征,不能将其行为概括到新的场景中或者当它的熟悉度信息有限时。
研究人员在他们的论文中指出:“由于没有许多内置的前提条件,ToMnet-G在类似的场景中进行训练和测试时表现出了很有希望的结果,但它在场景内和场景之间仍然缺乏强大的概括能力。”
这两个模型之间的对比突出了人类在没有任何指令的情况下学习的最简单任务的挑战。
“我们必须记住,我们的基准在设计上描绘了非常简单的合成场景,每次都涉及常识的一个特定方面,”Gutfreund说。“而在现实世界中,人类能够非常迅速地解析复杂的场景,其中同时有许多与物理学、心理学、语言和其他方面有关的常识在发挥作用。人工智能模型还远远不能做到这一点。”
常识和人工智能的未来
“我们认为,从狭义的人工智能到广义的人工智能的道路必须包括有常识的模型,”Gutfreund说。“常识能力是理解和互动世界的重要基石,可以促进获得新的能力。”
许多科学家认为,常识和推理可以解决当前人工智能系统面临的许多问题,例如它们对大量训练数据的需求、它们对因果关系的挣扎,以及它们在处理新情况时的脆弱性。常识和推理是人工智能的重要研究领域,它们已经成为该领域一些最聪明的人的焦点,包括深度学习的先驱者们。
解决AGENT可以成为创建人工智能的一个小而重要的步骤,这些智能体将可以在人类不可预测的世界中表现得很稳剑
Gutfreund说:“要说服人们信任那些不按常理行事的自主智能体,将是很困难的。例如,设想一个用于协助老年人的机器人。如果该机器人不遵循智能体有效追求其目标的常识性原则,并且在被要求从冰箱中取牛奶时,会以‘之’字形而非直线移动,那么它将不太实用也不值得信任。”
AGENT是国防高级研究计划局(DARPA)的机器常识(MCS)项目的一部分。MCS遵循两大目标。第一个目标是创造能够像儿童一样学习推理物体、智能体和空间的机器。AGENT就属于这个类别。第二个目标是开发能够通过阅读网络上的结构化和非结构化知识来学习的系统,就像人类研究人员所做的那样。这与目前的自然语言理解方法不同,后者只关注在非常大的文本语料库中捕捉单词和单词序列之间的统计相关性。
“我们现在正致力于将AGENT作为婴儿的测试环境。与DARPA MCS项目的其他执行者一起,我们正计划探索与多个智能体(例如,相互帮助或阻碍)和使用工具实现目标(例如,打开门的钥匙)有关的更复杂的常识场景。”Gutfreund说。“我们还致力于其他与直觉物理学和空间理解有关的核心知识领域。”
参考资料:https://bdtechtalks.com/2021/07/26/ai-visual-reasoning-agent-dataset/