麻省理工研究人员开发出能够更好地理解物体关系的人工智能-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

麻省理工研究人员开发出能够更好地理解物体关系的人工智能

来源：互联网发布日期：2021-12-26 18:12:12 浏览：21220次

导读：人工智能在识别场景中的物体方面能力越来越强：比如谷歌Photos等应用程序的内置人工智能可能会识别一张长凳、一只鸟或一棵树。但如果你让AI识别在两棵树之间飞行的小鸟，或者小鸟下面的凳子，或者凳子左边的树，AI可能就会变得毫无头绪。现在，麻省理工学院(...

人工智能在识别场景中的物体方面能力越来越强：比如谷歌Photos等应用程序的内置人工智能可能会识别一张长凳、一只鸟或一棵树。但如果你让AI识别在两棵树之间飞行的小鸟，或者小鸟下面的凳子，或者凳子左边的树，AI可能就会变得毫无头绪。现在，麻省理工学院(MIT)的研究人员正致力于通过一种新的机器学习模型来改变这种情况，该模型旨在理解物体之间的关系。

“当我看桌子的时候，我不能说有一个物体在XYZ位置。”麻省理工学院计算机科学和人工智能实验室(CSAIL)的博士生、该论文的共同作者杜伊伦在接受麻省理工学院采访时解释道。“我们的思路不是这样工作的。在我们的脑海中，当我们理解一个场景时，我们需要基于物体之间的关系来理解它。我们认为，通过构建一个能够理解对象之间关系的系统，可以使用系统更有效地操纵和改变我们的环境。”

首先该模型通过识别场景中的每个对象，然后一次识别一个关系(例如，树在鸟的左边)，然后组合所有已识别的关系来整合对象关系。然后，它可以逆转这种理解，从文本描述生成更准确的图像即使物体之间的关系发生了变化。这种反向过程的工作原理与正向过程非常相似：每次生成一个对象关系，然后组合。

“其他系统会从整体上考虑所有的关系，并从描述中一次性生成图像。”杜说。“然而，当我们有分布描述，比如有更多关系的描述时，这种方法就失败了，因为这些模型不能真正适应一个镜头来生成包含更多关系的图像。然而，当我们将这些独立的、较小的模型组合在一起时，我们可以建模更多的关系，并适应新的组合。”

他们在人类身上测试了结果，发现91%的参与者得出结论，新模型比以前的模型表现更好。研究人员强调，这项工作很重要，因为它可以帮助人工智能机器人更好地在复杂的情况下导航。“我们发现一个有趣的一点是,我们的模型,我们可以增加关系描述的句子，从一个,到两个或三个,甚至四个描述。我们的方法仍然能够正确描述生成图像，而其他方法失败了。”

接下来，研究人员正在评估该模型在更复杂的真实世界图像上的表现，然后再进行真实世界测试。