展会信息港展会大全

麻省理工研究人员开发出能够更好地理解物体关系的人工智能
来源:互联网   发布日期:2021-12-26 18:12:12   浏览:21220次  

导读:人工智能在识别场景中的物体方面能力越来越强:比如谷歌Photos等应用程序的内置人工智能可能会识别一张长凳、一只鸟或一棵树。但如果你让AI识别在两棵树之间飞行的小鸟,或者小鸟下面的凳子,或者凳子左边的树,AI可能就会变得毫无头绪。现在,麻省理工学院(...

人工智能在识别场景中的物体方面能力越来越强:比如谷歌Photos等应用程序的内置人工智能可能会识别一张长凳、一只鸟或一棵树。但如果你让AI识别在两棵树之间飞行的小鸟,或者小鸟下面的凳子,或者凳子左边的树,AI可能就会变得毫无头绪。现在,麻省理工学院(MIT)的研究人员正致力于通过一种新的机器学习模型来改变这种情况,该模型旨在理解物体之间的关系。

“当我看桌子的时候,我不能说有一个物体在XYZ位置。”麻省理工学院计算机科学和人工智能实验室(CSAIL)的博士生、该论文的共同作者杜伊伦在接受麻省理工学院采访时解释道。“我们的思路不是这样工作的。在我们的脑海中,当我们理解一个场景时,我们需要基于物体之间的关系来理解它。我们认为,通过构建一个能够理解对象之间关系的系统,可以使用系统更有效地操纵和改变我们的环境。”

首先该模型通过识别场景中的每个对象,然后一次识别一个关系(例如,树在鸟的左边),然后组合所有已识别的关系来整合对象关系。然后,它可以逆转这种理解,从文本描述生成更准确的图像即使物体之间的关系发生了变化。这种反向过程的工作原理与正向过程非常相似:每次生成一个对象关系,然后组合。

“其他系统会从整体上考虑所有的关系,并从描述中一次性生成图像。”杜说。“然而,当我们有分布描述,比如有更多关系的描述时,这种方法就失败了,因为这些模型不能真正适应一个镜头来生成包含更多关系的图像。然而,当我们将这些独立的、较小的模型组合在一起时,我们可以建模更多的关系,并适应新的组合。”

他们在人类身上测试了结果,发现91%的参与者得出结论,新模型比以前的模型表现更好。研究人员强调,这项工作很重要,因为它可以帮助人工智能机器人更好地在复杂的情况下导航。“我们发现一个有趣的一点是,我们的模型,我们可以增加关系描述的句子,从一个,到两个或三个,甚至四个描述。我们的方法仍然能够正确描述生成图像,而其他方法失败了。”

接下来,研究人员正在评估该模型在更复杂的真实世界图像上的表现,然后再进行真实世界测试。

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港