导读:微软研究院近日公开了其最新研究项目Project Rumi。该项目旨在通过结合文本、音频和视频数据,运用多模态方法,提升人工智能系统的理解能力,使其更能理解人类的意图。 近年来,人工智能系统在自然语言处理(NLP)领域取得了显著的进步。然而,现有的NLP AI...
微软研究院近日公开了其最新研究项目Project Rumi。该项目旨在通过结合文本、音频和视频数据,运用多模态方法,提升人工智能系统的理解能力,使其更能理解人类的意图。 近年来,人工智能系统在自然语言处理(NLP)领域取得了显著的进步。然而,现有的NLP AI主要依赖于文本输入输出,忽略了人类在自然交流中的语调、面部表情、手势和肢体语言等线索,这在一定程度上导致了其在理解方面的偏差。在AI专业术语中,这些线索被统称为副语言。 为了解决这个问题,微软研究院开发了Project Rumi。这是一个新颖的框架,旨在通过多模态副语言提示来增强人工智能的理解。该项目包括两个主要部分:多模式副语言编码器和多模式副语言解码器。
稿源:中关村在线