语言处理人工智能面临的最大挑战之一是弄清俚语、口语和故意拼写错误的潜在含义。
为了帮助人工智能,佛蒙特大学的一组数学家开始分析年轻人在打字时是如何故意拉长单词的。例如,他们量化了“hahaha”和“haaahaha”这类延伸词之间的语义差异,希望未来的人工智能算法能够通过我们在线交流的非正式方式来理解我们。
在他们周三发表在《PLOS One》杂志上的研究中,研究小组分析了过去8年里发布的1000亿条推文中出现的所谓“可延展词汇”。然后他们提出了两种测量方法:平衡和伸展。例如,“lololol”有很高的平衡值,而“nooooo”没有,因为只有一个字母是重复的。
这可以帮助算法和未来的历史学家理解“dude”指的是一个人,而“duuuude”则是“yikes”的同义词。
最终,研究人员认为,我们的词典并没有反映出人们实际交流的方式,而理解社交媒体上常见的延伸词可能会填补一个重要的知识空白。
“我们能够全面收集和计算像‘goooooaaaalll’和‘hahahahaha’这样的延伸词,”研究人员在一份新闻稿中说,“并把它们映射到整体延伸和延伸平衡的两个维度上,同时开发新的工具,这也将有助于他们继续进行语言学研究,以及其他领域,如语言处理、扩充词典、改进搜索引擎、分析序列结构等等。”