随着人机交互技术的快速演进,让机器来适应人的科技理念已深入人心。作为其中重要的发展方向之一,自然语言处理技术也的得到迅猛发展和应用。
区别于如编程语言等为计算机而设的“人造”语言,自然语言是指人们随文化自然演化而成的语言。自然语言处理(Natural Language Processing,下文简称NLP)是人工智能和语言学领域的分支学科。并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统 。
在2007年时,淘宝广告技术部广告算法负责人吴雪军(当时他还在百度,是百度自然语言处理、网页分析、网盟广告等方向的技术负责人。 )在北京参加一个NLP技术探讨会,会上专家们讨论的主要议题是自然语言技术能否在现实中应用。
淘宝广告技术部广告算法负责人吴雪军
4年过去了,吴雪军认为这段时间正是NLP的快速应用时期,在8月3日晚上的CTO俱乐部沙龙中,他同词网CEO张跃(张跃还是CTO俱乐部自然语言处理文本挖掘专委会 会长,本次沙龙的发起人)分享了NLP技术在搜索、广告和数据挖掘领域的应用和发展。
吴雪军的分享相对偏技术底层,下图是他展示的NLP技术的整体技术体系,NLP将分析对象分为四层:数据、词汇(Term)、短串、篇章。每一级都对应不同的处理方法和适应领域。
在搜索引擎中,NLP技术主要用于短串分析/相关性以及网页分析/索引。以其中一部分词汇的分层和权重为例,比较容易为用户理解的是短串的改写,例如同义词替换、语义归一化(“红烧肉菜谱”、“红烧肉怎么做”相同意义的输入返回结果也应该相同)、省略(“英雄无敌之十二翼天使”同“十二翼天使”)、纠错(“英非迪尼”同“英菲迪尼”)。
此外,互联网广告是具有不亚于搜索的极高技术复杂度的产品。NLP技术也被广泛应用在广告请求分析、触发/相关性计算和广告关联度计算中。
词网CEO张跃
对于互联网网站来说,提高流量和用户黏性是最核心的需求,而基于海量数据的语义挖掘,提升内容关联性可有效帮助网站改善这个指标。随后的演讲中,词网CEO张跃结合自己的几个创业项目讲解了NLP技术在互联网数据挖掘上的应用。