昨天人们还在微博上乐此不疲地用“甄嬛体”刷屏,今天大家就都开始关注“元芳体”的盛行。和这些让人摸不透规律的网络流行语一样,信息膨胀的速率让人目不暇接,每一个坐拥数个移动终端的“键盘客”“微博控”都有可能成为下一个舆论焦点的制造者。社交网站的火花,数字产品的革新,国际关系的变数,社会事件的曝光,这些动态通通造成用户对信息的诉求不断扩展丰富,但搜索的查询模式却相对简单,一个小小的关键词如何给用户带来“想要的答案”?快速定位用户的搜索意图成为了每一个搜索人矢志不渝的目标。
可惜的是,越短的搜索关键词,蕴含的信息量就越少,越有可能包含歧义。也许我们可以从关键词命中的网站,用户点击最多的结果,和该IP地址的搜索记录来理解用户到底想找什么,但如果有一个庞大的语料关系库作为参考,则更为直接。
哈尔滨工业大学的孙叔琦正在百度进行着这项复杂而庞大的工作——构建一个涵盖范围极为广泛的“语料知识库”。这已经是他第二次来到百度实习。“与其他地方不同,在这儿,我做的事哪怕只是百分之一影响面的变化,改变的也是成千上万人的互联网生活体验。”
“有段时间‘斗破苍穹’一词每天都会雄踞搜索榜的前三甲,在不知道这是一部小说的情况下,即便是人,也会对这样的查询感到束手无策。”孙叔琦说,如果能够确定“斗破苍穹”跟“小说”是一组匹配的语义关系,实际上就是完成了一次语义关系的挖掘,填补了知识库。比如”中国-国家”,”发动机-汽车”,”排水量-舰船”不管是X是Y,X是Y的一部分,还是X是Y的属性,都能归结为语义关系。
让计算机来识别X词和Y词的语义关系可比让人来识别复杂得多,所以抽取模式更有助于快速过滤文本数据,选取关系实例,而这正是一个迭代的过程。孙叔琦选择用一种特定的质量控制算法来把高质量的语义知识加入知识库。“如果你是第一个在搜索框里查询’台式电脑由主机,显示器和什么构成’的人,你就等于告诉了计算机主机和显示器是台式电脑的一部分,扩充了这个语义关系的知识库。”
语义相似度的计算实际上是通过词语的用法来表示语义的过程,人们在不同的语言环境中对词语的使用都在为这个词建立若干的特征向量。“与前人工作不同的地方在于,我们直接使用语义关系建立特征向量,结合Learningto Rank的方法,将各个特征向量的相似度指标融合,达到了显著高于传统方法的性能。”孙叔琦说。
说到这种语义关系知识库的应用,孙叔琦的项目导师百度自然语言处理部高级工程师孙珂说:“一个用户在百度检索‘西直门鲜花’,有可能是想在西直门买礼品,也有可能是想在西直门和动物园一带找鲜花店,有了语义关系知识库,百度就能把‘动物园鲜花’‘西直门礼品’这样并列关系的结果推荐给他。”
完成知识库的构建也会遭遇不少难题,不过孙叔琦说:“百度校园主题研究项目本身就是让更多学界的人有机会来解决百度一线工程师遇到的难题,想要凭一己之力解决难题也许很难,不过自然语言处理部的众位前辈都是项目背后的力量,‘搜索’,‘百科’,‘知道’这些平台和丰富的WEB资源都让我有机会获取第一手资料。在国际顶级会议ACL上发过文章的很多高人都集中在百度自然语言处理部,智库的力量让我们实现了语义关系挖掘的“easy style”。