展会信息港展会大全

搜索引擎算法浅谈 谷歌 互联网 搜索引擎 中国搜索研究中心 中国
来源:互联网   发布日期:2011-08-20 16:19:10   浏览:8236次  

导读:作者:中国电子商务研究中心编辑 , 来源:中国电子商务研究中心 , 发布时间:2009年12月21日09:38 , 内容分类:搜索研究/1232 谷歌 互联网 搜索引擎...

  (中国电子商务研究中心讯)摘要:系统地分析了现有的页面排序算法,指出了它们各自的优势和存在的不足,并指出不同算法在不同领域和场合所具有的优势。建立专业搜索引擎是提高搜索准确性和性能的有效途径。通过网格技术将各种专业搜索引擎集成在一起,形成一个基于网格的搜索引擎,从而更好地满足不同背景不同偏好的用户需求。

  关键词:搜索引擎;页面排序;链接分析

  中图分类号:TP393.09文献标志码:A

  文章编号:1001-3695(2007)06-0004-04

  随着Internet的飞速发展,其提供的文档(网页)也以惊人的速度在增长。有关的调查统计表明,Internet上的网页每不到一年的时间就会增长一倍。要从这么大量的信息库中提取出有用的信息就越来越依赖于搜索引擎的功能。而网页的排序则是搜索引擎要解决的关键问题之一。

  Sergey Brin等人[1]提出PageRank算法开启了链接分析研究的热潮。基于链接分析的算法,提供了一种衡量网页质量的客观方法;独立于语言,独立于内容;无需人工干预就能自动发现Web上的重要资源,挖掘出Web上的重要社区,自动实现文档分类。PageRank在Google中的应用获得了巨大的商业成功。在最初的Google中,首先使用IR(Information Retrieve)算法找到所有与查询关键字相匹配的网页;然后根据页面因素(标题、关键字密度等)进行排名;最后通过PageRank得分调整网站排名结果。

  近几年来,基于链接分析的页面排序算法一直是一个热点问题,学者提出了许多页面排序算法。 

  1 PageRank及其相关算法

  基于链接分析的排序算法中,最为著名的就是PageRank。所谓链接分析主要基于如下两个重要假设:

  ①超文本链接包含了用户对一个网站的判断信息;

  ②对一个网站而言,如果其他网站链接到该网站的入链数越多,该网站越重要。

  以上假设在各种基于链接分析的算法中均以某种方式体现出来。

  1.1PageRank算法

  PageRank算法是最早提出的链接分析算法之一,并被Google用于计算网页的重要性得分。其基本思想是:如果网页T存在一个指向网页A的链接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分的值则由T的PageRank值PR(T)和T的出链(从T链出的链接)数C(T)决定。具体公式为:PR(T) / C(T)。而对于页面A,其PageRank值PR(A)的计算如下:

   PR(A)=PR(T 1)/C(T 1)+…+PR(T n)/C(T n)(1)

  其中,T 1,T 2,…,T n为含有指向A链接的页面。

  为了避免Link Sink(许多网页没有入链或出链)问题,对式(1)引入一个阻尼系数d,使其变为

   PR(A)=(1-d)+d[PR(T 1)/C(T 1)+…+PR(T n)/C(T n)](2)

  如此经过多次迭代,系统的PR值达到收敛。

  PR的计算公式可以从概率的角度解释为一个随机网络冲浪者随机选择一个网页后,不断地点击网页上的链接,但是从不返回;除非最后厌烦了才随机选择另一个页面。随机冲浪者访问某个页面的随机概率就是该页面的PageRank值;阻尼系数d就是随机冲浪者在某个页面会厌烦然后选择一个新页面的概率。页面的PageRank值越高,则随机冲浪者发现它的概率亦越高。这种思路非常富有创意。一个网页的外部链接越多,则对网络冲浪者来说,发现它的机会也就越大。

  文献[2]结合近年来Web出现的一些新特性对PageRank提出了一些改进措施。文献[3]中对PageRank算法中的阻尼系数d进行了深入讨论,从理论上分析了d的取值不同对于PageRank算法效果的影响。文献[4]提出了一种方法用于对PageRank中的迭代计算进行加速。

  PageRank的一个优势在于它是一个与查询无关的静态算法,因此所有网页的PageRank值均可以通过离线计算获得。这样有效地减少了在线查询时的运算量,极大地降低了查询响应时间。

  然而Internet上的内容涵盖了众多主题,在现实应用中,人们的查询所希望得到的信息往往是具有某一方面主题特征的,而PageRank仅仅依靠计算网页的外部链接数量来决定该网页的排名,而忽略了页面的主题相关性,从而影响了搜索结果的相关性和准确性。

  另一方面,PageRank算法对新网页有很严重的歧视性,因为一个新网页入链数量通常都很少,自然PR值很低。1.2Topic Sensitive PageRank

  由于Internet上的内容千差万别,涵盖众多不同的领域和主题。同样一个查询如“汽车”,可能用户1是想买一台汽车,他感兴趣的是汽车品牌、价格;而用户2是想参加与汽车相关的运动,他感兴趣的是与汽车相关的运动项目和赛事。因此要想给用户返回更为准确的查询信息就有必要基于不同的主题来对页面排序。最初的PageRank算法中是没有考虑主题相关因素的。主题敏感PageRank算法(Topic Sensitive PageRank,TSPR)[5]正是在这种背景下提出来的。

  TSPR核心思想就是通过离线计算,计算出一个PageRank向量集合(在PageRank算法中,仅计算一个PageRank向量),该集合中的每一个向量与某一主题相关,即计算某个页面关于不同主题的得分。例如某个网页在教育这个主题的得分为a,在体育这个主题的得分为b,……。

  具体来说,TSPR也可分为两个主要阶段:

  (1)主题相关的PageRank向量集合的计算。先将所有页面的内容划分为16个主题,根据Crawler搜集来的网页,计算该网页在不同主题的得分情况,即不同的PageRank向量。

  (2)在线查询,主题的确定。

  根据用户的查询请求和相关Context判断用户查询相关的主题(即用户的兴趣取向),从而提高返回结果的准确性无疑是一种有效的方法。

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港