HITS算法和PageRank 算法可以说是搜索引擎链接分析的两个最基础且最重要的算法。从以上对两个算法的介绍可以看出,两者无论是在基本概念模型,还是计算思路及技术实现细节都有很大的不同,下面对两者之间的差异进行逐一说明。
HITS 算法是与用户输入的查询请求密切相关的,而PageRank 与查询请求无关。所以,HITS 算法可以单独作为相似性计算评价标准,而PageRank 必须结合内容相似性计算才可以用来对网页相关性进行评价。
HITS 算法因为与用户查询密切相关,所以必须在接收到用户查询后进行实时计算,计算效率较低;而PageRank 则可以在爬虫抓取完成后离线计算,在线直接使用计算结果,计算效率较高。
HITS 算法的计算对象数量较少,只需计算扩展集合内网页之间的链接关系;而PageRank 是全局性算法,对所有互联网页面节点进行处理。
从两者的计算效率和处理对象集合大小来比较,PageRank 更适合部署在服务器端,而HITS 算法更适合部署在客户端。
HITS 算法存在主题泛化问题,所以更适合处理具体的用户查询;而PageRank 算法在处理宽泛的用户查询时更有优势。
HITS 算法在计算时,对于每个页面需要计算两个分值,而PageRank 算法只需计算一个分值即可;在搜索引擎领域,更重视HITS 算法计算出的Authority 权值,但是在很多应用HITS 算法的其他领域,Hub 分值也有很重要的作用。
从链接反作弊的角度来说,PageRank 从机制上优于HITS 算法,而HITS 算法更易遭受链接作弊的影响。
HITS 算法结构不稳定,当对扩展网页集合内链接关系做出很小改变,则对最终排名有很大影响;而PageRank 算法相对HITS 而言表现稳定,其根本原因在于PageRank 计算时的远程跳转。