正文
一种搜索结果的排序算法
文章来源: 文章作者:
发布时间:2006-06-17
【字体:】
【】
【】
乱世用重典,搜索引擎在与spam的长期战争中总是处于不利地位(这很容易理解,搜索引擎公司真正考虑搜索结果相关性和排序的只有几个人,而互联网上整天琢磨怎么对付搜索引擎的有几万几十万webmaster),所以对spam的惩罚很严厉,事实上,所有的搜索引擎对它们认定的spam行为,通常只有一种惩罚:永久屏蔽。现在流行的太极链、凤凰链这些超链群,就存在被当做spam的可能性。国内的搜索引擎注册还没有形成市场,但在国外是很发达的产业,每年以200%的速度增长,它们叫SEO,即search engine optimization。
从某种角度来说,几乎是spam在推动着搜索引擎的进步,很久很久以前的一天,搜索引擎们为了搜索结果能更准确,为了能把最相关的搜索结果排在前面,发明了meta tag。起初,meta tag是很好用的,那时候,诚实的webmaster们如实的填写网站摘要,如实的列出跟他的网站最相关的关键字,搜索引擎们抓取、索引、检索这些诚实的meta tag,并作为搜索结果排序的重要依据,然后,是一段相安无事的甜蜜时光。
岁月迅速流逝,甜蜜时光挡不住资本的力量。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,甚至冒绞首的危险。” 越来越多的网站开始追求收入追求pageview,它们开始欺骗搜索引擎,它们在meta tag中塞进成堆的关键字,塞进跟自己的网站内容无关的但是流行的关键字。群众的力量是巨大的,搜索引擎的相关性被破坏了。。。
字串9
搜索引擎们对作弊者开始第一轮反击,但是无力的,它们的做法是:在排序时更多的依赖网页正文而不是meta tag。
作弊者以进为退,开始第二轮攻击,他们在正文中大量使用与网页背景相同颜色的关键字,在image tags中塞进关键字,在网