导语:美国《纽约时报》网络版今天撰文称,谷歌对算法的改进过程就像是对它的进行教育一样,通过增强算法的理解力,搜索引擎最终将像沃森一样,直接为用户提供答案。
以下为文章全文:
计算机智能受瞩目
对人类而言,计算机智能是一个谜,仿佛机器存在人格分裂一样:有时异常聪明,有时却笨得令人不解。
这一谜题最近成为了万众瞩目的焦点。
例如,一周前,谷歌宣布对搜索算法进行大幅调整。该公司表示,将调低“低质量”网站的排名,这类网站主要是为了从谷歌吸引流量,从而获取广告收入。此举将改进谷歌的搜索质量,但同时也表明,作为网络上备受信赖的一个信息来源,谷歌的确是以智取胜。
再早一周,IBM的问答电脑沃森(Watson)在《危险边缘》(Jeopardy!)节目中彻底击败了两名人类选手。然而,在获胜的过程中,沃森偶尔也会给出一些荒唐的答案,让听众捧腹大笑,甚至频频摇头。
计算机的智能只取决于算法——这是一种由人类制作的计算机软件,是构成电脑思维的基石。当运行于性能强大的电脑时,一款聪明的算法可以表现出令人惊讶的能力。谷歌的算法每天都会处理10亿次搜索请求,但算法通常都很脆弱,而且思维简单,就像盲人一样固执地一步一步地遵循着固有的公式。在执行既定任务时,它们的表现非常优异,例如下象棋、扫描网页或是模拟天气状况。但是它们通常都无法处理人类可以轻而易举理解的内容,例如细微差别、背景知识或者现实世界中的常识。
提升计算机的智能水平,使之在更多领域模仿人类的思维,成为了科学界的一项巨大挑战之一。IBM的沃森和谷歌的算法调整不仅凸显出这一领域最近的快速发展,也表明了还有很多难题等待攻克。
对算法进行教育
可以把它想象为对算法的教育。
机器缺乏人类所拥有的生活经验和背景知识,它们只会使用统计模型来获得与人类相似的结果,只不过手段不同。语音识别领域的先驱者弗莱德里克·杰利内克(Frederick Jelinek)用飞行打了一个比方:“飞机不会扇翅膀。”
互联网的语言出现了爆炸式增长,有的以文本方式,有的则以语音方式呈现,这也给了统计算法丰富的训练基础,使之可以得到改进。速度更快的电脑同样起到了帮助。
但是考虑到语言模棱两可和微妙的特点,对语言进行分析和归类仍是计算机面临的一大障碍。所以沃森面临的挑战远高于1997年的象棋电脑“深蓝”(Deep Blue),后者当时击败了世界冠军加里·卡斯帕罗夫(Garry Kasparov)。
美国华盛顿大学计算机科学家奥伦·埃奇奥尼(Oren Etzioni)说:“对于电脑而言,要达到8岁儿童的语言理解能力,难度远高于击败国际象棋大师。”
当然,电脑无法真正理解文字。不过,算法却可以扫描文本,从而寻找规律和可能性,例如特定单词在文档中紧挨彼此的概率。比如,沃森就需要一个“双关语探测器”,因为《危险边缘》节目经常使用双关语。使用统计规律匹配器,沃森就可以判断出,“圣城”(Holy City)更有可能是圣保罗,而非南本德(South Bend)。
搜索引擎发展方向
在网络搜索和电子商务中,优先考虑的是为用户快速提供信息,并为广告主展示潜在的客户。这些都是非常实际而且合理的目标,但是却非常狭隘。
谷歌一直都在改进算法,尽管力度很少能达到最近这样的力度——有望改变12%的搜索排名。其算法一直以来都是商业机密,但却非常依赖于网页中与搜索关键词相关的名词短语,以及网站获得的链接数量。
谷歌可以被视为互联网上的精力过人的自动化图书馆咨询员。只要在谷歌搜索框中输入几个单词,就能获得回答,就像是说:“我不知道答案,但可以试试这些网站。”而提供这种服务只需要远低于一秒的时间,每天的服务次数高达10亿次。
专家称,谷歌的算法很快,而且很有效,但却可以进行合理预测。这就使得网站所有者可以对网站进行调整,从而“从搜索引擎吸取流量”。谷歌搜索工程师艾米特·辛格(Amit Singhal)也表达过类似的观点。在对算法进行调整时,谷歌并未具体说明哪些是“低质量”的网站。但行业分析师认为,所谓的“内容农场” (content farm)正是其打击的目标,这类网站通常都会在文章中加入很多经常被用作搜索关键词的内容。
根据德国市场研究公司Sistrix的数据,在谷歌对算法进行调整后,Essortment.com的排名大幅下滑。该网站就经常会采取上述做法,针对特定关键词进行优化,并在其中添加大量广告。