当你打开互联网搜索引擎,输入关键词寻找并得到想要的链接时,“机器学习”已经贯穿整个过程:搜索到的内容是机器根据无数人搜索关键词的统计结果,返回的最可能被需要的目标信息;而同时,你的这一次搜索行为也已经被机器记录,加入到它的庞大无比的数据库中,用来了解人的搜索习惯和需求。
随着计算机与网络的飞速发展,机器学习作用越来越大,正在改变着我们的生活和工作。互联网搜索、在线广告、机器翻译、手写识别、垃圾邮件过滤等等都是以机器学习为核心技术的。
微软亚洲研究院互联网搜索与挖掘组高级研究员李航博士介绍说,机器学习是关于计算机基于数据构建模型并运用模型来模拟人类智能活动的一门学科。机器学习实际上体现了计算机向智能化发展的必然趋势。现在当人们提到机器学习时,通常是指统计机器学习或统计学习。实践表明,统计机器学习是实现计算机智能化这一目标的最有效手段。
机器学习最大的优点是它具有泛化能力,也就是可以举一反三。无论是在什么样的图片中,甚至是在抽象画中,人们能够轻而易举地找出其中的人脸,这种能力就是泛化能力。
当然,统计学习的预测准确率不能保证100%。
李航说,机器学习是“乡下人”的办法。有个笑话。一个乡下人进城,到餐馆吃饭,不知如何在餐馆用餐,就模仿旁边的人。别人做什么,他也就学着做什么。邻桌的一位故意戏弄他,将桌上的蜡烛卷在饼里,趁乡下人不注意时把蜡烛扔到地上,然后咬了一口卷着的饼。乡下人也跟着学,大咬了一口自己的饼。机器学习只是根据观测,“模仿”人的智能行为,有时能够显得非常智能化。但如果观测不到关键的特征,它就会去“咬卷着蜡烛的饼”。
据调查,60%的互联网用户每天至少使用一次搜索引擎,90%的互联网用户每周至少使用一次搜索引擎。搜索引擎大大提高了人们工作、学习以及生活的质量。而互联网搜索的基本技术中,机器学习占据着重要的位置。
在李航看来,互联网搜索有两大挑战和一大优势。挑战包括规模挑战与人工智能挑战;优势主要是规模优势。
规模挑战:比如,搜索引擎能看到万亿量级的网址,每天有几亿、几十亿的用户查询,需要成千上万台的机器抓取、处理、索引网页,为用户提供服务。这需要系统、软件、硬件等多方面的技术研发与创新。
人工智能挑战:搜索最终是人工智能问题。搜索系统需要帮助用户尽快、尽准、尽全地找到信息。这从本质上需要对用户需求如查询语句,以及互联网上的文本、图像、视频等多种数据进行“理解”。现在的搜索引擎通过关键词匹配以及其他“信号”,能够在很大程度上帮助用户找到信息。但是,还是远远不够的。
规模优势:互联网上有大量的内容数据,搜索引擎记录了大量的用户行为数据。这些数据能够帮助我们找到看似很难找到的信息。比如,“纽约市的人口是多少”,“春风又绿江南岸作者是谁”。另一方面,低频率的搜索行为对人工智能的挑战就更显著。
李航说,现在的互联网搜索在一定程度上能够满足用户信息访问的一些基本需求,也是因为机器学习在一定程度上能够利用规模优势去应对人工智能挑战。但距离 “有问必答,准、快、全、好”这一理想还是有一定距离的,这就需要开发出更多更好的机器学习技术解决人工智能的挑战。