12月13日,本周早些时候,社交网络巨头Facebook宣布聘请纽约大学教授扬•乐康(Yann LeCun)掌管其新建的人工智能实验室,他将利用自己擅长的“深度学习”技术帮助Facebook更好地“读懂”用户行为。这位法国裔科学家日前接受了《连线》(Wired)杂志的独家专访,畅谈了深度学习技术和人工智能的未来发展。
扬•乐康教授已经在人工智能领域探索了30年,他设计的“深度学习”(Deep Learning)运算系统能以类似人类大脑的方式处理信息。而如今,这一技术将要进入Facebook的人工智能实验室——乐康将在Facebook位于纽约曼哈顿的新办公室工作,负责开发能帮助Facebook分析数据和行为、最终改变社交网络运作方式的深度学习工具。
借助深度学习技术,Facebook可以自动识别用户上传的照片中人物的身份、自动添加相应的人名标签,以及让用户快速与亲朋好友分享照片。此类技术还能分析用户在Facebook上的一举一动,从而自动为用户显示他们想要看到的内容。
某种程度上讲,Facebook与人工智能技术的结合是件挺“恐怖”的事情。在加拿大多伦多大学研究人工智能的科学家阿卜杜勒•拉赫曼•穆罕默德(Abdel-Rahman Mohamed)指出:Facebook可以利用深度学习实现“无穷无尽”的可能性——“它每天都能搜集到人与人之间的关系、搜集到用户在一天里的所作所为,它知道你支持什么党派、买了什么产品。”
在用户对隐私的需求与人工智能技术带来的强大功能之间,社交网络需要小心平衡。而除了Facebook之外,Google、微软、百度等互联网巨头也纷纷在人工智能领域发力。“这样一方面挺吓人,”穆罕默德说道,“但另一方面也能让我们的生活变得更美好。”
乐康本周出席了在塔霍湖(Lake Tahoe)举行的神经科学处理系统大会,这是人工智能领域一年一度的盛会,Facebook CEO马克•扎克伯格(Mark Zuckerberg)也正是在此次会议上宣布了聘请他的消息。在大会日程间隙,他接受了《连线》的采访。以下为访谈内容摘要:
1. 《连线》:我们知道你将会加入Facebook新建的人工智能实验室,但是你和你的人工智能团队具体将会研究什么呢?
乐康:我可以告诉你这个新组织的目的和目标,那就是在人工智能领域取得重大进展。我们想做两件事情——其一,是真正从科学角度和技术层面取得进展,这将包括参与学术界活动和发表论文;其二,从根本上讲,是把一些技术变成能应用到Facebook中的东西。
但是我们目标是相当长远的,比Facebook现有的工作更加长远,在某种程度上脱离了日常生产活动,这样人们就有思考未来的余地。当你解决这样的重大问题时,技术总会自然而然地随之问世,这样的方式非常有用。
2. 《连线》:那种技术会是什么样子?它能做些什么呢?
乐康:我们将要研究的技术,其实就是一切能让机器更加智能化的东西。说得更具体一些,就是基于机器学习的那些东西。如今,打造智能化机器的唯一途径,就是让它们消化大量数据并建立数据模型。
近年来兴起了一种叫做“深度学习”的方法。它在图像识别、语音识别等领域得到了极其成功的应用,在自然语言处理领域也小有成就。哪怕我们只研究这些东西,也能对Facebook产生巨大影响——Facebook的用户每天都会上传数以亿计的图片和短视频,而聊天与消息中也蕴藏着海量信号。
但是我们的使命不会拘泥于此。例如,我们究竟是如何理解自然语言的?我们如何建立模型,才能为用户显示可能让他们感兴趣的、可能有助于他们实现目标的、可能帮他们节省时间的或是可能激起他们好奇心的内容?这才是Facebook的核心使命,而Facebook目前已经在网站上应用了大量机器学习技术,达到了能向用户显示相关新闻和相关广告的水平。
马克•扎克伯格把它叫做“心智理论”。这一理念在人工智能和认知科学领域流行已久,指的是我们如何用机器为人类用户感兴趣的事物和将要做的事情建模。
3. 《连线》:这种技术的核心科学其实已经颇有年头了,不是吗?早在20世纪80年代中叶,你和如今在Google工作的杰夫•辛顿(Geoff Hinton)等人就率先开发了这些被称为“反向传播”(Back-Propogation)算法的深度学习方法。
乐康:这的确是技术根源,但是我们已经有了更大进展。反向传播能让我们进行“监督运行”——比如,你手头有一组配有标签的照片,你就可以训练系统比对新的照片和标签。Google和百度目前就是用这样的方法给照片加标签的。
我们都知道上述技术很有效,但是如果你手头的东西是视频或自然语言——它们的标签数据非常少,我们不能只是放一段视频然后让机器告诉我们视频里的内容是什么。我们没有足够的标签数据,而且即便花费大量时间让用户提供标签,能否达到图片标签那样的效果也是个未知数。
所以,我们利用视频的结构帮助系统建立一个模型——例如,某些物体的前后位置关系。当镜头移动时,在前方的物体和在后方的物体移动方式有所不同,这样就出现了一种物体的模型。但是这也要求我们发明新的算法——新的“无监管”学习算法。
这在深度学习领域是一个非常热门的研究方向。我们当中没人自以为拥有“灵丹妙药”,但是我们已经取得了一定成果,并且在某些时候可以大大改进纯“监督运行”系统的性能。
4. 《连线》:你提到了Google、百度、微软和IBM等其他互联网公司也在研究深度学习。在外行看来,似乎这一领域的所有工作都兴起于一个相对很小的深度学习学术圈,包括你和Google的杰夫•辛顿等人。
乐康:你说得一点儿也没错——虽然深度学习发展得很快,但是你得知道这项技术其实可以说是我、杰夫•辛顿以及蒙特利尔大学的约书亚•本吉奥(Yoshua Bengio)三个人的“密谋”——希望你能原谅我这么说。10年前,我们聚在一起,觉得我们应该着手解决视觉和语音方面的机器学习问题。
一开始,这项技术是为了机器人控制等目的而开发的,但是我们后来得到了加拿大高级研究所(CIFAR)的资助。杰夫是主管,我是顾问委员会主席,我们每年碰头两次讨论一下进展。
当时机器学习和计算机学术圈的大多数人都对这个“密谋”不怎么感兴趣。所以,在很多年里,这项技术一直局限在我们的那些讨论会中。但是,我们开始发表论文之后,越来越多的人开始对我们的研究感兴趣。然后人们开始看到切实的成效,于是产业界开始对此产生浓厚的兴趣。
令人大为惊讶的是,产业界的兴趣远比学术界来得更强、更快。
5. 《连线》:在你看来,深度学习与普通的机器学习有何不同?很多人都对Google使用了十几年的那种机器学习算法耳熟能详——那种算法能分析海量数据,从而实现自动识别网络垃圾信息等功能。
乐康:那是一种相对简单的机器学习。创造这种机器学习系统需要付出巨大的努力,因为这种系统其实无法处理原始数据。所以,数据必须被转化为系统能够“消化”的形式。这个过程被叫做“特征抽象”。
以图片为例,你不能把原始像素数据扔给那种传统的机器学习系统,而是必须把数据转化为一种能被分类器消化的形式——以恰当的方式表述图片,正是很多计算机视觉学者在过去二三十年里努力做的事情。
相比之下,深度学习能让机器学习这一表述过程,从而不必由人工解决系统遇到的每一个新问题。如果我们拥有海量数据和强大的计算机,我们就可以建立能学会如何恰当表述数据的系统。
当今的人工智能技术存在的很多局限性,都是因为缺乏好的信号表述方式,或是因为我们现有的表述方式需要付出巨大努力去构建而造成的。深度学习能让我们把这一过程变得更加自动化,也能收到更好的效果。