图为脸谱公司副总裁石峰在演讲。浙江日报记者 吴煌 摄
Facebook副总裁石峰在2016年世界互联网大会上表示,人工智能已经融入了他们产品的各个方面,他们希望能用人工智能够帮助所有的人在脸谱上创制更好的视频,而不仅限于专业人员,这其中非常重要的一门技术就是视频稳定技术,这样即便是普通人也能够更专业。
石峰表示,如果有人试图要骗过相机,不管他运动速度多快或者不断改变自己的身体形态,还是能够迅速辨识,能够追踪这个人的活动。就好像最早推出照片辨识的时候,(系统)已经达到了对面孔辨识97%的准确率,现在要比人更善于辨识面孔,而在视频当中也是从人脸辨识开始的。
他还提到,Facebook在两个星期前刚刚在爱尔兰开始测试了新技术,手机上将能够运行人工智能,即在Facebook应用当中推出了神经网络,运算都通过手机来完成。
他表示,这些多是现有AI应用在图像视频识别、自动翻译等领域做不到的。“对于人工智能我们要花很长时间来训练它,就像教孩子打棒球一样。一方面我们有超过十亿人在寻找内容,而另外一方面我们又有数以亿计的内容发布给他们,他们可以很了解这两者怎么取得平衡,所以我们每天做很多预测,而真正最激动人心的就是我们还能获得很多反馈”,石峰说道。
下为石峰演讲实录:
大家早上好!我很高兴第三次参加世界互联网大会,我每年都来,但是我的中文还是很糟糕,我就不为难大家了,我还是用英文演讲吧。在我们的工作中,我们觉得最重要的就是人工智能。接下来我给大家介绍一下脸谱网公司在人工智能方面的发展。可以说人工智能已经融入了我们产品的各个方面,今天给大家举不少例子,比如说人工智能支持着我们的硬件和软件,最后一部分给大家介绍一下我们最近的研究成果,内容就是如何教会机器去阅读文本。
比如我们讲新闻推送,我先给大家简单介绍一下,每天有十二亿的用户访问脸谱网站,可以说他们在这里花费了很多时间,而就我们公司而言,我们的工作就是服务于这十二亿人,我们为他们提供了许多故事,我们为他们提供了大量的内容。就我们而言,我们的工作就是想要了解用户究竟想要什么故事,并且将这些内容推送给他们。
举个例子来说,我们了解每个用户的兴趣,并且向他们提供相关的内容。比如说我在乌镇,如果我的太太和孩子发了照片,内容是他们在爬黄山,我肯定希望她们是我新闻推送的第一条,因为他们是我最在乎的人,而且他们的登山活动也是我的兴趣所在。今天能再来乌镇我特别高兴,我还记得去年乌镇也是非常精彩。
我们从人工智能的角度来讲讲,我想在座的各位都知道人工智能和传统计算机不同,它更像一个孩子在学习这个世界,而不是事先编程,所以对于人工智能我们要花很长时间来训练它,就像教孩子打棒球一样。一方面我们有超过十亿人在寻找内容,而另外一方面我们又有数以亿计的内容发布给他们,他们可以很了解这两者怎么取得平衡,所以我们每天做很多预测,而真正最激动人心的就是我们还能获得很多的反溃
一旦我们向用户发布内容,我们就知道他们喜欢什么内容,了解他们和朋友分享什么,点击什么内容,看什么视频等等。所以我们每天能够获得大量的反馈,在这个过程当中也可以帮助我们训练系统。所以说大家如果是做人工智能的,大家一定觉得这是再理想不过的状况了。除此之外还有两样东西帮助我们在现在获得成功,我们回到1992年,那个时候我刚刚完成我的博士学位,我的研究当中一部分就是人工智能,就我个人而言,我觉得1992年还近在眼前,但是实际上我们看看计算机资源在这个过程当中有了飞跃。
可以说如果离开这个飞跃,我们肯定没有办法处理如今这样大量海量的数据。而且可以说更加激动人心的是我们在这方面真正的取得了进展。大家看这张PPT,这张图表上可以看到智能竞赛的结果,在左边大家可以看到是系统的准确率,内容是辨识图像,大家可以看到在四年的时间当中,准确率从55%上升到了80%,所以说是了不起的进步埃大家看这些圆圈,可以看到计算能力,特别激动人心的是最近的系统,大家可以看到较之四年前运算能力大大提高,接下来的部分我们来讲讲这些技术对于我们每天的日常活动有什么影响。大家可以看到这里是一些例子,告诉我们在脸谱上如何解析图像,并在所有的内容当中都已经融入了人工智能。
接下来给大家介绍一些图片和视频,我想这是最前沿的一部分技术,我想就很多的脸谱的用户他们有的人在视力上有一些障碍,要想让他们能够辨识图片,以前他们做不到,现在我们有可能帮助他们,比如说看这里的视频,我们还能够让人来分析这些图片。如果你是盲人,这毫无疑问是一个很大的发展和进步。另外我们知道脸谱上一个内容增长速度很快,就是视频,在这里我们没有把声音放出来,但是在这里大家可以看到我们进行的自动的翻译。大家可以看到底部的文本,就是声音材料的意思。所以说即便不开声音,仍然可以看字幕知道下面的内容是什么。
我们希望能够帮助所有的人在脸谱上创制更好的视频,而不仅限于专业人员,所以说非常重要的一门技术就是视频稳定技术,我们用的就是人工智能技术,这样即便是普通人也能够更专业,而且在这个领域当中发展也很迅速。我们一直都是以人为本,驱动技术,所以说我们的技术最关心的就是人,在这里是一个研发者,他在这里试图要骗过相机。他们的活动速度,这个研发人员的运动速度很快,而且不断地在改变自己的身体姿态,还穿了衣服,我们知道衣服的运动体态和人不一样,有的时候还调整颜色和背景色彩,但是即便如此,系统还是能够迅速辨识,能够追踪这个人的活动。就好像最早我们推出照片辨识的时候。在两年半的时候,我们已经达到了对面孔辨识97%的准确率,现在我们要比人更善于辨识面孔,而在视频当中我们也是从人脸辨识开始的。
这是另外的一些例子,也是我们的突破,这是我们在两个星期前刚刚在爱尔兰开始测试的新技术。大家可以看到有史以来第一次可以带手机上面运行人工智能,究竟这一技术是什么样的,就是我们在脸谱应用当中推出了神经网络,你只要用手机拍张照,随后你可以选一个著名的艺术流派滤镜,之后加上照片就可以形成最后的成果,而且这些都是实时的。为什么说这些很有意思,因为这一切的过程和运算都是在手机当中进行的。一般来说以往需要接入云端获得计算能力才能完成。我们现在还是在以原先的方法在继续训练我们的系统,但是我们现在速度更快,而且只需要手机的硬件就可以完成原先的运算。
为了能够进一步发展技术,推进人工智能,我们也在不断地发明新的硬件,这样的话能够帮助我们以更快的速度处理更多的数据,我也非常高兴,我们都是开源设计,最近我们也给九个不同的国家,十九个金融机构提供了支持,从而使这些行业获得更快的进展,我们给他们提供的就是我们专门设计的硬件,我们也非常欣喜能够帮助所有的方面获得进步。
刚刚给大家分享了具体的例子,告诉我们的产品当中的技术,接下来给大家介绍一下我最感兴趣的研究领域,我们的系统可以很有效的告诉大家,左边是一个披萨饼,右边是一个戴眼镜的人手里拿着一个香蕉。但是有两件事计算机做得不太好,一个就是理解情景和文本,另外一件事就是生产。比如说左边我们问计算机这是不是一张素食披萨,计算机很难回答。右边问这个人有没有2.0的视力,计算机也没有办法回答,人是可以回答这些问题的。因为很快在这个问题当中你就知道,意思是素食不是荤食,一看就知道肯定不是素食。而在右边一看这个人戴眼镜就知道这个人视力肯定没有2.0,但是机器做不到,我们要怎么做才能让机器理解这些文本呢?我们就要着手来应对这个问题。