科技讯6月28日消息 由科技和媒体新闻联合主办的“第三届媒体未来科技峰会”今天在北京国贸大酒店召开。在下午的人工智能分论坛上,商汤科技CEO徐立表示,机器视觉从流程上来说分三大部分:第一部分,成像;第二部分,感知;第三部分,识别。机器视觉能解决什么问题?除了复现人对图像的识别,还可以超越人。“互联网上超过70%的内容是视觉内容,我们希望帮助上下游企业打通人工智能的视觉。”徐立说。(温泉)
现场实录:
徐立:谢谢主持人,多谢美女主持人,也多谢刚才的美女机器人。我在想未来会不会主持人的活被机器人干了。我们在讲人工智能课题的时候,或者是这个话题现在变得比较热,很多讲机器人都是一种表现形态,但是最后的技术大家通常会觉得离我们比较远,离现实的过程,距离人还是比较远的,相对来说很有未来感、科技感。但是我想讲的是关于人工智能的视觉的部分。我们做的是计算机视觉,也就是说让机器代替人来完成眼睛、大脑的合作,通过视觉信息的输入,来给大家一个更好的理解。
这是主题的内容,叫看得见的人工智能。为什么说看得见这件事情非常重要?首先我们感知这个世界的最大的源头,或者说互联网上操作70%的内容都是来自于视觉的内容。所以用视觉的内容其实是有更多的表现形式。商汤做的事情是人工智能视觉的,我们希望通过万物互联到万物智联的过程中,帮助上下游企业打通视觉这一关,面向改变更多的视觉内容。
讲到计算机视觉、机器视觉还是很陌生的,虽然我们知道我们想用电脑或者计算机来改变现有的状态,机器人有眼睛,机器人可以理解,这部分的视觉到底包含什么内容?从现在行业的内容,以及学术上的理解给大家作一个简单的介绍。机器视觉从整个的流程可以分为三大块,第一块就是可以模拟人的眼睛的部分,机器也是像人一样,需要捕获更高质量的图像,机器可以超越人,它得到的影像和内容可能比人得到的更加清晰和完美。第二部分就是所谓的感知,感知这一层比较有意思,我们在看这个世界,世界不是2D的,这也是我们现在讲的AR、VR的技术,因为视觉是3D的,因为世界不是静态的,所以世界有运动,这一类内容被称为感知层。最后是常规介绍的,对这个视频输入的一个真正的识别,这一层就对应到人的感知系统。
成像所牵扯的问题非常多,比如说第一张照片讲的是去模糊。比如出去吃饭,给女友拍照,拍完照是模糊的,我们可以用算法使它变得清晰。第二个是超分辨率,如果手机的分辨率小的话,可以通过算法使得分辨率变高,同时包括暗光的增强、雾霾的消除,甚至手机上常用的美颜,也是通过相机把照片的质量变得更好。左边这张图是我在2008年的时候,在马赛拍的一张照片,这是马赛很重要的景点。当时我来得比较匆忙,只拍了这么一张照片,回过头来看就只有这一张照片,因为我手在晃动,没有把握好拍照的节奏,这张照片显得比较模糊。计算机视觉,或者我们认为遥不可及的人工智能的优势就是它可以通过算法把一张照片变成右边这张清晰的照片。真正的操作是我们能够看得见的,我们可以通过算法进行视觉的增强。
这个技术是用在什么地方?这张照片是网上搜来的,搜索的关键字就是“硅谷”,搜到这张照片,其实它有一段文字描述,美国的重心从华尔街转向硅谷。这张照片体现的是硅谷的速度,一辆车开过,上面的车牌变得很模糊,用运动的模糊感可以告诉别人什么样的,体现出来真正的奔跑的感觉。虽然可以看到右上角写的是什么字,但是具体的细节,比如说这条道路的道号,这条道路是朝哪个方向的并不能看清楚。有一个实际的例子,我们可以通过算法的操作,把上面这张照片变成下面这样子,虽然照片不是很完美,但是可以看到这是101国道,这条路是南北的。可以用在安防、监控的行业当中,比如说用摄像头拍的照片是模糊的,完全可以用算法把清晰的内容还原出来。
我们说的机器视觉、人工智能除了做这部分的恢复之外,还可以解决什么样的问题呢?再看一张用手机拍摄的照片,这张照片是用三星手机拍摄的,但是已经调用了夜景的模式,当时的情况是这个房间非常黑暗,所以拍出来的照片几乎是看不清楚这张照片里有什么样的内容。我们的算法进行调整之后,就可以把一张极暗光下拍摄的照片变得比较完美,变得人能够识别出来发生的内容,有书、有瓶子、有礼物,包括书上的文字也能看得一清二楚,是一本教女性读者怎么说话的书,很有意思的书。这告诉我们,机器视觉这一块的智能模式除了可以奉献人对这个世界的,对图像的捕捉能力之外,可以在一定程度上超越人。
2015年拍摄的北京的照片,我相信去年这一年或者上半年,拍摄北京照片产生这样的问题不在少数,大部分的摄像机拍出来的照片其实没有办法把真正的我们认为PM2.0或者雾霾消除掉,北京的天就是这样的。算法可以做到什么样呢?可能我们没有办法从真正的根本上改变雾霾的天气,但是算法可以把蓝天还给你,可以做到把雾霾层从照片中去除。所以大家不用去发朋友圈,如果朋友从哪地方转来没有雾霾的照片其实完全可以通过算法来生成。除了把雾霾消除的过程当中,我们也可以让计算机变得更聪明、更美好,比如它可以通过这样一张雾霾照片,假如看上去很无聊、很没有意思,可以进行转换,生成艺术性的照片,虽然是雾蒙蒙的,但是可以模拟一种艺术家的画风,可以把线条化,以及画的背景描述出来,使得大家可以更清晰地人知道到楼的细节,比起左边这张图,显然右边这张图更生动,也更乐意拿来分享。带来一个问题,计算机或者人工智能到底懂不懂美?这件事情不好回答,但是看另外一个例子,这是另外一张北京雾霾的照片,也是我们北京办公室的门口,可以看到前后有各种各样的深度,远处还有人在骑自行车,这张照片看上去并不是很精彩,我们可以用计算机学习出一种变化的方案,变成右边这张可以适合于海报以及适合于各类杂志的图片。好不好其实是比较主观的问题,但是计算机至少可以在某种程度上学习人的认知和人的风格。
另外一张照片埃菲尔铁塔,这是去年拍的,基本上都是找去年拍摄的照片进行处理。右边这张是通过机器输入来形成这个画感,机器可以通过这样的输入,假如是一个机器人的话可以看到这样的场景,给出右边这幅画,这幅画的细节比较有意思,可以看到铁塔的栏杆,画是用线圈表示,并不是写实的方式,但是带来的是比较抽象的风格,在中国转化成黑白可能是水墨的感觉,所以机器人其实也可以做到艺术感。这幅画也比较有意思,我是比较喜欢这幅画,因为这朵花是中国南部比较常见的花。有了照片之后,我们让机器学习照片的输入输出,想要生成更好的艺术效果,得到右边这幅画,我非常喜欢,感觉又能体现花的色彩,又能让我们感觉有无穷的想象力,比左边的照片来得给丰富,这是机器视觉能做到的事情,不仅能真实还原真实的状态,还可以做延伸。如果大家对刚才的应用感兴趣,也可以下载微博相机。微博相机出的照片很有可能不会有雾霾的效果,真正地解决了图片当中的视觉的问题。
回到流程当中的第二块,刚才讲的都是2D的,并不生动,现在VR/AR非常生动,讲3D的视觉。有了深度以后,对整个现实情况的感知就会来得更好。感知层其实做的事情就是通过各种各样的输入,比如人是通过双眼的输入,叫立体视觉,还可以通过各种其他的视觉的方法来生成深度。利用深度的感知,利用运动的感知可以做各种类型的识别,包括手势、包括运动的操作。这是机器视觉非常大的领域,在现实当中也有很大的应用。
开始讲了拍照的例子,我继续以拍照的例子来讲,我拿出这张照片,我想让大家看看是拿什么设备拍的,单反、卡片机还是手机?我觉得大家对这个行业的认知渐渐在往前,我第一次跟别人讲的时候,毫无疑问说的都是单反拍的,这末大的光圈、前景深,强颜色对比,比较好的我们称之为郊外的感觉,其实明显是单反相机。不错,确实看上去非常像单反的相机,但是这一类照片生成的原因是因为我们在拍摄照片的时候,除了2D的信息之外我们还得到了三维的信息,因为有三维的信息可以产生景深,这就是感知的具体的例子。怎么求取并不重要,我们可以通过双目,四个阵列或者其他的设备来获得这样一个深度的照片。利用深度的照片完全可以得到一个类似于单反的效果,现在很多手机上有这样的功能,叫先拍照后对焦,先拍照,通过光圈的变化,就是利用视觉里面很重要的点,就是深度感知。用先拍照后对焦的概念,原始的图看上去是比较清晰的斜面,但是当我们用深度求取之后可以做什么?可以把焦点点在前面,背后的酒可以是变成比较模糊的,可以看出层次感。前后两部分的照片就变得比较模糊,在最后其实可以感觉得到远处的图片是成为拍照者的焦点。有了这样的算法和设备之后,其实用手机也可以拍出来一些理想的照片。
普通的商店的照片,如果这张照片是纯粹的景深比较大的,没有办法显示出前后变化,看上去比较粗糙,没有什么意义。但是做了景深调整,这张照片就会比较有生命力,把场景深度带回到大家的感知当中。这个是我们感知层能做的一件事情,前面的那个图形、图像,因为成像层,以及现在讲的感知层带来的是大量的信息的输入。有了输入之后,就是可以做识别,这是我们常常说的人工智能的范畴,什么意思呢?图像智能。前面两部分我都写了字,理解这一层只秀了图,但是大家会发现,其实做识别理解更接近于人的思维。这些照片自己就讲出了自己在做什么,第一、第二张是讲人脸的检测,第三张是讲一些人的属性和一些人的特征。比如说我可以判断人的年龄、性别,甚至是他的颜值。不知道大家有没有在门口试过签到的机器,可以通过一张非常简单的照片可以判断你是不是和库内的人是吻合的,来进行现场的签到。下面包括人的分析、车辆的分析,以及文字的分析。这一切是我们理解这个世界的过程,机器在这里面起到的作用是在一些垂直领域,利用大量的数据来帮助人们更好地完成这样的任务。
这是我们一个比较标志性的技术,是人脸的技术,我们有比较好的人脸识别,我们也是第一支团队在数据库上超过人眼睛的准确率。这个可以作为工业界识别的标准。下面我简单讲一下应用场景,有了比较好的人脸识别的话,可以做身份的确认。这是一个比较有意思的娱乐场景,这段视频是讲我们一个员工想要模拟成左边人的照片,他经常做换脸的操作。基于这些内容可以生成更好的内容来分享也好,来辅助大家做一些社交性的活动,也可以模仿其他的人和内容,基于时间关系,我就跳过这一段内容。
最后讲一个简单的事情,我们通过这样的一个人脸识别和操作,我们也可以在大规模的场景当中精准地找出我们需要的人,譬如说用来做监控,也可以过滤出重要的内容,比如我来做内容的识别。商汤其实是人工智能、机器视觉的使能者(音)的地位,我们也来帮助行业的上下游客户,使得他们的产品能够更快地进入到各种设备当中,使得他们的技术能够更快地去改变整个的生态圈。
谢谢大家!