想象一下,有人朝你扔过来一个球,你会怎么办?当然是马上把它接祝这个问题是不是弱智死了?
但实际上,这一过程是最复杂的处理过程之一,而我们目前尚处于理解它的阶段,离重塑还非常遥远。这就意味着,发明一个像人类一样去观看的机器,是一项非常艰巨的任务,不仅是让电脑去做到非常困难,甚至我们自己都无法确定完整的细节。
实际上的过程大概如下:首先球进入人类的视网膜,一番元素分析后,发送到大脑,视觉皮层会更加彻底地去分析图像,把它发送到剩余的皮质,与已知的任何物体相比较,进行物体和纬度的归类,最终决定你下一步的行动:举起双手、拿起球(之前已经预测到它的行进轨迹)。
上述过程只在零点几秒内发生,几乎都是完全下意识的行为,也很少会出差错。因此,重塑人类的视觉并不只是单一一个困难的课题,而是一系列、环环相扣的过程。
早在1966年,人工智能领域的先锋派人士Marivin Minsky就曾经给自己的研究生出题,要求他们“把摄像机连到一台电脑上,让它描述自己看到了什么。”而50年之后,今天的人们仍然在研究相同的课题。
这一领域的深入研究是从20世纪50年代开始的,走的是三个方向——即复制人眼(难度系数十颗星);复制视觉皮层(难度系数五十颗星),以及复制大脑剩余部分(难度系数一百颗星)。
复制人眼——让计算机“去看”
目前做出最多成效的领域就是在“复制人眼”这一领域。在过去的几十年,科学家已经打造了传感器和图像处理器,这些与人类的眼睛相匹配,甚至某种程度上已经超越。通过强大、光学上更加完善的镜头,以及纳米级别制造的半导体像素,现代摄像机的精确性和敏锐度达到了一个惊人的地步。它们同样可以拍下每秒数千张的图像,并十分精准地测量距离。
数码相机里的图像传感器
但是问题在于,虽然我们已经能够实现输出端极高的保真度,但是在很多方面来说,这些设备并不比19世纪的针孔摄像机更为出色:它们充其量记录的只是相应方向上光子的分布,而即便是最优秀的摄像头传感器也无法去“识别”一个球,遑论将它抓祝
换而言之,在没有软件的基础上,硬件是相当受限制的。因此这一领域的软件才是要投入解决的更加棘手的问题。不过现在摄像头的先进技术,的确为这软件提供了丰富、灵活的平台就是了。
复制视觉皮层——让计算机“去描述”
要知道,人的大脑从根本上就是通过意识来进行“看”的动作的。比起其他的任务,在大脑中相当的部分都是专门用来“看”的,而这一专长是由细胞本身来完成的——数十亿的细胞通力合作,从嘈杂、不规则的视网膜信号中提取模式。
如果在特定角度的一条沿线上出现了差异,或是在某个方向上出现了快速运动,那么神经元组就会兴奋起来。较高级的网络会将这些模式归纳进元模式(meta-pattern)中:它是一个朝上运动的圆环。同时,另一个网络也相应而成:这次是带红线的白色圆环。而还有一个模式则会在大小上增长。从这些粗糙但是补充性的描述中,开始生成具体的图像。
使用人脑视觉区域相似的技术,定位物体的边缘和其他特色,从而形成的“方向梯度直方图”
由于这些网络一度被认为是“深不可测的复杂”,因此 在计算机视觉研究的早期,采用的是别的方式:即“自上而下的推理”模式——比如一本书看起来是“这样”,那么就要注意与“这个”类似的模式。而一辆车看起来是“这样”,动起来又是“这样”。
在某些受控的情况下,确实能够对少数几个物体完成这一过程,但如果要描述身边的每个物体,包括所有的角度、光照变化、运动和其他上百个要素,即便是咿呀学语的婴儿级别的识别,也需要难以想象的庞大数据。
而如果不用“自上而下”,改用“自下而上”的办法,即去模拟大脑中的过程,则看上去前景更加美好:计算机可以在多张图中,对一张图片进行一系列的转换,从而找到物体的边缘,发现图片上的物体、角度和运动。就像人类的大脑一样,通过给计算机观看各种图形,计算机会使用大量的计算和统计,试着把“看到的”形状与之前训练中识别的相匹配。
科学家正在研究的,是让智能手机和其他的设备能够理解、并迅速识别出处在摄像头视场里的物体。如上图,街景中的物体都被打上了用于描述物体的文本标签,而完成这一过程的处理器要比传统手机处理器快上120倍。
随着近几年并行计算领域的进步,相关的屏障逐渐被移除。目前出现了关于模仿类似大脑机能研究和应用的爆发性增长。模式识别的过程正在获得数量级的加速,我们每天都在取得更多的进步。
复制大脑剩余部分——让计算机“去理解”
当然,光是“识别”“描述”是不够的。一台系统能够识别苹果,包括在任何情况、任何角度、任何运动状态,甚至是否被咬等等等等。但它仍然无法识别一个橘子。并且它甚至都不能告诉人们:啥是苹果?是否可以吃?尺寸如何?或者具体的用途。
上文曾经谈过,没有软件,硬件的发挥非常受限。但现在的问题是,即便是有了优秀的软硬件,没有出色的操作系统,也“然并卵”。
对于人们来说,大脑的剩余部分由这些组成,包括长短期记忆、其他感官的输入、注意力和认知力、从世界中万亿级别的交互中收获的十亿计知识,这些知识将通过我们很难理解的方式,被写入互联的神经。而要复制它,比起我们遇到过的任何事情都要更加复杂。
计算机视觉的现状和未来
这一点就是计算机科学和更加普遍的人工智能领域的前沿。计算机科学家、工程师、心理学家、神经学家和哲学家正在通力合作,形成关于意识运作的概念,但还是远远达不到模拟它的地步。
不过,这也并非意味着目前我们处于死胡同。计算机视觉的未来,将会集成强大而专门的系统,让人们更加广泛集中在难以解决的概念上:环境、注意力和意图。
因此,即便是在如此早期的阶段,计算机视觉仍然发挥了很大的作用。在摄像头领域,是面部和笑容识别;在自驾车领域 ,则是读取交通信号和注意行人;工厂里的机器人会通过它来检测问题所在、并绕过周围的人类公认。虽然说要实现“和人类一样去看”仍然有很长的一段路,但是如果能够实现的话,那会是非常美妙的未来。