艺术家Heather Day在Facebook园区的增强现实艺术作品
《大西洋月刊》(the Atlantic)撰文称,Facebook新的“AI Camera”团队想要在现实世界中开辟出一个新的空间。在围绕手机摄像头的争夺战中,该团队将会整合过去十年最重要的一些技术进展,如神经网络、机器人、相机系统和社交网络数据。在不远的未来,你的摄像头将会理解它所在的位置,识别取景框内的人,无缝地强化你所看到的现实。
以下是文章主要内容:
在Instagram故事功能中给闪闪发光的生日蛋糕蜡烛拍个视频,然后点击贴纸按钮。在列表最上方,你就会看到蛋糕。
这是小玩意,这种简单的伎俩并不令人惊叹,也没有什么神奇之处。但它是某种变革性的东西的开端。智能手机已经改变了大多数人拍照的方式。硅谷的最新追求是重新想象摄像头,将近年来人工智能的进步应用于让你的手机变得能够轻松理解现实世界,就像谷歌理解整个网络那样。
坐拥20亿用户的Facebook已经将负责Instagram、Facebook和Messenger的相机软件编程的数个团队重组成一个名为“AI Camera”的新部门。该部门去年成立的时候,只有一个成员。如今,它已经扩张到60人。当中包括曾在微软从事Photosynth工作的里克·(Rick Szeliski)和迈克尔·科恩(Michael Cohen)。AI Camera团队还能够利用在公司其它部门的顶级神经网络研究者的专业知识,比如大名鼎鼎的雅恩·乐昆(Yann LeCu)和贾扬清。
AI Camera团队负责赋予这些应用内的摄像头理解你让它们对准的东西的能力。在不远的未来,你的摄像头将会理解它所在的位置,识别取景框内的人,无缝地强化你所看到的现实。
目前,该团队都是推出小的成果,比如那个生日蛋糕贴纸伎俩。但那只是一个想要改变你使用手机摄像头方式的开发项目的开始。
AI Camera结合利用过去数十年众多最重要的技术进步:神经网络、机器人、相机系统和社交网络数据。这些底层技术正在共同构成智能手机的照片拍摄和显示功能。
也许这听上去很荒谬。但人类捕捉、理解和分享现实世界的照片的欲望已被证明几乎无法满足,正因为此,Facebook、苹果、谷歌、三星、Snapchat、微软等大型科技公司悉数进军该领域。
Facebook的项目也让人联想到了其它科技巨头的动作。阅后即焚通讯应用Snapchat母公司Snap自称是相机公司,其在“镜头”上的应用可谓Pokémon Go以外增强现实的最佳诠释。在谷歌今年5月的开发者大会上,桑达尔·皮查伊(Sundar Pichai)展示了Google Lens(谷歌镜头),该软件能够检测摄像头在对准什么东西,还能够利用这一信息提供其它的功能,如输入密码和识别花朵。
在Snap的刺激下,科技巨头们纷纷开始拼合能够通过智能手机这一完整的成像和显示系统能够完成的东西。手机摄像头被使用的每一毫秒,所产生的数据都能够被捕捉、处理、理解和回送给用户查看。
空间化Facebook
“我们实质上是在探究我们需要哪些技术来打造令人惊叹的增强现实产品。”AI Camera团队产品经理约翰·巴内特(John Barnett)指出。
他说,试想一下,在现实世界上叠加一个持久稳固的可分享社交层,一个逃出信息流的空间化Facebook。
“当初每一个人都为只是叠加一层东西的Pokémon Go感到非常兴奋。要是有1000层那样的东西呢?”巴内特问道,“所有的这些信息层都会出现在情境空间里,跟你关心的东西密切相关。”
这跟我们所熟知的那个Facebook全然不同。尽管它已经从桌面端转向“移动端”,但它鲜少跟你握持手机所在的物理空间进行交互。
“在现有的Facebook结构中,我们给你呈现世界上正在发生的一切事情,通过折叠空间来给予你时间。”巴内特说道,“而AI Camera则是要折叠时间来给予你空间。”
也就是说,Facebook在同时处理两种模式:动态消息(News Feed),实时向你展示你关心的东西;空间化的Facebook,告诉你这里正在发生什么。你可以观察这种世界,也可以提供反溃至少,你可以对你的世界这么做。
增强现实的一个愿景
在Facebook门洛帕克园区的其中一个楼层上,眺望南海湾的泥滩,你会看到一个平平无奇的角落。上面铺设了管道。监控摄像头在东向的墙壁上。透过肉眼,你看不出该面墙跟Facebook园区数百面其它的墙有什么区别。
然而,掏出一部装有Facebook正在开发的一款应用的手机,将它对准该面墙,你会看到一个漂亮的艺术作品。该作品主要由旧金山艺术家Heather Day创作而成。它在Facebook CEO马克·扎克伯格(Mark Zuckerberg)在F8开发者大会发表主旨演讲时曾短暂亮相。
管道下,鲜蓝色,蓝绿色,青绿色,各种色彩汇集在墙壁上……太酷了,它就是悬浮在空中。
关闭该应用,再将它打开,再一次将手机对准那个角落,那个艺术品再一次出现。绕着它来回走,穿过它,Heather Day的画作仍旧在那里。要是全世界各地都成千上万个像这样的东西,会怎么样呢?然后旁边是墨西哥卷饼的推荐信息,跑步和骑行记录应用Strava的分段记录项,你的朋友在镜头前摆拍……
这是增强现实的一个愿景。增强现实是指将数字信息叠加在现实世界的图像上面。在苹果推出旨在让开发者将AR引入应用的框架ARKit以后,AR近几个月迎来了很多的发展动力。开发者们最近一直在展示那些AR应用,谷歌前不久也发布了一套类似(尽管没有获得广泛的赞誉)的工具:ARCore。
不管怎么样,AR对于智能手机来说是一项极其复杂的任务。阿尔瓦罗·科列特(Alvaro Collet)是来自卡内基梅隆大学的计算机视觉专业博士,从微软加盟Facebook,加入AI Camera团队。他站在我旁边,看着那面墙。“这实际上是一个很有挑战性的场景,因为它非常平整。”科列特告诉我。
即时定位与地图构建
这种基本的任务让人想到了机器人数十年来要做的事情。研究人员将其称作SLAM(即时定位与地图构建)。
SLAM的理论和实践在过去30年里形成,源自多位机器人研究者,比如SRI的兰德尔·史密斯(Randall Smith)和彼得·奇斯曼(Peter Cheeseman)、悉尼大学的休·杜兰特-怀特(Hugh Durrant-Whyte)、塞巴斯蒂安·特伦(Sebastian Thrun)、来自卡内基梅隆大学的科列特导师马夏尔·赫伯特(Martial Hebert)。这些研究者大多数都研究真实的机器人,主要是装有各类传感器的自动化车辆。但随着智能手机开始兴起,研究人员意识到,他们的系统可能将能够触及数亿人,而不是数十人。
SLAM的问题在于,你需要给机器人(或者手机)所在的世界构建地图,但机器人(或者手机)和世界的位置都是不确定的。
“如果你知道已经是3D的世界的所有特征,那摆正摄像头的位置会很容易。相反,如果你有所有的摄像头位置信息,那给世界构建3D地图会很容易。”科列特说道,“SLAM的问题在于,开始展开工作的时候,你没有3D地图,你不知道摄像头在哪里。那是即时定位方面的工作。”
有很多的方法解决该存在于不同算法当中的问题。每一种方法都需要作出折衷。有的可提供很高的精准度,但计算方面成本高昂。有的可能没那么广泛地考虑来自一个传感器的图像,但运行快速,不需要太多的计算工作。
开发挑战
Facebook同时为iOS和Android平台开发产品,这给它带来了不少的挑战。当然,Facebook的优势在于它无与伦比的规模:20亿用户,而且这一数字还在不断增加。但要利用好这种规模,Facebook必须要让AR同时适用于形形色色的手机,而不只是适用于像Pixel 2、三星Galaxy Note 8和iPhone X这样的高端机型。那意味着他们实际上要部署多个算法来实施SLAM。在低端的手机上,运算会更加艰难,因此他们得提升运行速度。高端手机会有更好的表现,因为它们有足够强大的处理能力。
对于低端机型,AI Camera团队必须要考虑各种隐藏的硬件问题。在手机内部,有个摄像头,但还有个可用来了解手机运转情况的惯性测量单元(IMU)。该单元包含陀螺仪和加速计。低端设备上的所有这些零部件都必须要进行校准。它们的时钟必须要同步化。由于制造质量较低,每台设备对比iPhone可能都会表现出不同程度的差异。
在所有的电子工作完成,手机知道它自己大概在哪个位置和场景的几何结构以后,接着要解决的下一层技术是:深度神经网络。该“神经”部分意味着,这类软件需要“经过训练”,而不是通过传统规则来程序化。在获得大量的标记数据后,神经网络能够根据它看到的东西标记新的数据。深度部分是指神经网络的层数,这与数据集的功能复杂性相关。
在过去5年里,这种机器学习系统改变了图像识别等功能的处理方式。谷歌图片让你寻找名片或者山脉或者人的图片的功能,就是借助了深度神经网络的威力。
不过,想象一下,下一步的进展:不只是识别艺术品,手机能够识别存在于它已经构建的场景模型内的物体。那在过去一年里才变得可行。
“这是我们第一次能够在手机上同时运行SLAM和深度网络。”科列特说道,“我们有两个大型团队:SLAM几何团队和深度网络团队。目标是,这两样东西发生融合。”
那是你实现Facebook所想象的那种增强现实的唯一方式。到那时候,他们将只需要让人们去填充所有的那些空间信息层。
“我们很想要做到的一点是,也许一两年后,让日常用户仅通过手机上的工具就能够重现艺术家Heather Day那样的场景。”科列特表示。
任何有Facebook账号的人都可以创作媒体作品和将它固定在世界上的某个地方。未来将会有悬浮在空中的食品推荐、婚纱照和画作,未来到处都将会看到艺术作品和墨西哥卷饼。
滥用问题
但从各个社交平台的发展史来看,我们可以确定的一点是:人们将会用自己的方式来利用那些工具。他们将会发现全新的用途,无法预料的用途,以及滥用的方式。空间化Facebook将会带来意想不到的后果。
有的后果或许是可以预见的。现在就已经有空间化信息,只是不是以AI Camera想象或者通过Facebook运作的方式呈现出来。例如,餐馆点评网站Yelp一直以来都备受流氓评论困扰。十年来,餐馆一直都无法处理粉丝和黑子在它们的门口附上数字看板。
另一个有警示意义的例子来自Pokémon Go。奥马里·艾其尔(Omari Akil)曾发表帖子描述他作为黑人玩该游戏的经历。他更多的时间不是花在游戏本身上面,而是在担心其他人会否觉得他行为可疑——并将他带到警察局。“当我的大脑开始一边在担心在美国作为黑人可能会遭遇的问题,一边参与到Pokémon Go游戏带来的现实世界探索的时候,我只想到了一样东西。”他写道,“那就是,我继续玩下去的话,我可能会死掉。”
美国的种族和性别歧视问题在互联网上已经突出,在空间化的增强现实中它们恐怕将会被进一步放大。并不是每一个人都能够同样轻松地访问同样的地方。
2016年,Waze在巴西推出了一项犯罪高发地区提醒功能,帮助人们穿行“治安不好的街区”。微软也曾因为2012年的一项关于类似功能的专利陷入了麻烦当中,专利里所说的功能被人称作“避开贫民区”功能。
即便是在比较良性的例子里,空间信息如果不适合叠加在某个现实空间上面,也会引发问题。
并不是说Facebook能够或者应当解决流氓和美国反黑人方面所有的问题,以及将数字信息叠加到现实世界的所有复杂问题。但在开发增强现实产品的时候,他们可以想想这些问题。
AI Camera项目内部也面临类似的难题。为了让系统兼容全球各地形形色色千奇百怪的手机,计算机视觉技术专家科列特描述了种种他们必须要做的工作,比如校准、算法、系统的故障耐受性。
除了实体部件的现状以外,他们也应当应对好增强现实在伦理和行为方面的问题。考虑系统的滥用和偏见需要花费更多的心思,但现在就考虑这些问题会让该系统日后变得更加强大。
如果AI Camera团队取得成功的话,那他们将会在陆地上面开辟出一个无边无际的新空间。未决的问题在于,那会给这种新的数字层底下的地方带来什么影响。(乐邦)