最近随着某自媒体考察团去了趟微软加速器,然后我发现此前有个认识有点偏差,国内的数据分析类公司并不像我想的那么少。抽象看,未来的世界大概会是这么个模式:一端是各种产品不停的获取各种数据,一端则是人工智能里的机器学习算法对已经获取的数据进行吞吐,获得自己想要的东西。我之前一直认为国内智能硬件比较火,但后端处理数据的还没起来,但这次看到了些公司,比如GrowingIO既在前端采集数据也在后端作分析多少改变了我的印象。当智能硬件和人工智能的数据处理能力都准备好了,那会形成一种正反馈,让变化来的越来越快,但有些变化估计不是每个人都喜欢。
这十年到底卖了多少摄像头
如果同十年前比较,我们会发现这世界上增加的最多的电子产品还不是手机,而是摄像头。现在不带摄像头的手机几乎没有,而在此之外当我们用地图进行导航时,我们就会不停的听到这里有闯红灯照相等,在小区、超市里各个屋顶角落也是一定会安装上摄像头,近来则更近一部,摄像头也开始走进家庭成为家庭安防的一个环节。
这么多的摄像头意味着什么?这意味着原子世界的信息正在被完整采集,这部分数据采集的越多,就越可能在比特的世界里重建一个真实世界。如果想初步感受这趋势的威力,那可以从违反交规这事来体验,现在的城市里或者高速上只要你违规或者超速,那就不可能查不出来。车牌的识别率几乎逼近100%,这样像超速这种事情,甚至不需要实时拍照,可以记录进出某个路段的时间。
事情还没完,不只是摄像头在大范围的监控这世界,个人的生活细节也越来越多的记录到网上,微博、朋友圈在记录你的言行和观点,淘宝京东在记录你的消费,美团、点评在记录你的看电影和吃饭,滴滴在记录你的移动位置,支付宝等在记录你的金钱流向,诸如此类让生活方便的工具所起的另一个作用就是人事实上在数字世界里可以被越来越精准的描述出来,阻碍人变的透明的越来越不是技术而是某种权限边界。
故事到这里仍然没完,即使通过这些工具,那记录的数据仍然不算精确冗余率很低,比如记录的声音可能就很多噪声,记录的影响可能很大一段就没什么价值。又由于量过于庞大,从这些价值密度比较稀疏的数据中提炼出价值也没那么容易。正在这时候,人工智能的各种突破出现了。
人工智能一边让端上的数据采集可以更有效率,比如通过把计算机视觉集成到芯片里让终端产品只采集更有价值的内容,比如通过各种算法更有效的降噪音采集更精确的声音。一方面则让海量数据的分析能在极短的时间内完成。
天网就在那里悄悄萌芽
外媒The Intercept曾经发了一篇惹起极大争议的文章,大意是说美国反恐过程中通过机器学习算法来对巴勒斯坦人进行分类 ,之后把疑似恐怖分子的人砸死。事情的真相仍然需要进一步的澄清,但整个过程正好充分的说明了上述人工智能与数据采集以及数据分析相结合后的后果。这篇报道中与此相关的描述如下(新智元原创翻译):
“天网”的工作方式就像一个现代典型的大数据业务应用。这个程序收集来元数据、将它们储存在NSA的云服务器上,提取相关信息,然后应用机器学习的方法来辨别执行既定行动的线索。除了不像商业应用那样试图向目标人群兜售某样东西之外,这种活动——考虑到美国政府在巴基斯坦的整体业务重心——可能也涉及到美国政府的另一个机构,CIA或者军方,通过掠食者无人机和地面暗杀小队(death squads)来执行他们的“寻觅——修正——收工(Find-Fix-Finish)”策略。除了要处理记录下的蜂窝手机通话数据(所谓的“DNR”,也就是被叫号码识别数据,包括通话时间、通话长度、谁呼叫谁等数据),“天网”也收集用户的位置信息,建立详细的出行档案。关闭手机则被当做是试图逃避监控的迹象而受到“天网”的标记。天真地相信更换SIM卡就能防止被追踪、并且这么做了的人,也会受到“天网”的标记(烧入手机的ESN、MEID或是IMEI会让手机即使换了SIM卡也会被追踪痕迹)。幻灯片称,即使是更换手机也会被探测到并受到标记。这种探测,我们只能猜测(因为幻灯片上没有对这一点进行详细介绍),可能是基于其他元数据(比如现实世界中的用户位置、社交网络等)不变的基础上的。
有了完整的元数据集,“天网”就能拼凑出一个人典型的日常轨迹——和谁一起出行、有哪些共同联系人、和朋友们一起通宵、去其他国家旅行或是永久地搬离了。总体而言,这些幻灯片显示,NSA的机器学习算法使用超过80种不同的属性来为人们的“恐怖分子程度”打分。
幻灯片告诉我们,这个程序的假设是,恐怖分子与普通居民在其中一些属性的行为上有显著的区别。然而,在Intercept去年的披露中可以清楚地看到,被这个机器学习程序打出最高分的是Ahmad Zaidan,半岛电视台在伊斯兰堡的分社社长。
这里并不想穷究这事情本身的好坏是非,想强调的是用终端采集数据(上面的例子中主要是手机),云端对数据进行分析提取(上面的例子是通过机器学习对人的行为特征打分),获得自己想要的东西(上述例子是标识出恐怖分子),这个过程是不可逆的。一方面我们采集的数据会越来越精确、越来越多,想象下我们说的万物互联(IoT)的本质含义,手表、骑行、家电、健康追踪等,事实上都在加速这一过程。人类在这种浪潮前完全没有抵抗能力,比如说如果有一天人的血糖可以不抽血就检测了,并且这种技术可以集成到手表里了,那有多少人会因为担心数据泄露而不戴手表,仍然采用抽血的方式进行检查呢。所以世界的数据化,人的数据化是不可抗拒的趋势,而另一方面计算能力和分析能力会越来越强。
作为结果比特世界对真实世界的描述一定越来越精准。而数据化的程度越高,中介就会被去的越彻底,自动化的程度也就会越高。我们会越来越以数据的思路来思考问题。所以说天网就在那里悄悄的萌芽。
隐私上的争议其实徒劳而无功
这里最具争议的地方估计是隐私,但有的时候我们会发现隐私其实与发展往往是对立的。隐私有两种保护方式,一种是靠规则,比如法律等;一种则是靠物理的手段,比如我就不上网,不用手机。《国家敌人》里的老特工就是用这方式来对抗政府的追踪。后者与人们的意识形态和历史传承深度关联,但确实会阻碍很多东西的发展,比如说一个朋友告诉我德国人更喜欢用现金,因为这会更好的保护自己的隐私,但这种习惯无疑会阻碍电商这类互联网业务的发展。这类习惯其实相当于挡在数据化大潮正前端的障碍,体现为和发展相博弈的力量。
最终隐私的保护不可能通过逃避数据化来实现,而只可能依赖于规则和立法。在技术上隐私是处在消亡之中,人越来越是透明人。长线看,也可以说透明人是技术发展必然结果。
小结
这个时代的所有人几乎都是迷茫的,我们不知道接下来会发生什么,也不知道会发生的事情究竟是好还是坏。技术上变透明这事其实是中性,往好处想可以讲它带来了解决人类不适合处理公共事务这千古难题的契机,往坏处想则可以讲它带来了一个人有能力统治整个世界的可能性。