文|张婧怡
编辑|苏建勋
9月3日,2022世界人工智能大会进入尾声。当天的可信隐私计算高峰论坛上,蚂蚁集团发布可信隐私计算“隐语开放平台”,并与中国信通院云计算与大数据研究所、隐私计算联盟共同发布业内首份《可信密态白皮书》,为新兴隐私计算可信密态计算(TECC)提供技术策略。
2021年12月,蚂蚁集团与隐私计算联盟共同提出“迈向密态时代,拥抱隐私计算”,半年过去,蚂蚁集团副总裁、首席技术安全官韦韬提到,“整个行业已经逐步形成共识。”
蚂蚁集团副总裁、首席技术安全官韦韬
什么是数据密态时代?据介绍,数据密态是数据以密态形式流通,保障其流转、计算、融合、制造、销毁的全链路安全可控。
韦韬表示,在数据密态时代非常基本的一点是,未来全行业数据流通会是以数据密态形式来流通“但是前提是一定要有技术支撑能力和相关基础技术设施,否则数据是没有办法以任何方式流通的。所以一定要有全新的技术支撑能力和相关的基础技术设施。”
为此,蚂蚁集团曾在今年7月宣布面向全球开发者正式开源可信隐私计算框架“隐语”,此次大会上又发布了一项开放、易用的隐语开放平台,开发者无需调用和开发代码,就可以直接使用的产品功能。
韦韬用Facebook剑桥分析数据门的案例,详细介绍了当前数据行业的衍生问题。2019年,Facebook被罚款50亿美金,起因是一家名为剑桥分析的数据公司泄露了Facebook上超过五千万的用户数据,并推断用户的智力、性取向或政治观点,再运用算法技术向这些用户发送定向广告,从而影响美国大眩
然而事实上,扎克伯格早在2014年就不再允许第三方获取数据,2015年的时候已经要求他们删除用户数据,提供了删除证明,但直至数据门事件发生,Facebook仍然难以验证这些数据是不是真的被删除了。
“为什么这样?整个数据是明文流转的,流出主体是彻底失控的,所以带来了这么严重的问题。”韦韬表示,这本质上是数据滥用的问题,“在一些合法合理使用场景之下,数据链路非常漫长,数据供应链的复杂程度往往超乎想象。数据互信难,明文方式流转另外一家主体就会失控,就会导致一系列问题。”
而如果数据以密态势流动,就能够保护数据持有权,不会因为明文流动、明文失控使数据持有权丧失,导致用户隐私泄漏类的问题。
基于这样的情况,韦韬和更多合作伙伴明确提出,数据的流转形式在数据要素发展的时候以密态势流动。而密态数据的技术基础包括密码学、可信硬件、系统安全等等,这些底层技术,共同形成了可信隐私计算,能够支撑整个数据密态方向流转,保障持有权不会丧失,使用权和经营权不会让渡。
韦韬认为,当前的数据要素应用已经完全走进数据密态时代。因而在可信隐私计算技术上,也面临着三大挑战。
首先是安全性。密态事态下的各种隐私计算技术承载着非常重要的使命保护数据安全,保护个人隐私。但技术自身安全性也非常重要。隐私计算不能成为沙滩上的城堡,但是今天已经有了这样的苗头。
因为系统太复杂,涉及域太广,包括密码学、系统安全、可信硬件、机器学习、大数据分析,领域非常宽广,每个领域都有可能产生安全问题,都有可能导致数据泄漏。隐私计算技术非常多,导致安全标准非常多,现在多方安全计算、联邦学习、可信执行环境技术融合,接下来该如何做评判和标准、付出巨大成本以后收益如何衡量,都非常关键,也是下一步要解决的问题。
韦韬举例到,联邦学习有一些线上泄漏,到底是否应该被允许?从实战的角度来看,假如联邦学习类似的技术泄漏风险用户是可以接受的,能够引起大幅度的性能提升,这完全是一个合理诉求。问题是对于线上泄漏识别和度量要把控住,不能因为遇到线上泄漏就无限泄漏,无限泄漏就会导致数据安全性被破坏,这件事情是不可接受的。安全是实际攻防结果,不是理论假设结果,这要通过专业团队检验出来真的能达到安全效果,背对背做相关测试,提供足够强的安全保障。
其次是性能。性能面对的挑战其实非常大,当前普遍使用的LR模型还是统计方法,不是机器学习,能够做的事情相对有限。而行业里的机器学习是叫GBDT的树模型或者是XGB的树模型。今天GBDT在隐私计算环境下属于可用源,一般来说是30万样本30M专线8小时左右,这对于目前的应用还是非常大的挑战,迭代非常慢。再往下,深度学习模型。深度学习模型比GBDT模型迭代更慢,还面临着跨公网做交互、做专线、带宽和时延等计算瓶颈,
为此,韦韬和团队做了一个探索,把可信执行环境、多方计算和联邦学习融合在一起,发现这样产生的好处是可以通过可信执行环境计算大幅度降低密码学的成本,能够消除跨网通信的时延带宽瓶颈约束,最后可以通过密码学技术大幅度增强TEE环境里面固有的安全问题,可以看到,融合技术是未来非常重要的方向。
最后是普适性。普适是行业应用最大的挑战。今天,数据主要在计算密态化环节向大数据密态化环节迈步,总体计算比较简单,从原始数据到结果环节比较少。但是,大数据生态非常复杂,里面有丰富复杂的结果需要使用,需要多种数据分割共同支撑使用,整个行业正在向计算密态化到大数据密态化跨越。
提及数据密态的未来,韦韬认为有两条路径。
一是做可信隐私计算原生生态。“计算生态很多是API决定的,拥有API就绑定在这个生态里面。举个隐语的例子,隐语从自由管理层到调度层、算法层、用户界面层都做了非常多的工作,整个生态可以从更灵活的安全性保障做隐私计算未来大数据支撑,未来做数据要素流转支撑的生态发展路径。”
二是做传统的大数据Spark生态。这一生态已经支撑了整个行业的发展,从传统大数据生态走向密态化的路径。韦韬认为,两个路径在未来几年也会共同往前发展,核心是要满足安全性和性能保障下的互联互通,最后走向普适。
“我们相信整个密态事态、可信隐私计算生态体系一定是大家共建的,我们非常愿意在顶层上面跟大家有更多合作,无论是安全性、性能还是普适性上非常繁杂,我们也相信这个生态会彻底改变数字化行业领域。”韦韬提到,“工作是极其巨大的,需要各行各业共同参与进来,这个领域有非常好的时机,未来发展会从计算密态化到大数据密态化大数据要素密态化综合实现,最后支撑整个数据要素行业高质量安全地发展。”
此外,面对当前人工智能时代的隐私安全问题,韦韬也分享了在隐私计算领域的相关实践和思考。
当前,人工智能进入快速发展期,未知的挑战也随之而来。纯粹靠数据学习生成的人工智能并不可控,提升AI安全能力是从业者的必答题。
人工智能的发展程度有很多衡量的标准,但从安全维度评估,它还处于初级阶段。新一代人工智能的发展和大规模应用不仅要解决数据驱动的问题,还要解决安全可靠问题。
据韦韬举例,安全风控领域是天然的开放空间强对抗博弈场景,需要与全球最狡诈的黑色产业团伙做高强度对抗。在这个领域中,目前单纯基于数据驱动的智能体系是无法与之有效应对的。
一方面,需要深入研究机器智能与专家智能高效协同的融合对抗智能;另一方面需要加强AI的可信保障机制,包括可解释性、鲁棒性、公平性及隐私保护能力--由此可见,人工智能应用的时代下,“智能化”背后的风险挑战不容忽视,需要一系列的技术保障。
韦韬认为,人工智能的大规模应用步伐正在提速,产业的大规模应用落地,亟需解决安全可信、协作共识、复杂关联分析、存储计算规模爆炸、降低耗能等问题。
简单来说,当前AI时代的五大挑战分别是:大规模数据流转及AI应用中,如何捍卫用户隐私和数据安全?产业协同中,如何建立信任机制,促进价值创造? 大型实体及数据关系中,如何解决结构复杂关联问题? 数据量几何式爆炸增长,如何解决存储计算的性能和成本瓶颈?数据爆炸增长,如何降低计算耗能、更好保护环境?
据了解,蚂蚁集团也在持续攻坚这五大技术领域。“要解决AI安全问题,就要抓住根源技术,要在隐私计算、区块链、图计算、分布式数据库及计算基础设施、绿色计算等AI大规模应用的“根技术”上深耕探索。”韦韬表示。
2016年,蚂蚁集团就开始进行隐私计算技术研发及规模化应用,打造可信隐私计算隐语技术体系,可信隐私计算框架“隐语”已于今年7月正式开源;蚂蚁链则助力解决供应链、版权保护、跨境贸易等多个产业协作数字化的实际问题;蚂蚁大规模图智能计算系统TuGraph,是蚂蚁集团金融风控能力的重要基础设施,应用于能源、电信等行业。
“只有人工智能技术的发展和安全达到有机融合,才能以高水平安全助力高质量发展。从蚂蚁的实践来看,推动AI智能+专家智能的融合协同,是实现人工智能在高安全对抗领域实现安全可信的关键路径。”韦韬说。