没有哪一项技术像人工智能一样,绵延数十年,引领数次风口。从60年前的达特茅斯会议到深蓝国际象棋再到AlphaGo,人工智能一直在持续着迭代、创新。联邦学习,就是人工智能与大数据行业一个新兴的技术,它的出现,有望解决数据孤岛的难题。
但一项技术,如果没有商业落地场景,其价值也将大打折扣。联邦学习如何赋能数据产业,帮助企业挖掘数据价值?3月22日,腾讯云TVP技术闭门会讨论了这个走在时代前沿的话题。
联邦学习激活了跨云大数据合作
“从整体趋势来看,国家对数据方面的监管是趋严的,对于数据保护的法律法规不断完善,开始向GDPR的思路靠拢,严格定义数据的控制权和监管数据的流动,在这种情况下跨云大数据合作基本不可行了。”
微众银行人工智能部副总经理陈天健老师在分享联邦学习带来的变化前,先为与会者介绍了跨云大数据合作的真实现状。跨机构间的大数据合作在严格的合规要求下难以推进,机构内的大数据合作却也遭遇了真实的瓶颈。
“很多企业解决内部数据流通的方式是搭建一个数据中台,设想中的这个数据中台建立以后,各部门非常和谐,通力合作,用大数据解决一系列问题。但实际上,决策者对数据中台的幻想,最后都变成了妄想。各个部门知道数据的价值,都希望使用别的部门数据,但是又不愿意泄露自己业务核心数据。权责不对等、安全性等问题,让企业内部的数据合作同样陷入困境。”
陈天健老师指出,数据合作难题背后有一个第一性原理需要解决:保证数据安全是大数据合作的基本命题。保证数据安全是大数据行业从第一天开始就一直在研究解决的问题,也是联邦学习出现的历史沿革:
- 上世纪90年代到2000年左右,联邦数据库的概念被提出,力图解决存储安全。
- 2010年到2015年间,安全多方计算的概念被提出,力图解决计算安全。
- 2017年到现在,联邦学习的概念横空出世,力图保证信息安全。
“联邦学习希望做到各个企业的自有数据不出本地,而后联邦系统可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。但是在建立虚拟模型的时候,数据本身不移动,也不泄露隐私和影响数据合规。”
陈天健老师解释道,联邦学习目前有三种:横向联邦学习、纵向联邦学习和联邦迁移学习。相比较而言,纵向联邦学习的业务场景更多,目前行业上能做到纵向联邦学习的就只有微众银行、腾讯和VMware三家。
微众银行在Linux基金会开源了一个工业级的联邦学习系统——FATE。据陈天健老师介绍,FATE不仅提供了联邦学习原理性可以验证的全套代码,同时在系统的可用性、可靠性、数据安全可审计的特性,以及架构的可扩展性和其他软件的互操作性方面都进行了大量的工作和研究。
“FATE在开源给社区以后,增加了管理功能,升级为FATE-Cloud,希望打破数据孤岛,为跨机构间,机构内部不同组织间提供安全,合规数据合作网络构建解决方案。也欢迎大家来试用,进一步理解联邦学习。”
在分享最后,陈天健老师也回答了一些关于联邦学习的观众提问,他还提到:与国外比较,中国在联邦学习方面不好说是否领先,但在商业化进展和技术社区推进的角度看,起码是与国外处于齐头并进的状态。
利用联邦学习强化数据价值
“联邦学习的能力不管是在公有还是私有场景下都会有很多诉求,腾讯云神盾联邦学习团队希望将联邦学习能力产品化,提升用户在使用过程中的易用性,为数据供需双方提供商业价值。”
腾讯云大数据团队研发副总经理雷小平向与会者解释了腾讯云的联邦学习思路。他指出,不管是公有云还是私有云,对联邦学习的诉求都很多,而公有云能为联邦学习带来更多数据,让数据变得更活,这是腾讯云的解题思路。
雷小平在分享之初解释了联邦学习产生的背景,他重点提到了联邦学习的典型应用场景有风控应用场景和广告营销场景。这两个场景在数据应用当中都会有各自的特殊需求,传统的解决方案无外乎三种,且都有短板:
- 数据脱敏后直接传给另一方融合建模。短板:安全合规问题严重、审批流程复杂、可用数据范围有限;
- 各自建模后融合模型。短板:模型效果未能挖掘全部潜力,还有巨大的业务提升空间;
- 数据脱敏后统一放在可信环境做融合模型。短板:可信环境并不公平,安全问题仍然存在。
随后,雷小平老师总结了联邦学习的三种思路:
- ID匹配。不泄露查询方ID、不泄露非重叠ID;
- 四则运算。不泄露计算各方的数值;
- 机器学习。改造模型,减少数据交互;将数据交互抽象为四则运算。
基于此,联邦学习应运而生。雷小平老师指出,目前联邦学习并不能解决所有数据融合上的安全问题,它主要针对比较典型的机器学习场景,包括机器学习前的特征维度,以及学习完之后的数据服务都是联邦学习的范畴。对多方数据做sql安全计算目前还不属于联邦学习范畴下。
为服务于广大的To B场景客户,满足他们挖掘数据价值的需求,腾讯云神盾联邦学习团队做了一套完整的解决方案。雷小平介绍到,目前神盾产品具有两个典型场景,一个是拉新场景模型,另一个是首页预测模型。这个产品在用户侧的使用十分简单,从创建任务到安全求交、特征工程、特征选择、结果展示只需五步。
“我们的底层模型、训练框架是目前是基于微众银行的FATE框架做的,FATE框架现在是比较成熟的联邦学习框架,能够满足我们模型所有的要求,我们要做的就是在上层做环境的安全以及产品化易用性以及场景化的改造工作。”
雷小平老师最后指出,腾讯云神盾联邦学习产品是首批通过信通院认证的产品,在实际的客户案例中,给客户带来了实际的效能提升,真正做到了赋能大数据产业,让数据变“活”。
在最后的线上交流环节,雷小平老师也针对观众提问做出了精彩回答。
联邦学习是AI的新兴领域
VMware首席架构师张海宁老师作为本场闭门会主持人,同时也是联邦学习的资深人士,他对本场活动做出了极具概括性的总结:
“在我看来,联邦学习是AI领域一个非常新兴的方向。它能够满足用户进行联合建模,构造精确的人工智能模型,同时可以保证双方数据的隐私安全性。如果企业希望数据能够增值,把数据变成资产,同时收取一定的服务费,这是联邦学习非常有价值的点。20世纪石油是巨大的财富和资产,但是到了21世纪,一个公司最大的资产是数据,数据是最有价值的东西,数据如何变现产生新的价值,联邦学习可能是其中的一个思路或途径。”
可以想象,联邦学习将成为AI领域的下一个重点方向。从2016年由Google提出后,其发展势头堪称迅猛。更为关键的是,在联邦学习的众多玩家中,在技术实现和商业落地方面结合较好,走在前列的微众银行、腾讯云都是中国企业。这将为联邦学习的生态建设和标准制定带来更为利好的消息。
--------------------------------------------------------------------------------
TVP,即腾讯云最具价值专家(Tencent Cloud Valuable Professional),是腾讯云授予云计算领域技术专家的一个奖项。TVP 计划致力打造与行业技术专家的交流平台,构建云计算技术生态,实现“用科技影响世界”的美好愿景。
TVP成立之初,便秉承“用科技影响世界”的愿景,让技术普惠大家,践行科技向善的初心和本心。如今,IT技术的价值已经广泛地为普罗大众所认可,开发者的社会价值前所未有地凸现,我们希望能用这一系列高端、前沿的技术闭门会,在这个疫情发生的艰难时刻,汇聚行业专家,帮助产业找到应对之法。