10月26日消息,2012全球软件开发大会(杭州站)进入第二天议程,PayPal上海风险技术主管Patrick Firouzian在会上发表主题演讲,分享Paypal的在线与离线大数据欺诈风险管理技术。
据Patrick Firouzian介绍,目前Paypal已出现在世界190个市场上,其支付平台跨129个国家,交易额达1500亿美元。他还指出,对于中国这样一个有着“世界上最大的一个生产基地”之称的国家,Paypal是一个非常实用的平台。在中国上海,PayPal有800名员工,可以提供风险管理、客户支持,还有技术服务。
Firouzian表示,目前互联网上在IT方面最热门的工作,不是安全而是数据分析。而数据工程师是互联网上最热门、工资最高的工作,数据工程师的工作主要是负责处理一个公司硬件设备中存储的数据,并且分析诠释数据。
对于大数据的定义,Firouzian认为大数据不是一个大的数据仓库。大数据包括价值、速度、种类、流量等。大数据并不是说有很多数据聚集带一起,而是说你怎么使用这个数据,大数据其实还包含很多技术可以使用。
他指出,大数据是一个非常成熟的科学,Paypal也在对开放源和工具方面做一些贡献,相信谷歌(微博)、Facebook的人员也在做这种工作。数据工程师是IT行业最热门的工作,他认为,这是一门艺术,数据工程师在未来是一个很好的工作,大家可以考虑这个工作。
今年有来自于腾讯、阿里巴巴、淘宝、盛大、天翼、百度、陌陌、支付宝等公司的一线技术专家,以及国外的Facebook、Tumblr、PayPal、RightScale的讲师等国内外技术专家出席了本次大会。
科技新闻作为大会战略合作伙伴、官方指定微博平台,全程图文、微博直击大会盛况。
以下是PayPal上海风险技术主管Patrick Firouzian演讲实录:
Patrick Firouzian:我是ebay,我们是大数据的团队,杭州很漂亮,这么漂亮的地方,我很高兴在你这里,很高兴你们也在这里。今天介绍的内容很有意思,刚才大家提到江南STYLE,你们谁会跳这个骑马舞?我给你们发奖品。这个不要发大微博上,我一会给你发一个奖品。
接下来我们还是继续讲,今天给大家介绍的内容就是大数据方面的内容,以及欺诈检测。今天介绍的内容不是大数据方面的培训,也不是做一个放欺诈方面的培训,只是给大家提一些想法。现在在我们平台上面有这么多商户,大家可以通过Paypal进行付款。大家看到过我们这个标志吗?用这个东西可以把你的信用卡,你用一个苹果或者安卓终端就可以了,因为直接可以用你的信用卡,很安全的,里面已经是加密了。总之,这是一种新的方法,让大家不需要其他东西就可以支付,在中国,这些设备逐渐出现了,接下来会介绍一下Paypal,Paypal大家都比较熟悉,在世界190个市场上都有我们的出现。我们支付平台跨129个国家,而且我们的交易额达到了1500亿美元,我们第一个问题就是大家对Paypal这块,看到它这个收入,你觉得排十名是哪几个国家?我们看一下,Paypal拍前面5名收入城市。我们知道中国是世界上最大的一个生产基地,是世界工厂,中国的商户如何卖他们的产品?他们使用的撇太是什么?他们付款的时候很多是用Paypal,这是一个非常实用的平台,我们在很多国家都有。在中国上海,我们就有800名员工,我们提供风险管理、客户支持,还有技术。
我们知道因特网的欺诈有很多不同的面具,实际上Paypal就是一个银行,以前你如果抢银行的话,需要拿武器,进去以后你会说不交钱就开枪。或者有的时候需要里面安装炸药,现在在家里就可以抢银行了,有软件有电脑就可以赚钱了。但是你还是会被抓进监狱,所以我们要做的工作就是确保这笔钱,你的交易是安全的。有很多人他们想在EBAY上面占便宜,有很多机器人、外星人,什么人都有。你们大家有试过吗?你如果在我们上面试过欺诈的话,我可以雇佣你,很赚钱,我们知道有很多公司是通过这种方法来赚钱的,他们用黑客方法侵入因特网,这是非常危险的。
这是一家俄罗斯的公司,他们会卖你一些黑客软件,这样你可以侵入一些网站,你可以赚钱。这是一个业务,你看他们有办公室,而且他们也有客户支持。如果您卖这样的软件,侵入一个公司,比如说淘宝、阿里巴巴,或者是Paypal,你是没法成功的。比如说你跟他们客户联系,让他们可以帮助你,你觉得很有意思吗?既然有这样的事情,但是你可以看出来,每一个因特网的网站里面都是有钱,比如说每个身份,有知识产权,这些都是可以偷的一些财产,我们是软件工程师,我们要确保因特网的盗窃不会发现。大家觉得这个会议有意思吗?有意思是吧。在这两天听敏捷这个词听了多少次了?敏捷是一个很有意思的词,Paypal、EBAY,我们在很久以前就开始用敏捷了。我们的客户他们也相信我们的公司,我们通过软件来进行检测因特网的欺诈。通过这种方法,你可以更好的保护你的平台。
这是我们的客户,一会儿我会有一些案例给你们做一些分享。在这里,你可以看到这个女孩子在卖一个IPAD,昨天新出的迷你IPAD非常酷。她在纽约,我们知道他的IP地点,知道她的电话号码。我们再看一下她的交付地址,我们来计算一下两者之间的差距,很可能他就住在它的送货地址,看一下她的IP地址,IP物地址也是在纽约,这是都是自动化结算的。再看一下她的IP地址,她是通过代理服务器做的。有可能这里面有一些风险,因为很多人可以用代理服务器来越过防火墙,或者把你的真是身份掩盖一下,我们有一个软件可以查出来这些问题。
我们再看一下她这个地址是不是一个货代的地址,有可能她在隐藏自己真实的地址。我们在看一下她这个地址还是可以的,到底这个交易是好的还是不好的?我们认为是好的,是没问题的。接下来我还会给大家讲讲哪些是比较有高风险的交易。当然,现在我们在解决写非常有意思的问题,继续向前看。
事实上Paypal在全球市场上有几个市场?30个?190?非常好,你离我很远,我要想办法把这个抛给你。还要谁想要?我们经手的是多少个货币?我想让大家不要昏昏欲睡,所以给大家发一些小礼品。大家知道莫尔斯定律,就是电脑的绩效随着年代的推移,不吨的加速提升。我们现在所面临的复杂化的程度在支付行业里面复杂性和过去相比,要高的多。同时还有欺诈,欺诈也是复杂的多,因为欺诈的面目是千变万化的,这次欺诈完了之后,下一次欺诈你的其他又完全不一样了,他们不吨在欺诈方面有新的创新。我们现在媒体处理的是两亿件,事件大家知道MQ吗?这些所有的实践都会生成实践处理系统,他们会产出一些新的事件,我们会使用很多的线上的事件在系统里进行处理,这就意味这所有的事件我们都要对它们做一些工作,进行处理。里面包含很多的情报,这系数据里面很多情报我们都是不知道的。
大家知道互联网上最热门的工作是什么吗?互联网上在IT方面最热门的工作是什么?安全?可能是不能热门的工作,数据分析是最热门的。数据工程师是互联网上最热门的工作,每个人都希望去寻找一个数据工程师,必须有人对这个数据进行处理,数据进如到系统之后,一个公司就会去买硬件去存储数据,得到数据得到怎么做?他们把这些数据交给数据工程师,让他们去处理,并且分析诠释数据。所以说现在在目前,我们工资最高的,最热门的工作就是数据工程师了。我们可以去观察一下,如果我从头再来开始我的事业路径的话,我可能会选择这个工作。
这个数据从那里来?如果你是一个制造业,或者航空业的公司,你每天会接触到很多事件,比如说航空公司一个飞机再一次飞行当中所进行的数据是照照自己,而对于支付宝、Paypal来说,我们所要接受的支付前的时间和支付后的事件,里面都包含千万的数据,这是我们每天多要处理的,我个人自己要去买一个东西的时候,我首先在互联网上搜寻一些信息,有的时候我在商店去买,但是在中国比较难了,它们不会那么方便的把货品送上门,现在我们可以选择不特的方式,比如说在商品支付,线上线下支付,现在情况和过去相比有很大改变,你可以用不同方法购物。
大的数据是什么?谁知道什么是大数据?大数据是不是一个大的数据仓库?是吗?不是的。就是价值、速度、种类、流量。还有谁考虑过这个问题,事实上,它不是指大数据的存储,这不是大数据的意思。宾并不是说有很多数据聚集带一起,而是说你怎么使用这个数据,里面还包含很多技术可以进行使用。为什么我们橱柜是白颜色的?因为在数据库里面,数据中心里面有很多的这些橱柜,为什么是白色?因为用白色的话,可能会节能。如果说这些橱柜是白色的话,我们可以节约电能,可以省下好几千的美金。大家有没有听过HBASE?每天有一个HBASE的演讲,所以大家要关注明天的演讲日程。我们有各种各样的产品,你可以去下载,在你的设备当中去运作,这是非常简单的方法,可以去使用这个工具。
如果你想开始学习大数据的话,可以自己尝试,这是一些我们的技术,对于大技术的数据对战。我们使用一些云数据的应用,我们也用Hadoop,这也是开放源的工具。并且它可以更强劲的支持你的服务,比如说你有一些鼓掌,他可以帮助解决所有的问题。在线上的大数据,我给大家展开一下。软件里面经常会用到这点,有很多公司都在用这样一个线上的大数据,所以你可以看到有很大的数据,而且有大数据平台。在这张图表立宪有很多箭头,上方是Paypal点COM的网站,它的数据会进入到数据储存库,客户支持人员会在网上使用这些数据,数据存储库处理这个数据之后做出决策,然后这个数据被进行使用,这些是线下的数据。1到24小时的等待时间,这些数据又被存储到高速缓存,这些高速缓存是内存中的存储,里面有足够内容帮助你做决策。
大家知道高速缓存的灵活性,我们这些数据可以被非常复杂的事件处理工具去做。你可以看到有很多不的组件,可以帮助我们做时时的决策。
这是我们的CEP,你可以看到,他有这些事件的总线,一直在发送事件,都是从Paypal这个网站上生成的。我们有一些隐形会做一系列功能,另外我们还有相互联系的引擎,这是非常重要的,我们复杂的事件处理的系统下的过程。你可以把很多的事件新湖的练习性建设起来,在一般的数据库里面是没有能力那么你到这点。相互联系性就是在很快时间下建立起来的?大家动CEP有没有什么很好的定义?什么叫事件复杂性?工具的定义是什么?CEP定义到底是什么?我们没有对它没有简单的定义,这是一个非常复杂的技术。我们看一下CEP,CEP是数据库的反方向,在数据库上做一次询问,你会得到一个结果。而对于复杂事件的处理里面,你会有一个询问,然后你把数据发送到询问里面,你会得到一个结果。这正好是反过来的一个过程,但是它的影响力也是很强的,因为它的流程也是很复杂的,而且他是会跨域的进行处理。所以说它是一个工具,不知道大家有多少人知道它,了解它?复杂的实践处理的域是一个新概念,是一个新的技术。起码我是这么认为的,在这个数据管理的整个事件当中,这是一个独特的新技术,大家记住我现在说的话。你们在未来会看到我们Qcon会议,里面都会讲大事件的内容,我们一定要这么做,不然的话,我们是没有办法很快做决策的。除非我们要用到好几千的客户支持人员,很多的一些分析师,才能够很快做决策。
这个幻灯片很难读,如果说你有色盲的话,这张图就更看不清楚了。这个是要说在数据库里面,有不同强度的工作管理,我把这张图放在这里,这张图告诉我们说我们必须去妥协,或者说采用不同的技术去运作,根据个人的运算来考量。看看黄色区域,这是非常快的,CPU高效的部分,而且是高度灵活性的部分都存储在内存里。看数据库,比如说高密度,他们也是很好的工作流的管理。但是对IEO和存储来说,性能不好,存储非常昂贵。所有的这些都根据你的预算和你的战略来选择。你要取得一个平衡,一方面要看一下有多少钱,另外一方面要找出合适你自己情况的策略,这一页我们可以看到,左边就是超级安全,右边是足够安全。超级安全的速度比较慢,但是在右边你可能需要做比较快的一个决策,右边可以这么做。我想问一下,在我们这个Paypal里面,比如说要做一个快速的决策,它的速度是多少?10秒?具体来说,就是你在Paypal上面,你在点击按纽的时候,出现下一个页面,不可能是10秒,10秒太慢了。100毫秒?或者更少?实际上还不到100毫秒,速度非常快。
超级安全这种方法时间是多长?它是非常安全,但是花的时间比较长。比如说要做一个交易的话,你想及时的付款,然后拿到你所想要的东西,里面让你输入你的社会保障号码,所以在这个方面,我们需要做一个平衡。在这页方面,我们可以看到里面包括三个不同的层级。我们叫离线、在线、时时。有谁知道ATO?就是帐号劫持。1、2、3、4、5,你们大家在笑,我们现场做一个查询的话,比如说在五年之前,我们做一个查询的话,10%的人密码就用的PASRO这个词。差不多10%的20%的人是这样的,当时我们给他邮件,要他们改变密码。再下面一层有传统数据库,除了中间一层,在下面还有大数据的科学,在这里面,我们需要一些离线风险指示的技术,这具体说明什么问题?响应时间就是从毫秒级,甚至决策的时候到数百毫秒,数分钟,你需要花时间做一个决策。
我们再看PG,它的一个时间可以从数小时,谁来做决策?财务人员?有可能是你们公司的CEO,他会做一个决策你们能够承受多大程度的风险,看一下平台能够承受的风险是多少。
为什么这里有猴子和狗、猫,什么意思?我在介绍大数据跟这些内容有什么关系?我们介绍的就是说你觉得有很多内容,他们并不是兼容的。我们讨论的数据可以放在一起,我们可以把不同的数据信息整合在一起,在这种情况之下,我们大家都看过网络日志,我们还有半结构的一些数据。而且HKMLL里面还有,实际上是他们彼此之间的结构。在几年前,我们做的都是结构性的数据,但是你们大家都是用CQ做数据库,都可以做的很好。大家用CQ做过网络日志吗?里面有很多字提,非常不使用。在里面用起来非常不方便,一些像JAVE的代码是没法写的。如果你把这三者比较一下,就会得到一个客户在交易时候的图象,他们花多少时间,到什么地方去。你们知道如何测试机器人?你是怎么看的?他们在每页上面所停的时间我们是不知道的。
我们看一下日志,看一下他们在不同页面所花的时间,比如说这个地方花了5秒,有的时候可能是花了1秒,如果1秒,那可能是机器。因为正常人看的,可能花5秒。接下来我会给大家做一些例子,这个很复杂,也很机密。在这里,我不会讲很多详细的内容,如果说你有问题的话,可以会后找我。这个图具体就是它可以用来计算不同页面之间的间隔时间,这是一个变量。我们可以看到这个数据是也不同,的数据源你来到这个集群,这里可以看到一些新的变量,ABC,你可以到DEF这些页面,如果你发现速度非常快,他们可能在用机器人。我们看过有一些来自网络日志,还有用户互动,我们把这些信息整合在一起,很多时候用JAVE来进行测试,这还是比较简单的。
第二个案例。昨天我业介绍过,我们可以用一些图表,我们可以看到里面有很多焰火,实际上它们是图画,我们可以通过IP地址,或者通过具体地址,通过电话,它们之间一些相关的关系,这里对我们挑战就是你如何才能知道这张图,两个图之间的相似度在什么地方,相似度有多少。你说这两张图完全一样,你有多大信心?这是一个机器学习。比如说客户有4个身份,利民有具体地址,有电话号码,我们知道他们的交易多少超过1万美元的,我们知道这是一个欺诈的情况,通过这个图可以看出来。实际上很多帐号他们之间有很多相关的关系,我们是否可以来交给我们的机器看所有的事件,告诉它们哪些是相似的。如果是发现这些问题,我们把数据发到客户支持这里,我们会发现一些欺诈的内容,来交给我们的系统,什么是不好的情况,那些图是不好的,这样我们有知道什么地方出了问题。如果说还想了解更多详细内容,会后可以来找我。很多公司都在这么做,他们都想了解更多内容,因为这就是下一步的发展的工作,可以通过不同的事情之间的关系。
你要做的足够快的话,你需要用一个蓝一模式,这样计算的时候就比较容易,否则就太复杂了。编程的话,时间会很长。实际上他们也是有很多不同的地方,比如说在KE层有很多区别。这是我们发现最相关的一些内容,我们发现有些图它们可以达到47%的一个相似形,这样我们有这么高的一个信息,这是两个非常不一样的事件。这就是事件的相关性,在过去很多人通过这个方法可以赚很多钱。现在已经比较平常了,所以我可以告诉你们。过去有人在网上盗窃信用卡的信息,中国现在还不算糟糕,美国,还有加拿大有很大盗窃信用卡的问题,日本也开始出现这种情况。首先他们在Paypal里面做一个注册,然后把这个钱发到这个帐号里,然后把信用卡盗窃了。他们把这的钱转入到另外一个帐户,他们很有信心,他们会等。他们会把这些转移到银行帐号里面,很多时候,Paypal的系统并不知道发生什么,不知道信用卡偷掉了。我们会把这两件事件相互进行联系,放一个卡,方巾钱,然后把这个钱拿出来,这就是一个模式。然后我从卡里支付,再取出钱,这都是一些模式。我们把这些情况和CEP引擎进行联系,让引擎知道有这个情况,就是欺诈。
我们怎么处理?有的时候我们从所有有的数据当中挖掘出一些价值,有的时候会建立自己的Web,我会使用这些数据,在我们系统中的数据。我们很很多很大的社交媒体网站进行合作,从而可以更好的去获取数据,来进行挖掘。现在有很多网站都很明智,他们也建立了防火墙,有时候很难进入到他们网站上获取数据。有一个很有意思的项目,你在下一个会议当中会看到,就是一个社交的声誉的问题,大家知道是什么意思吗?你可能已经听说过,比如说我们之前讲到过图形,在网站上,互联网上,我们每个人都是在不同的网站上进行互动,比如说微博,还有人人网。你对这些系统都在进行互动,或者说你的大学论坛,还有脸谱网,都在这些网上互动。我们把你当时一个个人,然后去观察你所有互联网上互动行为,根据这种互动行为,我们会找到这些互动行为的质量,我们会看到你的网上朋友是什么,看看你朋友是好是坏,看看你朋友对你的评价是什么样。如果你有一个很好的网络,而且网络里面朋友都很好,那么你很有可能是一个好人,但也不是绝对的。
如果你的网络是不好的话,你有很可能也是他们中的一分子,你也不是个好人。所以说这种社该的网络性质是很重要的,根据社该网络好坏的打分,我们可以来审查你自己的好坏,这样可以加速你交易的速度,我们可以帮助你把加以做的更快一些。在座有多少人打网游的?你们知道盈利的Paypal资源就是你在网上可以买武器,有很多公司和人在玩这些游戏,他们在建造这些武器,然后卖出去。所以Paypal在这个方面赚很多钱,如果你是一个很好的玩家的话,我们也知道你一直是准时支付,在我们这个交易里面,我让你马上可以购买到我们的武器,同意你可以延缓支付。这是一个很好的例子。
总结一下,在你们去吃午饭之前,我还浅谈极具。大数据是一个非常成熟的科学,我们Paypal也在对开放源和工具方面做一些贡献,我们希望工具能变得更好。我相信谷歌、脸谱网的人员也在做这种工作。数据工程师是IT行业最热门的工作,我觉得这是一门艺术,大家一定要对此重视。而且要注意到数据工程师在未来是一个很好的工作,你也可以考虑这个工作。信息在互联网上越来越多,如果考虑大数据的话,可以在互联网上找到更多数据。数据工程师这个工作在中国市场上越来越多,很可能是我们未来的完美工作。
总结一下我们过去的做的一系列项目,也是和同济大学合作的项目。如果大家注册,看到我们网站的话,你也可以得到免费的蜻蜓,EBAY TECH,这是一些需要帮助的人士做的蜻蜓。我在美国、在美国、在中国,都有不同的工作经验,在中国有8年工作经验,工程这方面的经过是我在技术层面,以及在学习层面来说都是最好的工作经验,而且真正可以满足我的求知欲。在这里,我也想感谢大家,因为你们现在都是我们的主流,是你们在改变我们互联网的面貌。
现场提问:我想问一下风险监控体系是否需要认证类的产品,比如说证书类,或者报领类。还有你如何理解检测和决策这两个之间的关系?
Patrick Firouzian:这个是讲到产品认证,证书的问题。
现场提问:现在风险监控,Paypal有没有用认证类的产品?
Patrick Firouzian:我们现在所使用的工具在我们前面演讲当中已经看到了,我们所有的开放源的产品都没有被认证过,除非我们有一些云里面,我们所有建立起来的系统都是我们自己建造的。CEP的产品,我们还没有选择特别的产品,CEP的产品都是认证过的。有很多产品是公司内部的人知道,是自己打造的。监管和决策之间的关系,我们一直是在监管,我们也是一直在做决策,但是这个监管的结果就是我们可以帮助我们达到一个很高的自信水平,可以给到我们一些警示。我们在上还有很大的一个团队,他们都在撰写原则,来决定到底哪个事件和哪个水平之间相联系。这是一个很大范围的工作,要么你只是做监管而不做任何决策,或者说你会停止交易,你会给客户服务量提升一些。
现场提问:第一个问题理解上有点偏差,我想问有没有使用交校验类的产品。我们在风险监控的时候,我们识别出来的风险,识别和我们最终决策,对这个用户是接收还是拒绝?这两个关系在我们实践上有没有分离?
Patrick Firouzian:第一个问题,如果你用这种短信方式去挑战对方的话,我们确实是做了。对于现在交付方面,我们也会这么做。如果我们想知道是不是你在做这个加以的话,我们有时候会用到你的手机,因为我知道你手机的号码,我们会在线上问你号码,把你手机接受的PIN码输入到网站。未来我们可以通过生物方法,当然还有短信,也是确认的好方法,所以我们用不同的方法,而且一切都是我们自己建立起来的方法。当然,我可能还有些产品不知道,我相信有很多产品在用。一旦这些事件出现失误的话,你有可能就是在欺诈,而且我们有很强的信息说你在欺诈的话,我们就不会让你继续交易。这样一来,我们让你进入到另外一个界面,让你填写地址邮箱,这些都是我们流程里面做的。谢谢。