王征宇:作为互联网金融当中最热门最活跃的领域,P2P现在发展速度非常快。P2P模式最早诞生于英美,它的发展主要依据两个重大条件,一是互联网技术使得交易效率提高,这个中国有;二是征信数据的广泛适用及覆盖,这个中国没有。正是由于这两条,中国P2P行业内对于征信问题及大数据挖掘的探讨热闹非凡。在中国,由于征信体系不健全且不向P2P机构开放,这使得征信成本高昂。业界现在热议大数据,电子商务也好,互联网金融也好,无疑都视之为一座商机无限的金矿。那么什么是大数据?对于P2P机构来说,大数据能够帮助解决哪些问题?数据多不一定是大数据
讨论大数据的第一个逻辑是,什么是大数据?简单来说,大数据指的应该是数据很多,但为什么不叫“多数据”而叫做“大数据”?因为这个名称来自英文翻译“Big Data”。很多的数据是否就是大数据的基础?全世界最大的银行是工商银行,全世界最大的移动运营商是中国移动,工商银行和中国移动积累的客户数和数据量在全世界无可比拟,它们自然有很多数据,但它们是不是大数据呢?现在手机是联网的,但通过中国移动查询异地手机用户的费率是查不到的,它们互相之间是隔开的,无从知道这个客户的生活方式,如果它有这种技术手段的话,做出微信的就应该是中国移动而不是腾讯。从根本上来说,简单地使很多数据堆积在一起不叫大数据。大数据主要表示一种技术手段,来使得数据的存娶分析可以非常高效进行。首先需要技术框架,其次是分析手段。技术框架是指,这样的技术方式只能在现代环境下产生,比如说云计算、云存储等算法在以前是不可能实现的。分析手段是指,以前要么就是不具备分析工具,有数据却算不出来,要么就是分析占的时间太长,没有实施的可能性,要么就是算法没有实质解决问题的空间,这些随着现代计算机技术的发展,网络技术的发展都解决了。除了技术框架和分析手段,更重要的是一种大数据理念。举个例子,如果我想获得一个房间内每个人的身份证号码,不同想法的人解决这个问题的思路是什么样的?想象一下在传统银行工作的人会怎么解决这个问题?他们会堵在门口说,把身份证给我看一下,确认看了你的身份证号码以后记下来核对你的照片,这么做费时费力还没有准确性。大数据的做法是怎样的呢?我们会给每个人发一个电脑,让你输入你的身份证号码。想象一下,一个人从接到电脑以后5秒钟就开始输入数据,在10秒钟之内18位数字输完递交,后台检查正确。另外一个人,他从20秒钟以后开始输入数据,输入两个数字以后输到第三位把前面两个数字删掉,再接下来输几位,输第十位的时候把前面十位再删掉,再开始输入。运用大数据的方法,后台会记录你每一个按键的速度、时间、属性,我在后台制定一套计算方法,把这个过程描述出来。从而就可以判断哪个人的身份证号码可能是真的,哪个人的身份证号码可能是假的。这个例子说明了,大数据是一种技术手段,不是简单的数据堆积,并不是公司越大就自然而然有大数据了,也并不是说公司小就没有大数据。
大数据的局限性
大数据问题的由来比较技术化,它是从概率论开始发展,然后延伸到数理统计、人工智能、数据仓库、数据集市。大数据现在最前沿的几个技术包括,机器学习、类型识别、神经网络。大数据在信贷风险管理中的作用是回答两方面的事情。首先,大数据解决现状分析,即发生了什么。这个客户的生活方式、喜好,比如说移动电话上装了可定位的设备。移动公司可以根据定位信息知道,恰好有一批人在同一个时间点出现在一起了。它会聚集这一批人的信息,搜索你平时发表什么言论,写了什么样的微信,据此判定你的职业,你的任务是什么,这也就是发生了什么。第二,大数据解决会发生什么的问题。从信贷关系角度上看,知道你今天下午要干什么几乎没有意义。信贷分析、风险管理所关心的问题是,给你一笔钱有多大的概率会不还,如果给你1万块钱会怎么样,如果给你10万块会怎么样。基于当今的互动网络数据,个人资料其实很难被掩饰,这恰恰是说很多互联网公司或者大数据的机构试图说用“知道你是谁”来做从事商业模式的主要考虑。在“你是谁、你是做什么的”这些问题得到答案之后,这时候能不能做一个信贷决策呢?这要画一个巨大的问号!答案是不一定的。大数据在这个领域当中回答的问题跟征信局可以回答的问题是不同的。传统的征信局可以回答的是三个问题——你的还款意愿、还款能力和稳定性,这是信贷授信过程中最重要的三个问题,可是大数据回答不了。交易数据和社交网络数据不能直接转换为信贷决策,这个在历史上有很多著名的案例可以证明。美国运通曾试图通过交易数据发行信用卡业务,基于这种方式提供信贷产品,这造成了巨大的失败。美国著名P2P公司Lending Club,利用Facebook的社交网络数据来确定客户的信用度,在遭受巨大的损失之后改用了征信局的数据,导致了后来业务发生巨大的变化,坏账率下降很多。所以大数据有用,但是跟征信数据不一样,它们回答的问题是不同的。在国际上,美国和英国的征信体系相对比较完善,互联网金融机构可以向征信局购买数据发起客户营销。但在中国内地,征信局的覆盖是比较局限的。中国人民银行征信数据覆盖8亿人,但是只有2.9亿人有信贷记录。由于目前征信体系尚不健全,且不对P2P机构开放报送和查询数据,行业首要的是解决征信覆盖的问题。“Test And Learn”
显然,大数据在互联网金融领域已经成为热词,但是如何利用对于开采者来说,却是“八仙过海、各显神通”。在信而富看来,“Test And Learn”,才是大数据应用于P2P风险管理的核心方法。“Test And Learn”,意思为“测试与获知”,对信而富来说,意味着在放款实践中收集数据,通过建立风险模型和目标变量,研究客户数据与信用行为之间的关系,从而调整授信策略。目前借款人大概几十万。我们在客户数据分析当中对每个借款个体采集的数据项超过1500个,并须在“细枝末节”中寻找线索。比如,关注申请人的邮政编码最近12个月是否变更,关联的信用卡张数是否变化,最近3个月、6个月的信用卡消费总额、交易类别与交易次数是否出现异常等。这些变量构成了信而富CDS(自动化授信决策系统)的重要依据。总体来说,我们在自动化授信决策中主要依据几个纬度,根据不同的借款类型、不同的地区,借款金额、借款用途等,这个纬度结构具体组成了一个网状型的决策机制。第一个纬度是预测你还款的可能性。第二个纬度是,你这个申请从根本上来说有多大可能是假的。也许你的数据很好,看上去很漂亮,但是借款人的名字填的不是你。也就是说你有多大可能性在你的申请过程中采用了假的数据。说轻一点叫数据不真实,更严格来说叫“欺诈”。第三个纬度是,假定借款人借给你钱以后,你所产生的风险调整后的收益是多少,你可以为整个交易贡献多少,你可以为借给你钱的人提供多少收入。但是数据的纷繁复杂会让开采者遭遇困境。在设置的上千个数据纬度中,实际有用的数据可能只有100个。不同数据纬度间的逻辑关系,也很有可能产生冲突。不断地测试并且获取正确的数据维度和信息,构成了信而富的大数据应用的核心机密。