如果你是《老友记》的粉丝,你一定不会忘记钱德勒。剧中,他总是不断地向人们解释自己的工作,似乎别人永远也搞不懂他所谓的“统计分析和数据修复专员”是做什么的?
这不能怪钱德勒,10年前,在《老友记》热播时,要向一个陌生人解释这个与数据统计分析相关的岗位确非易事。不过到了今天,钱德勒的工作却变得炙手可热。
隐形的金矿
在经历了几年的批判、质疑、讨论、炒作之后,大数据终于迎来了属于它的时代。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。
早在1980年,著名的未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,热情地将大数据赞颂为“第三次浪潮的华彩乐章”。而那时候,科技水平的局限,世界并没有做好拥抱大数据时代的准备。直到2009年前后,“大数据”一词才开始逐步受到信息技术行业的重视。
2013年,世界上存储的数据预计能达到约1.2泽(约12亿TB)字节,如果把这些数据全部印刷成书,这些书可以覆盖整个美国52次,如果将之存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。
大数据的原理非常简单,学过统计学的人都知道,在统计学中,样本选取得越多,得到的统计结果就越接近真实的结果。海量的数据充斥世界,如果能将它们“提纯”并迅速处理成有用信息,无异于掌握了一把能打开另一个世界的钥匙。
越来越多的政府、企业,正逐步意识到这隐藏在数据山脉中的金矿,数据分析能力正成为各种组织的核心竞争力。目前,几乎所有世界级的互联网企业,无论社交平台之争还是电商价格大战,都有它的影子。
2013年,被不少业内人士称作“大数据元年”。
阿里:掘金大数据
阿里巴巴集团控股有限公司(下称阿里集团)就是这样一个深谙“数据的巨大力量”的企业。
2012年7月10日,阿里集团宣布设立首席数据官岗位(CDO),负责推进“数据分享平台”战略。同时,阿里集团发布了“聚石塔”平台,为天猫、淘宝平台上的电商以及电商服务商等提供数据云服务。
8年前,在支付宝(中国)网络技术有限公司(下称支付宝)成立的第二天,支付宝内部成立了数据部门。然而作为一个处理大数据业务的部门,它直到2010年才开始真正陆续有大数据业务,也就是在那一年,刚刚从美国归来的计算机博士秦予加入了支付宝公司,负责支付宝和淘宝集市的大数据业务。
在中国,支付宝拥有的个人数据信息仅次于银行业,然而如何将这些海量的数据信息转化为可以产生价值的商业信息,成为了秦予最挠头的事儿。
“作为大数据行业的先行者,阿里集团有海量的数据,是中国最好的平台。”秦予告诉《中国经济周刊》。
秦予率领的支付宝数据科学家团队,主要工作就是把淘宝、天猫、支付宝、聚划算的用户分为50个族群进行研究,然后对每个族群的特征进行观察总结。
这个团队首先会关注他们的各种偏好,比如钟爱的媒体,上网搜索的内容或者喜欢在淘宝上购买的商品等,在全面了解用户的需求后,再向他们精确地推荐他们可能感兴趣的产品。
“大数据的研究方式把更多的关注点放在人身上,而不是商品身上。这样推荐给用户的商品是和他类似的人买的商品,不会和他已购买的商品重复。”秦予解释道。
另一方面,阿里集团也在陆续推出一系列商业化的大数据产品。数据魔方就是其中之一。
在数据魔方平台上,商家可以直观地获取行业宏观情况、自己品牌的市场状况、消费者行为情况等。但不能获得竞争对手的数据,这也保证了淘宝电商竞争环境的公平。
2011年6月,淘宝一分为三,淘宝把发展大数据的主要任务放到了天猫平台。2012年7月,天猫推出大数据商用产品——“聚石塔”。2012年7月,“聚石塔”正式上线,在“聚石塔”的发布会上,马云宣布了阿里集团的新战略:平台、金融、数据。
“聚石塔”是阿里集团首次利用大数据力量打造的一款大数据商用产品,主要为客户提供数据存储、数据计算两类服务。客户可以通过“聚石塔”对整个淘宝电商系统中的数据进行整合分析,了解消费者对产品的喜好、以及相关的消费行为数据,以便更好地及时修正营销策略。
隐私保护仅靠自律
大数据平台在提供服务的同时,也在时刻收集着用户的各种个人信息:消费习惯、阅读习惯甚至生活习惯。如何保护用户的隐私成了大数据时代发展过程中不可回避的问题。
事实上,就算不被淘宝“调查研究”,我们自身的数据也会被其他人“关注”。我们的邮箱经常不知不觉中被亚马逊的广告填满,浏览记录也被搜索引擎小心保存着。
谷歌街景地图最近就遭遇了尴尬。谷歌街景地图需要采集很多道路和房屋的图像。但民众却认为这些图像会帮助窃贼选择偷窃目标。因此有人不希望自己的房屋或者花园出现在街景图片上。而当谷歌同意将这些人的房屋和花园的影像模糊化后,又招来了这对于小偷而言是“此地无银三百两”的指责。
今年3月6日,在北京召开的“网民隐私保护与互联网企业的责任与共赢研讨会”上,一位从事互联网隐私保护的专家告诉《中国经济周刊》:“目前在技术上还没有一个万无一失的隐私保护手段,因此目前只能靠大家自律。”
这位专家建议,提供大数据服务的企业首先要提供必要的技术保障措施。其次还要保障用户对数据收集后如何使用享有知情权。此外,应该鼓励行业建立互相监督的机制。同时应该加强相关法律制度的建设,通过立法来保护公民隐私的安全。
大数据应用的成功案例
美剧 《纸牌屋》
美剧 《纸牌屋》 源自美国视频网站Netflix对用户数据的分析。该网站发现,喜欢BBC剧、导演大卫·芬奇和演员凯文·史派西的用户存在交集。于是Netflix就决定打造一部同时满足这几个要素的电视剧。事实证明,《纸牌屋》 不负众望,一举成名。
农夫山泉
农夫山泉和SAP公司合作,通过对包括高速公路收费、道路等级、天气、配送中心辐射半径、突发性需求 (比如某城市有一场马拉松比赛) 在内的海量数据进行分析之后,能对物流、销售策略进行及时调整。
阿迪达斯
阿迪达斯总部能对各门店数据进行整合、分析,可以让阿迪达斯更加准确地了解各地消费者对商品颜色、款式、功能的偏好,同时也可以了解什么价位的产品更容易被接受,以便制定产品指导价。
疫情监测
2009年,美国暴发H1N1禽流感疫情,谷歌通过对将近5000万条美国人最常检索的词条和美国疾控中心的数据进行比较,准确预判了禽流感的暴发时间和地点。