大数据是近两年来爆发的最热门IT概念之一。进入2012年,这个领域的风潮逐渐从专业IT人士和数据分析师,扩散到所有关注科技、互联网以及营销领域的人群中,甚至还包括政界人士。这种背景下,在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉;而在公共卫生、经济预测等领域中,“大数据”的预见能力也已经崭露头角。
数据背后潜藏着巨大的商业机会。以前只有Google、微软这样的公司能做大数据的深挖,现在已经有越来越多的创业公司进入,不同公司在不同层面的数据分析和服务领域正创造出新的商业模式。这些专注于数据挖掘和数据服务的公司将成为电子商务乃至互联网第三方服务业中的新兴力量。
对于IT厂商来说,这是一个自身从传统IT产品跨越到商业智能的绝佳机会;而对有志于这个领域的新型创业者来说,更是一个不可错过的新兴机会。以2012年的趋势看,有六个模式值得关注:基于Hadoop的分析工具和产品、数据收集再加工服务、数据可视化产品、社交媒体数据分析工具与方案、基于数据挖掘的商业智能与情报咨询服务。
基于Hadoop的分析工具和产品
越来越多企业开始使用Hadoop平台处理大量数据。基于Hadoop做面向开发者的分析工具集,或者直接面向企业IT部门的分析管理工具,越来越成为一种流行趋势。
很多传统的数据库管理系统开始整合Hadoop服务,以便更好地为企业服务,如惠普、戴尔、甲骨文、IBM等知名公司都分别有针对自家需求的Hadoop服务。此外,云端上的Hadoop服务让大数据分析和处理更加方便快捷。同时这也证明,目前开源的Hadoop相关的技术分析也存在明显缺乏相应的技术、环境、数据安全以及可行性,而这正是新商机。
Cloudera、Hortonworks和MapR是目前最被看好的“Hadoop三驾马车”,它们属于那种“纯大数据”公司——核心业务围绕Hadoop发行版和Hadoop应用展开。由于大数据核心技术Hadoop属于免费的开源技术,用户无需付费就可下载使用,所以Hadoop创业公司的盈利模式与Oracle这样的传统数据库巨头大不相同,它们主要靠提供Hadoop增值产品(软件授权费)和增值服务挣钱。
目前,规模最大的Hadoop企业当属Cloudera。简单来说,Cloudera提供企业直接使用的企业版Hadoop,它开发了自己的工具包,让通过Hadoop搜索数据变得更加容易。同时,Cloudera还在努力建设更广泛的合作生态系统,从而让更多不同应用能使用Hadoop服务。
出身Facebook的创始人Jeff Hammerbacher在创办Cloudera前就使用Hadoop来分析社交用户行为,后来他将相应的技术转移到了Cloudera之中,目前Cloudera获得了7600万美元的融资。
Cloudera目前比较受关注的领域是医疗健康行业。简单来说,Cloudera采用大数据来改善大众的健康,而整个卫生保健行业也会因为受到大数据的驱动而催生更好的创新和服务。Hammerbacher指出,公司一个重要的客户就是Explorys Medical。他们通过采集病人数据,从而揭示疾病治疗、护理和药物测试等方面的见解。“我们要处理各种各样的医疗数据,比如说医生处方、图像、医生笔记等。消费者可以通过分享这些数据而推动医疗行业的变革。”
社交媒体数据
社交媒体所产生的海量非结构化数据一直以来都被作为大数据时代来临的标志。人们已经承认,随着像Twittter、Fcacebook等社交网络媒体的爆发,越来越多的商业活动和信息会受到他们的影响。目前,基于社交媒体的创业公司数不胜数,但从大数据角度进行商务挖掘和营销战略的,是最有前景的一类。毕竟,奥巴马利用大数据在美国大选中获胜的经典案例也是出自社交媒体分析领域。
另一方面Twitter开放其数据管道Firehose对于社交大数据分析来说无疑是一个晴天大利好。利用Twitter实时数据你几乎能进行各种数据分析,从奥斯卡电影人气到美国总统支持率,再到产品用户满意度分析,可谓一座不设防的数据大金矿。
但是掘金Twitter“快数据”也对分析系统提出了很高要求,DataSift是少数能吃下Twitter数据的顶级社会化分析工具之一。
DataSift是一个社交数据分析平台,向企业市场人员提供twitter、Facebook、Youtube、博客、甚至Wikipedia等社交媒体的数据可视化分析技术和服务,监测社交营销成效,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。它甚至创建了一个自己的互联网规模的关键词过滤系统,能够快速评估热门关键词。
另一个优势是DataSift从Twitter购买了多年的数据同步授权,能够访问所有Twitter管道数据,并将子集卖给第三方,主要是企业客户。目前只有Gnip获得了同样的授权。举个简单的例子,DataSift可以根据Twitter的数据对两届奥运会进行横向对比,从中了解并分析公众对当时新闻和事件的反应。DataSift的前景逐渐明朗,现在客户数已经超过了10000个。DataSift目前已经拥有超过200个客户,其中不乏财富500强企业,DataSift 的收入主要来自向客户收取的每月200美元的服务费用。
数据收集在加工服务
数据的商业价值越来越被挖掘,但Hadoop并不能代表一切。一家著名的大数据公司ParAccel则颠覆了Hadoop的神话。ParAccel的CEO Chuck Berger指出,太多创业公司陷入了“大数据=非结构化数据的大数据=Hadoop”的逻辑。除了非结构化数据和半结构化数据以外,结构化数据也在快速增长。
ParAccel在数据领域也是久负名气的。它们最成功的案例之一是向美国执法机构提供数据分析能力——ParAccel通过了一些渠道获得不少犯罪数据,并对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。所以ParAccel也被成为“犯罪的预言者”。
今年登陆纳斯达克的“大数据概念股”Splunk也是这方面的佼佼者。由于Splunk是以MapReduce架构为基础的软件,在普通的硬件上安装Splunk 和Splunk转发器,就能构成大量字节,形成庞大的系统数据,这个量级可以达到每天数TB并逐渐向PB数量级扩大。而他们的软件可以为机器生成的海量数据建立索引,将其整理成可以搜索的链接。公司们则像使用Google那样来搜索这些链接,用来实时分析消费者行为。
具体来看,Splunk属于商业智能软件提供商,其软件可用于监控、分析实时的机器数据以及TB级的历史数据,且数据来源不限,可以是本地也可以来自云。比方说,Splunk可以实时对任何app、服务器或网络设备的的数据进行索引并提供搜索,这些数据可以是日志、配置文件、消息和告警等。据了解,Splunk的客户包括瑞士信贷、美国银行、Comcast、Salesforce、Zynga、LinkedIn、T-Mobile以及美国劳工部和能源部等。其客户数量超过3700,财富100强的大部分成员皆为其客户。比如社交游戏公司Zynga通过该公司的软件监测游戏功能,用来确定玩家卡在什么地方,离开游戏,然后就可以即时调整游戏,挽留玩家。
数据可视化等简化数据使用的服务
另一个不可忽视的现象是,大数据虽然对于计算机工程师来说并不是很陌生,但是它一直将营销人员等非专业人士拒绝于门外。不过这种状况会逐渐得到改善,因为很多大数据领域的创业公司在不断崛起,他们很多都是致力于让更多的人以更简单的方式“消化”这些数据。
Origami Logic就是一家让营销人员便于利用大数据的创业公司。通过数据可视化以及自助分析的方式,这个平台能够帮助营销人员作出更有效果的策略。
这家公司打算在明年的早期发布相应的产品,现在还是处于内测阶段。根据联合创始人兼CEO Opher Kahane表示,Origami Logic的目的就是让销售和市场人员把CRM、社交媒体、邮件营销和调查报告等不同平台的数据汇合在一起,并做出相应的整理和分析,利用有效的数据帮助他们做进一步的营销活动或者衡量整个营销效果,让大数据不再是专业人士的私家工具。
QlikTech也是致力于这一领域的明星公司之一。值得注意的是这家公司是在90年代后期建立的,并从互联网危机中存活下来。QlikTech在2010年的时候顺利上市,目前用户数量为2600万,公司估值超过20亿美元,旗下的Qlikview是一个商业智能领域的自主服务工具,能够应用于科学研究和艺术等领域。
最近Google发布了Google BigQuery,方便开发者获取大量数据。QlikTech则和Google合作,以便于开发者更好的利用大数据。为了帮助开发者对这些数据进行分析,QlikTech提供了对原始数据进行可视化处理等功能的工具。
数据分析与商业咨询服务
全新的、更具竞争力的商业智能服务,这也是大数据最为吸引人的地方之一。传统数据仓库的性能已无法应付庞大的信息,但是大数据(Big Data)技术使我们能够访问和使用这些宝贵的、大规模数据集以应对越来越复杂的数据分析和更好的商业决策制定——大数据将改变商业智能 (BI)的布局,并能为企业提供一种有价值的数据源,这在当下已经成为了一种趋势。
颠覆传统的BI模式,GoodData的愿景很宠大,它们提供的是基于云的数据分析服务。
GoodData提供的软件即服务(SaaS)数据分析解决方案适应性十分强大,使用也更方便。但其竞争对手都是一些业界巨头,包括IBM、SAP和Oracle等。不过,GoodData的优势正是商业模式。跟那些巨头提供的套件式解决方案不同的是,GoodData向广大的SaaS提供商提供技术集成服务(可以称之为SaaS提供商的SaaS提供商),让他们在自己的平台中集成其数据分析技术,从而使得这些SaaS提供商可以向最终客户提供诸如仪表盘、报表等功能。
最近几年,由于社会化媒体的兴起,数字营销逐步成为营销业者关注的焦点,但是营销人员对这个领域仍缺乏有效的介入手段。因此GoodData瞄准了这一点,利用集成服务为营销人员提供对微博、社交网络及在线营销活动的深度分析功能,并将此作为商业智能的入口,并成功的成为了一家商务情报和资讯公司。