如今我们被称为“大数据” 之物,曾今只是我们简单的称为“数据”。大数据不是一时流行,而是数据管理演变所产生的新兴词汇。大数据描述了数据增长的指数是多么巨大,为了能容纳这些数据,我们努力提供存储空间----大数据还能使用技术从新兴数据中获取信息,抓取新机遇。
通过这篇博文,你能够了解大数据的最新变化。我将着重讲述一些大数据案例分析,包括NoSQL 数据库,Hadoop(分布式计算)平台,预测分析等。尤其是数据可视化----它开辟了数据分析新领域----这是个经常出现的话题。
大数据有许多种的定义,Gartner将大数据形容为“容量大,速率高,且信息资产多样,需使用全新处理方式,以提升决策力和洞察力,以及优化处理能力”,这是非常贴切的。首先,通过这些案例研究,我们将了解以下几点:各机构如何通过新技术,迅速应对,并处理海量数据,并有效管理任意类型数据。
大数据的重大突破
为何在这个特殊时刻,大数据“翩然而至”?根本缘由在于网络自身。网络出现后,我们面对的对象已改变,不再是成千上万客户机应用用户,使用由RDBMS(关系数据库管理系统)支持的客户机应用。如今,网络应用对全世界客户开放。通过使用这些网络应用,成千上万的用户能够产生成千上万的数据。
数据规模之大,需要容量极大的系统才有空间容纳,并为所有用户提供服务----正是这一点,促进了NoSQL运动的发展。同时,还需要对这些半结构化的海量数据进行分析,以找出优化用户体验,以及货币化行为的方法。因此,Hadoop应运而生,MPP(大规模并行处理)分析数据库逐渐进化,BI工具亦不断推陈出新。
大数据发明者,以及大数据最早使用者们发现,传统技术已满足不了大数据需要。尤其是传统技术成本过高,且需耗费较多精力,因此,他们转而使用NoSQL,以及Hadoop。
比起使用传统RDBMS,ETL(提取转换加载),以及BI工具,这些用户宁愿使用NoSQL,以及Hadoop,并放弃一些新功能。例如,若使用NoSQL系统,他们就将放弃ACID顺从性。(ACID:指数据库管理系统事务的四个特性:原子性,一致性,隔离性,持久性。);使用Hadoop,他们就将放弃传统ETL功能,放弃优质GUI(图形用户界面),以及实时查询功能;使用BI,他们将放弃实时可视化,以及数据交互功能。这样的例子不胜枚举。至于这些公司认为这些牺牲值得与否,就因使用案例而异了。
逐步成为主流
最后,于大数据技术的早期用户而言,他们终会希望能重新使用这些功能。大数据技术供应商能满足他们的需求,在这之后,大数据就将不再是独立的IT类别。
同时,数据增长速率将继续加快。如今,网络点击流数据,系统事件,以及其它我们依赖的核心技术来源,为大数据处理提供了大量新生的,半结构化数据。在将来,移动设备,以及“物联网”---物联网-通过 RFID(无线射频识别系统),以及其它传感器进行连接----使我们能够采集,并分析来自制造系统,运输基本设施,医疗器械,以及你所能想到任何来源的海量数据。
因此,随着大数据的持续发展,若仅关注早期的大数据应用,终将付出代价。那些我们与大数据联系一处的新兴技术,建立起了标准的数据管理体系,能够应对随后的数据大爆炸。