大数据时代,正如数据爆炸性增长那般,超出人们的预期加快来临了。“时势造英雄”,Hadoop在大数据潮流中不断被人关注、熟知,并由各大厂商锤炼成大同小异的各类发行版。各大Hadoop发行版犹如“鱼龙混杂”,谁将笑到最后成为制胜大数据的利剑呢?本文将给你答案。
当大数据热潮闪现的时候,Hadoop也进入了人们的视野。Hadoop原本仅仅是一个基于分布式计算环境的开源软件库,由于其符合大数据计算环境的分布式要求,“时势造英雄”一炮走红,犹如当年的Linux开源软件系统一样,成为了研究和设计大数据解决方案的主流平台。
至于Hadoop的具体定义,相比各位读者从维基百科、互联网等各个渠道都有所了解。这里我们也就不再赘述了,我们主要谈谈,Hadoop在支撑大数据应用方面的独具优势。
Hadoop是一套系统平台,主要采用Hadoop分布式文件系统(HDFS)实现高可靠数据存储,并通过 MapReduce技术实现高性能数据处理。在这两大功能模块基础上,Hadoop的价值还体现在各个功能组件方面:
Hadoop子项目结构示意图
最左侧的Ambari项目是最新加入Hadoop,旨在帮助系统管理员部署和配置Hadoop,升级集群以及监控服务。而ZooKeeper最大的功能是协调,随着越来越多的项目加入Hadoop生态系统的一部分,集群成员通过ZooKeeper功能进行彼此同步并了解访问服务和配置。
中间及右侧的功能组件,则最为常见。Pig(雅虎提供)是一种编程语言,可加载数据、表达转换数据以及存储最终结果,它简化了Hadoop常见的工作任务。而Hive(来源于Facebook)在Hadoop中扮演数据仓库的角色。HCatalog则基于Apache Hadoop之上的数据表和存储管理服务。
截至目前,各大厂商围绕Hadoop推出的发行版(包括商业版和开源版)已经很多,在这些版本中,谁将有望成为最具影响力、基于Hadoop平台的解决方案呢?请读者在页面下方投出自己的选票,我们也在接下来的文章中为大家简要介绍这些Hadoop版本的解决方案。
想了解更多大数据专业资讯,请点击收藏:ZOL大数据专区
调查区域:基于Hadoop大数据解决方案趋势调查(点击预览可查看效果)
第2页:群雄争霸:Hadoop发行版谁主沉浮
前面我们讲到Hadoop这一主流大数据平台的基本结构,了解到大数据这一发展趋势,带动起整个 Hadoop生态链的扩张。其中,既有来自软件领域(Cloudera、SAP、微软、甲骨文等)也有来自传统硬件厂商(英特尔、EMC、华为等)的Hadoop解决方案。
在软件领域或者说Hadoop生态领域,Cloudera是规模最大、知名度最高的企业,它汇聚了Facebook、谷歌、雅虎、甲骨文前工程师的优秀团队力量。从成立之初至今,已经前后数次募集巨额资金,并也成为当前大数据领域最强有力的解决方案服务商之一。该公司在Hadoop发行版基础上增添了Cloudera 管理器控制台和企业级服务支持,这些服务对于大数据环境下的平台管理和数据服务,提供了强有力的支持。
Cloudera提供的Hadoop属于目前市面上Hadoop两大开源版本之一(另一开源版本为Apache),它也称 为CDH3版本。就理论上来说,CDH3版本应该支持Apache版本的全部组件及其子项目。集成hive、pig等基于Hadoop的SQL接口,使得这些软件的安装、配置和使用的成本得以降低并且有望实现标准化。但其 提供的sqoop工具没有独立提供(单独收费),而且Cloudera CDH默认没有提供eclipse插件(需自己编译),插件方面和Apache hadoop插件也不兼容。另一个不足之处是,它提供的Hadoop并不是采用最新版本的2.0版本。
下面,我们来看看其他版本的Hadoop大数据解决方案。前不久,存储巨头EMC发布了自身的Apache Hadoop发行版Pivotal HD。该版本Hadoop能够与Greenplum(2010年EMC收购的MPP数据库厂商)数据库进行整合,而不仅仅是在Hadoop中运行SQL。
EMC Hadoop发行版:Pivotal HD(来源:EMC)
甲骨文则一直强调软硬平台的整合,其大数据机(Big Data Appliance)和Exalytics商务智能服务器,被认为是甲骨文进军大数据的标志。该大数据机包含开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、Oracle Hadoop装载器,并与Cloudera公司合作提供Apache Hadoop系列软件。
IBM则对数据挖掘和数据分析颇感兴趣,包括一直在倡导的“智慧地球”理念。在大数据解决方案层面,有基于Hadoop领域的InfoSphere BigInsights、流计算领域的InfoSphere Streams、数据仓库方面的InfoSphere Warehouse和etezza以及信息整合与治理(Information Integration and Governance) 方面的产品Optim和Guardium。
IBM宣布基于Hadoop的大数据分析平台之后,Hortonworks也随之发布了基于Hadoop的数据平台的技术预览版(HDP,Hortonworks Data Platform)。和其他公司一样MapR将基于开源的Hadoop产品商业化并进行发售。不同的是,MapR提供了很多不同于Hadoop的特性(比如快照)。MapR拥有免费和商业两个版本的Hadoop,免费版本在功能上有所缩减。
Hortonworks大数据平台架构(来源:Hortonworks)
值得注意的是,MapR与其他版本的Hadoop有所不同,它寄希望于改写架构重写HDFS以消除 Hadoop在完全可读写的文件系统和快照(数据恢复)、镜像(数据备份)支持方面的弱点。MapR目前可提供比开源版本快3倍的性能,支持快照可避免SPOF(Single Point of Failure,单点故障)。从而减少了namenode机器的开支和NAS对namenode做元数据备份的必要,提高平台利用率,并保持与现有Hadoop在API方面的兼容性。
MapR
分布式NameNode
然而,MapR版本的Hadoop看上去很美好,但困难重重。对于通过集群这一分布式平台实现大数据价值挖掘的Hadoop解决方案来说,其实还有着唾手可得、水到渠成的解决方案Intel发行版Hadoop。
众所周知,英特尔在开放服务器领域有着丰富而又完整的解决方案,在云计算、数据中心领域积累了大量实践经验。英特尔结合自己强大技术、成熟市场和经验,可打造面向大数据应用的Hadoop高效平台,有助于提供相比其他Hadoop平台更可靠、更高性能、更多和更易于管理的大数据解决方案。
第3页:软硬双版:英特尔Hadoop发行版独领风骚
传统以来,英特尔是一家基于半导体芯片制造和技术创新的公司,在推动行业创新引领业界发展方面贡献不遗余力。而大数据时代的到来,将加速英特尔从产品提供商到服务提供商的转型,围绕应用提供包括产品、技术和平台的整体解决方案。
根据IDC在大数据方面的预测,中国将成为大数据最重要的市常作为以半导体芯片为特长的英特尔公司来说,很早就在中国开设有(英特尔中国也是英特尔全球部署最全面的第二大机构)研究院,并且在软件行业每年都有大量的开源技术专家参与开源项目(比如去年成立的通软英特尔博锐技术解决方案中心)。而作为英特尔发行版Hadoop,也恰恰是众多开源项目中的一个,是一套基于Hadoop可满足不同行业需求的完整解决方案。在去年,英特尔为此还发布了基于Hadoop的发行版和免费版产品。
英特尔Hadoop发行版管理工具(一站式安装、部署、配置、监控和告警)
相比传统的Hadoop开源版本,英特尔发行版专门从软硬件层面分别进行了深度优化。有助于提供相比其他Hadoop平台更可靠、更高性能、更多和更易于管理的大数据解决方案。
英特尔Hadoop发行版与开源版本功能对比
基于英特尔Hadoop发行版,在原有的开源版本基础上进行了特殊强化,包括HDFS、MapReduce以及 HBase都有重新改写,同时并支持SQL查询指令语言Hive,对于SQL指令的查询速度提升了8.5倍。另外,它还可以直接支持Xeon进阶运算加密指令集AES-NI,来提高数据运算速度,还能让数据收集、储存到HBase的过程,可以被芯片原生的加密功能保护,而性能又不会因为加密受到影响。在成熟且广阔开放的x86平台上,基于英特尔发行版Hadoop可以实现深度融合,其免费版Hadoop也有助于化解Hadoop开源版本部署技术门槛高的问题。
最值的称道的是,英特尔还将Hadoop直接固化到底层的处理器芯片中,并且通过固态驱动器与缓存加速来实现优化(参考《融入“芯” 英特尔Hadoop应对大数据应用》)。
从以上的各大Hadoop发行版平台来看,得益于英特尔在计算领域的独特专长(大数据价值挖掘的最重要任务就是计算处理)以及在内存、存储等技术上的创新和行业经验的成熟,使得英特尔Hadoop发行版在功能、管理、扩展、性能方面都具有长足优势。当前,通过中国电信、智能城市、医疗等行业领域的合作,英特尔Hadoop发行版针对中国市场的行业和应用特点还有更进一步的优化。这些对于中国大数据市场来说,英特尔Hadoop发行版势必拥有更多实战舞台的空间。
或许,基于英特尔软硬件的大数据解决方案,将更多地会以服务和成品的形式,在大数据时代定“独领风骚”。