云计算正在深刻地改变企业IT的应用模式,以及整个IT产业的格局,同时也给了在ICT产业后发的中国企业带来很大的机遇。在中国市场,众多公司加入了这个行业的角逐,并逐渐成长壮大,也为开发者、ISV/SI及企业用户带来新的更多的选择。阿里云就是其中的一家竞争者。
阿里云开发者大会近日在杭州召开,在大数据与大规模计算专场上,EasyHadoop开源社区创始人童小军介绍了基于阿里云平台低成本地构建Hadoop百亿级大数据分析系统的经验,他表示,通过阿里云和Hadoop的结合,希望整个大数据的处理走入一个平民化的时代。
EasyHadoop开源社区创始人童小军
业务系统为什么需要Hadoop技术?
Hadoop是当前公认的处理大数据的首选解决方案,从命名就可以看出,让大数据更简单,就是EasyHadoop开源社区最基本的思想。童小军把Hadoop技术称为合的技术,他表示,虚拟化能把一大块技术分成小集群,Hadoop是把小集群组合大技术,实行集群。我们在Hadoop技术里面有BSP模型、MPI模型,最新的是数据有4000台的应用量。
童小军总结,用的最多是数据业务,数据业务系统,他们之间的规律和本质,最核心的合是数据统计,每个公司是数据部门,这个数据部门在互联网公司有人员,搜寻需求交给研发部门,研发部门提交给测试部门,最后上线,最后推动数据系统汇总到统计部门,这中间起了一个什么作用?把各个把部门假期起来的桥梁作用,因为我本身是学自动化出身的。我们把闭环结构总结一下就是控制器、伺服器、反馈器,反馈力度越细的话,准确性对于数据的分析是不是更准确地做反馈决策,还有成本是不是更廉价。我们把Hadoop这个技术更多是带给大家降低了时间和机会成本,大家有更快地速度算出来,同时提供了更多的机会更多是释放了想像空间。我们原来没有去做的事实这个技术的时候,我们很多敢想,不敢去做,我们分析一个月数据,在当时我们分析一个月的数据我们要两三天,有了Hadoop技术之后,我们把周期缩短到几十分钟。
我们有一个广告,在构建的中间,广告研发部门有自己的思路,最终发现在数据有Hadoop系统,Hadoop系统也给我们数据团队带来更多的机会。总结了一下Hadoop系统之前数据的结构,我们总结一下Hadoop之前和之后的情况,再生Hadoop之前我们有很多数据服务器接受,中间经过好几层的仓库系统,最后报表反馈给技术人员。这中间周期是按天来算的,中间必然面临数据的准确性,到了中间我们可能求下用户的总数了,对用户细节分析再去分析很就很困难。因为每层都许多建设,这些都是成本,如果前段的业务需后反馈了一个需求,我们每一层都要去改。
我们说下Hadoop之后的数据仓库结构。在Hadoop之后,我们设计这么个数据仓库,把数据通过跟快速地导入Hadoop集群里面,同时我们有一个SQL的查询结构,其实可以直接通过这个界面快速地夺取数据,这个时候周期整个是小时级别,不像之前是天级别,当然这个还可以改进。力度因为我们中间所有的数据都保存了,这中间力度会更细,中间把大量的数据都保存,中间要分析,因为参数可以自动地迭代,作出的决策更准。这个整个成本可以更好地扩容和扩展。
说到这么多好的时候,Hadoop有什么优势,解决了什么问题。这里有很多台机器,不同的机器分析的时候,也天生文件可以做切分,这个时候在这台机器上任务切分之后,一堆数据计算,这是一个很重要的思想。而不是把数据推动分裂。中间经过MAP进行初步处理,最终会把数字转换成大的的文件夹,这个文件夹就是最终的结果。最大化地利用本地性计算,网络的通信导致lanuch这种延迟。
案例:性能与成本实测
有哪些用户需要合的技术呢?童小军举了两个案例。第一个是游戏行业一家公司, 有生10 GB的用户数据,每款游戏上面都有一个数据库,通过每台计算机运算导致到用户里面。因为他们中间需要计算的分成,他们有一套BI系统,大家也知道这么多机器成本很大的。能够实时地把数据传送到一个大规模集训里面,我们整了一个Hadoop集权做了一个测试。这块可以很快地机遇基于阿里云ECS平台。这个我会跟大家做一个各种时间和成本的分析。因为把数据到给云运营商以后,这些数据很难取出来的中间数据的丢失,所以无法做更细致的行为,在这改造之后能解决。
第二个例子来自于城市交通,这个交通系统每年会产生一百亿的车牌号的数据,他们原来计算是小时级的计算,他们希望到秒级的计算。我们后面一个阿里云一百亿的车牌号的测试,类似于这种需求,其实很多行业都需要,现在分布式计算一块,从搜索开始发源,到社交网络,互联网公司逐渐地领域延伸到民生,像电信、医疗、交通、公安等等
基于阿里云的平台做的Hadoop测试效效果怎么样?我们宣传的服务器是80个核心,数据机所有磁盘加起来是10个TB。基于这个平台,我们建立其一系列的分析,我们分析一下我们的报告。中间这一层对于我们来说都是不透明的,我们会通过一个Hadoop去查询,然后进行计算。这个参数我们选择的是副本数,每一台机器最大会起6个MAP。下面还有一些参数,类似于reduce。基于这一类的配置,我们再看看一下Hadoop的节点,Hadoop大概可以在20分钟把20台机器全部完成,这通过安装页面来管理。在做这个测试之前我们会生成100车牌号,通过100个文件我们跑一个Hadoop的外部随机生成的数据。大概整个数据集每一行都比较少。
(PPT)我们看一下这个界面,整个集群的容量很大。通过这种方式我们提供查询,进行测试。
(PPT)这个测试的报告是这样的。我们匹配一个ID,我测试了一下1亿的数据会启动100亿的数据 ,大概会在170秒返回,大家看返回的速度并没有发生很大的转变。到100亿滞货,速度达到将近5000万行的扫描速度。
我们做一下方案对比,也这一类的数据,电信行业利用IBM的组合千万、百万时代,如果我们通过Hadoop云的方式,总的成本是15.9万就做了,选用这个方案我们会降低很多。如果通过Hadoop的话,这需要大量的人才培养学习,这中间大概需半年的时间,如果通过Hadoop云的话,应该只要几个月,甚至是几个星期。
维护成本我算一下,中间设施了很多的流程,在云时代服务好的话,我们有统一的人员管理,整个维护周期会缩短。希望阿里云提供一个接口,我们还有一些算法去测试。现在我们通过云服务器操作云服务器,也一个很安全的控制方法的话对几百台的主机资源是必要的,中间这块存储成本希望能够降低。这个方案有一些技术完善,中间有一个海量数据的接入。还也一些外部生态系统的完善。下一步有些测试,我会测试、对比一下,进行更详细的配置。中间也一些问国际标准,我只有有一个CDPE的集合,我希望更标准地测试Hadoop。其实Hadoop打开了想像空间,这是我们Hadoop解决的难题,整个开源生态地图里面,我们希望开放更开放的平台,部署各个平台上,向外有很多应用,有一些软件的功能。我们希望Hadoop易用性发挥到极致。
童小军最后表示,我们中间也复杂了数据三个大条件,就是大数据、大集群、大应用。阿里云这块也给我们做了大量的支持,最后感谢奋战在Hadoop一线的人员,还有感谢阿里巴巴、雅虎等公司。通过阿里云和Hadoop的结合,我们希望整个大数据的处理走入一个平民化的时代,谢谢大家的支持!