由EMC2巴西研发中心和里约联邦大学(UFRJ)联合举办的大数据暑期班于2月4-7日在里约热内卢的科学园举行。据组织方介绍,本来打算邀请60位人员参加,但前后共有700余人报名,只好请示总部,增加拨款,扩招为160名,最后实际录取180名。EMC美国本部领军国际大数据市场,资源有的是,不但免收学费,还为大家提供酒店到会场的交通、茶点和午餐。看得出大数据在巴西也是十分时髦,深受欢迎。前来的学者有巴西政府部门和公私营企业技术人员和高校、研究机构师生等。1.“云”改变现代人生活也将改变世界图 1是三位同事在咖啡厅的网游激战,在喝咖啡和品茶之前,签下君子协议,谁输谁埋单。当然“幸运者”只需在退出游戏后直接在手机上用信用卡付账。现代人就是这样,利用信息技术带来的便利,不停地制造数据。Universo Digital 的研究结果表明,到2011年,人类共生成1.8 Zettabytes 的信息量,形象一点说吧,这些信息需要有1万亿个16GB的iPad来分装。遗憾的是,少部分的这些数据经过某种处理或分析,而90%的大部分都成为非结构数据白白浪费了。
( 1 )
图1 咖啡厅激战,谁输谁埋单。
人们随时把看到的、身边的事情用手机等随身移动设备记录下来,和家人朋友分享。据统计,75%的海量数据由个体网民或移动用户产生:他们在全球每分钟平均发出1.68亿个电邮、给YouTube发6百个录像或在Flickr上放6600个图形文件。但是这些数据流的85%是由大型网络运营商处理和存储的。图2是本次暑期班最年轻的柱柱同学,课间放弃心爱的咖啡小点,忙里偷闲给朋友和妈妈“云发送”他在里约的工作和风景照。
( 1 )
图2 柱柱同学在课间忙着“云发送”在里约的照片
2. 电视传媒、大数据与云计算巴西龙头传媒企业环球电视台(Globo.com)在使用云计算和大数据技术方面,和里约联邦大学合作,用高科技处理大批量的电视节目,提高工作效率,方便签约客户,赢得利润,走到同行前面。仅以该台各频道电视节目的视频网络重博为例,说明媒体传播业使用大数据和云计算技术的案例。环球台的几个重点节目是新闻联播、体育台和电视连续剧。特别是晚间八点黄金时段的连续剧和周三周日的足球大赛,在本台的网页上的重播,是吸引签约客户的卖点。这些客户甚至在电视播放结束几分钟内就能在环球台网上看到视频。环球台已经实现了不同网速的视频制作和网上发布技术。有两个解决方案:一是本台的数据中心存放;二是云运营商存放。后者甚至更便宜和方便。现在的问题是,在客户看完此段视频后,环球台还希望给他们推荐相关视频。该商务手段在亚马逊和YouTube都有,图3 显示YouTube在主视频旁边推荐相关视频情况。看来《非诚勿扰》节目满受网民欢迎的,需要声明的是,本文截图均无任何商业目的。
( 1 )
图 3 YouTube视频推荐系统示意
如果只是百十个视频和数千位用户,在Excel上算算相关性指数就是了。但环球台视频信息组的技术人员面临的挑战是2百万视频,1千5百万在线用户,和极其有限的时间内,动态列出客户视频点击推荐表。这就涉及到大数据有关的MapReduce技术,正是下文要介绍的。3.大数据利器Hadoop理念本次暑期班的重头戏是介绍Apache Hadoop,这是一个开源软件框架, 以Google 的MapReduce 技术为基础,查找有用的索引数据及其它“有价值”的信息,将此结果返回给相关用户。Hadoop支持4000个节点和PB级数据的数据密集型、分布式分析。EMC本部推出了Hadoop衍生产品,这次暑期班的主要目的也是对其软件技术的推广。主讲Hadoop 的是2005年Yahoo该项目研发小组参与者之一,Milind B.老师,见图4。尽管略带印式英语口音的演讲,但由于Hadoop的精湛技术,引起与会者的热切关注。第二天,还有实习课,大家使用VMWare Player工具,直接体验Hadoop的实际操作。Google能前展性提出如此新颖的理念,而Yahoo能在7-8年前坚定不移地开发Hadoop,进而有效推广至今,真是让人信服。
( 0 )
图4 Milind B.老师介绍Hadoop 技术
4.雄心勃勃的EMC巴西研发中心主办今次大数据暑期班的EMC巴西研发中心设在里约科学园区,依托里约联邦大学。其CEO就是毕业于该大学工程系的优秀生。该中心有60名技术人员,主要从事大数据技术的应用研发。目前的主要工作是和巴西石油公司合作,在石油勘探、运输、提炼和天然气等方面,开发应用大数据和云计算技术。这次暑期班的活动非常紧促,前后安排的16个精彩演讲均按时实现,与会者收获颇丰。课余时间,草草把基本情况写下来与科学网网友分享,也算是对大家的新春祝福吧。其它技术资料,容日后慢慢消化后,在与博友分享。