在互联网领域,大数据应用十分广泛,尤其以企业为主,企业作为大数据应用的主体,数据采集、数据存储、数据可视化、数据特征提娶数据特征选择、数据清洗、数据分析、数据挖掘、数据仓库、数据安全等围绕大数据商业价值的利用焦点已备受关注。
01
数据采集
从数据采集层面来看,分为结构化数据、非结构化数据、半结构化数据,来源于物联网的设备采集数据由于成本低、获取方式容易,成为企业大数据采集数据的主要来源之一,实时性相对强,数据量从GB、TB、PB、ZB级扩增。然而对于中小企业或许会受困于没有数据却又想转型通过搭建大数据平台来提升竞争力,企业可以研发符合市场需求的产品,从新用户、活跃用户、粘性用户到留存用户,获取用户的行为数据之后可以进行数据分析。此外数据采集可以有网络爬虫、ETL抽取等。
02
数据存储
有了大量数据之后,对于数据存储方式也提出了要求。数据存储分为关系型数据库存储、分布式数据存储,数据级别较大时可以存储在分布式文件存储系统中。对于搭建大数据平台的企业来说,通常是对业务结果的数据存储于关系型系统,对于TB级及以上数据量存储至分布式系统中,这两种数据可以使用Sqoop等类似的工具进行数据导入导出。
03
数据可视化
在实际工业生产实践中,对于待处理的大数据,首先是数据特征探索阶段,也就是做数据可视化,对数据有个初步的了解,才会知道所拿到的数据能否解决面临的实际问题,适用于什么算法。对于无编程能力的人,只需要掌握数据分析和处理的能力,即可灵活使用可视化类工具如Tableau,通过拖拉拽形成联动,大大缩短数据分析流程。从连接数据源、建立工作表、构建各种图表、仪表板进行可视化展示,进行交叉分析。对于有编程能力的人可以使用R、Python进行数据可视化。
04
数据特征提取及清洗
数据可视化之后,需要对数据进行清洗,对数据中的噪声进行处理以支持后续数据建模。常见的比如进行降维,提取出对实际问题相关性较高的特征因子后,再回归到大数据,或者做相关性分析、主成分分析等。
05
数据分析及挖掘
数据统计及分析主要是基于存储的海量数据进行普通的分析和分类汇总,以满足大多数常见的分析需求。数据挖掘一般没有预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,实现高级别的数据分析的需求,丰富的历史数据是数据挖掘的先决条件。比较典型的算法有回归、分类、聚类、关联分析。机器学习正是如此,分为监督式学习算法、无监督式学习算法、半监督式学习算法。
06
机器学习
监督式学习算法是从带标签(标注)的训练样本中建立的训练样本中建立模式,并依此推测新的数据标签的算法。比如回归、神经网络、决策树、支持向量机、贝叶斯、随机森林。无监督式学习算法是在学习时并不知道其分类结果,目的是去对原始资料进行分类,以便了解资料内部结构的算法。比如聚类、主成分分析、线性判别分析降维。半监督式学习算法是利用少量标注样本和大量未标注样本进行机器学习,利用数据分布上的模型假设,建立学习器对未标签样本进行标签。
机器学习正被广泛应用于计算机视觉、语音识别、自然语言处理等方面。其中深度学习强调模型深度,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更容易准确,更能够刻画数据的丰富内在信息,其实际应用对象不仅包含语音、图像、视频,同样也包含文本、语言和语义信息。另外,卷积神经网络是神经网络的一种,为识别二维形状而特殊设计的多层感知器,擅长处理图像特别是大图像的相关机器学习问题,对图像平移、比例缩放、倾斜或者其他形式的变形具有高度不变性,它的布局更接近于实际的生物神经网络,被广泛应用。当前实现机器学习比较常见的两种主流方式是Spark和Tensorflow框架。机器学习作为人工智能的核心,是企业搭建大数据平台的重要节点,需要结合业务逻辑,按需选择合适的算法模型,不断调参调优,使机器学习服务于企业经营。
07
数据仓库
数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在商业智能系统的设计中,数据仓库的构建是关键,是商业智能系统的基础,承担对业务系统数据整合的任务,为商业智能系统提供数据抽娶转换和加载(ETL),并按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。海量的数据包括社交网络、移动设备和传感器等新渠道以及新技术使用所带来的半结构化或非结构化的数据。大数据技术架构可分为存储、处理、应用、展示以及整合5个部分,并可根据数据的结构化程度对相关技术进行选择和组合。每个部分包含一些技术要素,而某些要素又可根据结构化程度共同作用形成特定的功能。
从企业角度来说,无论是数据库、数据仓库还是大数据都是解决不同需求、处理不同级别数据量的技术,它们之间并无冲突。针对不同需求和现状进行技术选择,各种技术相互补充、相互协作。目前阶段对于大部分企业来说,想要开展一个全新的大数据项目似乎无从下手。从现有数据仓库建设理论和经验入手,引入部分大数据技术,特别是实现非结构化数据的收集、存储和处理是一种比较可行的方法。
基于云计算的Hadoop大数据框架,利用集群的威力高速运算和存储,实现了一个分布式运行系统,以流的形式提供高传输率来访问数据,适应了大数据的应用程序。将Hadoop技术应用于对数据的采集、ETL、存储、处理,开发提供给传统的数据仓库BI工具,其架构如图所示。利用Hadoop强大的数据处理能力,将各类数据处理成结构化数据,向上提供给传统BI工具,对数据进行分析和结果展示。
08
数据安全
大数据蕴藏着价值信息,但数据安全面临着严峻挑战。一方面,大数据本身的安全防护存在漏洞。虽然云计算对大数据提供了便利,但对大数据的安全控制力度不够,API访问权限控制以及密钥生产,存储和管理方面的不足都可能造成数据泄露。另一方面,在用数据挖掘和数据分析等大数据技术获取价值信息的同时,攻击者也在利用这些大数据技术进行攻击。
当然大数据也为数据安全的发展提供了机会,对海量数据的分析有助于更好的跟踪网络异常行为,对实时安全和应用数据结合在一起的数据进行预防性分析,可防止诈骗和黑客入侵。网络攻击行为留下的痕迹数据以数据的形式隐藏在大数据中,从大数据的存储,应用和管理方面把关,可以有针对性的应对数据安全威胁。企业需要将大数据技术和安全并行,大数据才可以真正成为企业长远发展的驱动力量。
来源:e-works