根据三位作者的咨询和研究经验,以及与许多大数据和分析主题的公司合作,了解一个良好的数据科学家具有哪些主要特征。
大数据分析已经满天都是,IBM项目,每天产生2.5兆字节的数据。这意味着90%的数据在过去的两年里被创造出来。Gartner projects预测,到2015年,85%的500强的企业将无法利用大数据的竞争优势,并且大约有440万个工作岗位将围绕大数据创建起来。
虽然这些预测不能够在绝对意义上进行解释,但是他们代表无所不在的大数据,以及需要分析的能力和资源的强有力的指示。因为随着数据堆积,管理和分析这些数据资源的最佳方式,已经成为创造竞争优势和战略杠杆的关键成功因素。为了应对这些挑战,公司正在招聘数据科学家,然而在业内,对于什么是优秀的数据科学家却存在着很大的误解和分歧。以下是一个优秀的数据科学家的主要构成特点:
数据科学家应该是一个优秀的程序员
根据定义,数据科学家与数据打交道。这涉及到大量的活动,如采样和处理的数据,模型估计和后期处理(如敏感性分析,模型部署,回归测试,模型验证)。虽然在当今的市场上,很多用户易于掌握的软件工具是自动化的,但是每一个分析都需要用量身定制的步骤来解决特殊的业务问题。为了成功执行这些步骤,就需要编程来解决了。
一个数据科学家应该有扎实的定量技能
一个数据科学家应该有统计,机器学习以及数据挖掘的背景。不同学科之间的区别越来越模糊,但是实际上并不是相关的。他们都提供了一套定量的技术来分析数据,并且在特定的背景下(如风险管理,欺诈检测,营销分析……),找到业务相关的模式。数据科学家应该知道哪些技术可以怎样利用并知道应该何时应用。他/她不应该把焦点放在基础数学(例如优化)的细节上,而是对分析问题的解决方法有一个很好的理解,以及如何解释它的结果。这里,培训一个计算机科学及商业/工业工程的工程师,目标应该是一个综合的,多科学观点,随着最近这两种技术的使用梯度形成的,以及能够根据必要的商业触觉带来新的努力成果。
在这样的背景下,同样重要的是,花足够多的时间来验证分析结果,从而避免经常被提及到的数据信息及数据曲解,这些数据是(有意的)歪曲并且过于集中精力讨论虚假的相关性,当选择最佳的定量技术时,数据科学家应该考虑到业务问题的特殊性。
典型的分析模型的要求是:
行动能力(多大程度解决分析模型的业务问题?)
性能(分析模型的统计性能是什么?)
解释能力(是否可以很容易地为决策者解决分析模型?)
运作效率(需要多少努力来建立,评估和监测分析模型?)
法规遵从(是否符合规定的模型)以及经济成本(简历,运行和维护的成本是什么?)。
根据这些要求的组合,数据科学家应该能够选择最佳的分析技术来解决业务问题。
一个数据科学家应该善于沟通与可视化的技能
不管你喜欢不喜欢,分析是一种技术性的锻炼。在这个时候,分析模型和商业用户之间有一个巨大的差距。为了弥补这个差距,沟通和定量技能的可视化设施是关键!
因此,数据科学家应该知道如何提出分析模型和他们的附随统计以及易于用户使用方式的报告。例如,交通灯的方法,联机分析处理设施,”如果-然后”业务规则,……他/她应该能够在不迷失复杂的细节(如统计)的情况下传达适当的信息量,这些细节将会阻碍一个成功模型的部署。这样做,企业用户将会更好地了解他们的特点和在他们行为下的大数据,这将提高他们的态度并接受分析模型的结果。
教育机构必须学会平衡,因为它已经有很多的学术学位,以及因为过度分析或过度练习实践知识的学生而知名了。
一个数据科学家应该有一个坚实的商业认识
了解业务是必须的。我们见证了许多数据科学项目失败了,因为各自的分析师不理解手上的业务问题。通过”业务”,我们指的是,例如如果各自的数据被分析,那么在一个真实的商业,或天文学,或医学的环境下进行客户流失预测或信用评分。
数据科学家应该是具有创造性的
一个具有创意的科学家至少需要两个层次的创造力。首先,在技术层面上,在特征选择,数据转换和清洗数据方面具有创造性是非常重要的。标准知识发现过程的步骤必须适用于每一个特定的应用程序,通常”正确的猜测”可能会产生很大的差异。其次,大数据分析是一个快速发展的领域!新的问题,新的技术和相应的挑战都出现在正在进行的基础上。一个数据科学家需要不断创新以适应这些新技术是非常重要的,并有足够的创造力去了解他们如何创造新的商机。
结论:
我们提供了一个简短的特点概述去寻找一个优秀的科学家。总之,由于大数据分析的多学科性质,数据科学家应该拥有一个混合的技能:编程,定量建模,沟通和可视化,业务理解能力以及创造力!下图显示了如何表达这些的文件。
图:数据科学家简介