文/陈根
当前,数据量的快速增长已经成为了IT管理部门所面对的最难于解决的问题之一。数据量的增长严重降低了应用程序的性能,降低了应用程序的稳定性,并且消耗了大量的投资,同时对备份与恢复也增加了巨大的负担。
显然,对于IT管理部门来说,不能永无止境的投入大量资金来升级系统存储水平、提高服务器性能,以此来满足不断增长的数据量。数据清理在这个时候就显得尤为重要。
通过数据清理和数据归档的实施可以有效的提高数据库性能,确保核心业务不会因为长时间数据积累而出现性能问题,从而应用可以更加迅捷地提供优质服务。当然,数据清理技术也经过了漫长的发展且仍在研发之中。
根据Anaconda和Figure Eight进行的调查,数据清理可能需要数据科学家四分之一的时间。并且,自动化数据清理对于数据清理而言极具挑战性因为不同的数据集需要不同类型的清理,而且经常需要对世界上的对象进行常理性的判断。
基于此,近日,麻省理工学院(MIT)的研究人员就称,他们发明了一种新的系统,可以自动清除“脏数据”(dirty data)数据分析师、数据工程师和数据科学家害怕的打字错误、重复、缺失值、拼写错误和不一致。
新系统被称为PClean,是概率计算项目(Probabilistic Computing Project)研究人员编写的针对特定领域的概率编程语言,旨在简化人工智能应用程序的开发并实现自动化,例如时间序列和数据库进行建模。
PClean使用一种基于知识的方法来自动化数据清理过程:用户对数据库的背景知识以及可能出现的问题进行编码。用户可以给PClean关于域和关于数据可能被破坏的背景知识。PClean通过常识概率推理结合这些知识来得出答案。
PClean是第一个贝叶斯数据清理系统,它可以结合领域专业知识和常识性推理,自动清理数据库中的数百万条记录。PClean工作所需的代码行数要比其他最先进的选择少得多:PClean程序只需要大约50行代码就可以在准确性和运行时方面超过基准测试。
显然,大数据时代里还需要更多数据清理技术的开发,这也将为未来大数据的发展提供更多的保证。