数据挖掘及其工具的使用
挖掘, 数据, 工具
关键词 数据挖掘,KDD,分类器
1 引言
数据挖掘就是从大量不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的的信息和知识。数据挖掘其实是知识发现的核心部分,而知识发现是在积累了大量数据后,从中识别出有效的、新颖的、潜在的、有用的及最终可以理解的知识,人们利用这些知识改进工作,提高效率和效益。数据挖掘是信息发展到一定程度的必然产物,是利用积累数据的一个高级阶段。
随着数据库技术的迅速发展和管理系统的广泛应用,人们积累的数据越来越多。数据的背后应隐藏着许多重要信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、修改、统计、查询等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。
用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(KDD)的产生。
2 KDD与数据挖掘
KDD是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。从定义中可以看出,KDD是一个高级的处理过程,它从数据集中识别出以模式来表示的知识。高级的处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋式的上升过程。数据挖掘是KDD的核心部分,是采用机器学习、统计等方法进行知识学习的阶段。KDD是一门交叉学科,涉及到人工智能、机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、专家系统等多个领域。数据挖掘算法的好坏将直接影响到所发现知识的好坏。数据挖掘的任务是从数据中发现模式。