数据挖掘介绍
数据挖掘(Data Mining)是一个多学科交叉研究领域,它融合了数据库(Database)技术、人工智能(Artificial
Intelligence)、机器学习(Machine Learning)、统计学(Statistics)、知识工程(Knowledge
Engineering)、面向对象方法(Object-Oriented Method)、信息检索(Information Retrieval)、高性能计算(High-Performance
Computing)以及数据可视化(Data Visualization)等最新技术的研究成果。经过十几年的研究,产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它以一种全新的概念改变着人类利用数据的方式。二十世纪,数据库技术取得了决定性的成果并且已经得到广泛的应用。但是,数据库技术作为一种基本的信息存储和管理方式,仍然以联机事务处理(OLTP:On-Line
Transaction Processing)为核心应用,缺少对决策、分析、预测等高级功能的支持机制。众所周知,随着数据库容量的膨胀,特别是数据仓库(Data
Warehouse)以及Web等新型数据源的日益普及,联机分析处理(OLAP:On-Line Analytic Processing)、决策支持(Decision
Support)以及分类(Classification)、聚类(Clustering)等复杂应用成为必然。面对这一挑战,数据挖掘和知识发现(Knowledge
Discovery)技术应运而生,并显示出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更高级的阶段。它不仅能对过去的数据进行查询,并且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地作出理想的决策、预测未来的发展趋势等。
1.1 研究背景
经过十几年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成果而形成独具特色的研究分支。勿容置疑,数据挖掘研究和应用具有很大的挑战性。象其它新技术的发展历程一样,数据挖掘也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段。一方面,数据挖掘的概念已经被广泛接受。在理论上,一批具有挑战性和前瞻性的问题被提出,吸引越来越多的研究者。数据挖掘的概念从二十世纪八十年代被提出后,其经济价值已经显现出来,而且被众多商业厂家所推崇,形成初步的市场。另一方面,目前的数据挖掘系统研制也决不是象一些商家为了宣传自己商品所说的那样神奇,仍有许多问题需要研究和探索。把目前数据挖掘的研究现状描述为鸿沟(Chasm)阶段是比较准确的[1]。所谓Chasm阶段是说数据挖掘技术在广泛被应用之前仍有许多“鸿沟”需要攀越。例如,就目前商家推出的数据挖掘系统而言,它们都是一些通用的辅助开发工具。这些工具只能给那些熟悉数据挖掘技术的专家或高级技术人员使用,仅对专业人员开发对应的应用起到加速或横向解决方案(Horizontal
Solution)的作用。但是,数据挖掘来自于商业应用,而商业应用又会由于应用的领域不同而存在很大差异。大多数学者赞成这样的观点:数据挖掘在商业上的成功不能期望通用的辅助开发工具,而应该是数据挖掘概念与特定领域商业逻辑相结合的纵向解决方案(Vertical
Solution)[1] 。
分析目前的研究和应用现状,数据挖掘在如下几个方面需要重点开展工作:
数据挖掘技术与特定商业逻辑的平滑集成问题。它包括领域知识对行业或企业知识挖掘的约束与指导、商业逻辑有机嵌入数据挖掘过程等关键课题。
数据挖掘技术与特定数据存储类型的适应问题。不同的数据存储方式会影响数据挖掘的具体实现机制、目标定位、技术有效性等。指望一种通用的应用模式适合所有的数据存储方式下发现有效知识是不现实的。因此,针对不同数据存储类型的特点,进行针对性研究是目前流行而且也是将来一段时间所必须面对的问题。
数据挖掘系统的构架与交互式挖掘技术。虽然经过多年的探索,数据挖掘系统的基本构架和过程已经趋于明朗,但是受应用领域、挖掘数据类型以及知识