0 引言
信息化管理不仅是企业,也是任意一个政府部门适应未来发展的必由之路,质量监管部门在企业数目不断增加,产品数据飞速增长的现实面前,传统的数据管理手段显得捉襟见肘。因此,将信息技术与企业质量管理(尤其是全面质量管理阶段)有机的结合起来,对于适应我国经济社会发展具有十分重要的意义。数据挖掘技术为作为一种先进的、极具价值的数据分析工具,为质监部门实现全面质量监控管理提供了全新的科学手段。
1 数据挖掘简介
1.1 数据挖掘的基本步骤
数据挖掘指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。数据挖掘一般包括6个步骤,依次是定义问题、准备数据、浏览数据、生成模型、浏览和验证模型、部署更新模型,如图1所示。
图1 数据挖掘步骤
(1)定义问题
清晰地定义出业务问题,确定数据挖掘的目的。
(2)准备数据
数据准备包括:选择数据——在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理——进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
(3)浏览数据
数据挖掘过程的第3步就是浏览已准备的数据,以便在创建模型时作出正确的决策。浏览技术包括计算最大值和最小值,计算平均偏差和标准偏差,以及查看数据的分布。浏览完数据之后,便可确定数据集是否包含缺陷数据,然后制订纠正这些问题的策略。
(4)生成模型
根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘,生成模型。
(5)浏览和验证模型
对数据挖掘的获得的模型进行解释和评价,转换成为能够最终被用户理解的知识。
(6)部署和更新模型
将性能最佳的模型部署到生产环境,更新模型是部署策略的一部分。
1.2 SQL Server数据挖掘和DMX
Microsoft SQL Server Analysis Services(SSAS)提供了用于数据挖掘的工具,可以借助这些工具标识数据中的规则和模式,从而确定出现问题的原因并预测将来将要出现的问题。Analysis Services可以使用来自关系数据库和OLAP数据库的数据集以及可用来调查数据的各种算法。SQL Server提供了各种可用于数据挖掘的环境和工具。
(1)数据挖掘向导
在Business Intelligence Development Studio中,可以从数据挖掘向导开始创建数据挖掘解决方案。该向导用于指导完成创建数据挖掘结构和初始相关挖掘模型的过程,包括选择算法类型和数据源以及定义事例表等任务。
在使用数据挖掘向导刨建了挖掘结构和初始挖掘模型后,打开数据挖掘设计器。在该设计器中,可以管理挖掘结构,创建新的挖掘模型,部署、浏览、比较和创建基于现有挖掘模块的预测。
(2)数据挖掘扩展插件(DMX)
在SSAS中可以使用数据挖掘扩展插件(DMX)语言创建和处理数据挖掘模型。通过使用DMX创建新数据挖掘模型的结构,使用DMX语句创建、处理、删除、复制、浏览和预测数据挖掘模型,为这些模型定型并对其进行浏览、管理和预测。DMX由数据定义语言(DDL)语句、数据操作语言(DML)语句以及函数和运算符构成。
(3)SQ L Server Management Studio
在创建了挖掘模型并将其部署到服务器上后,即可使用SQL Server Management Studio来执行管理和浏览任务,如查看和处理模型,以及创建针对这些模型的预测等。Management Studio也包含一个查询编辑器,可使用该编辑器来设计和执行数据挖掘扩展插件(DMX)查询。
(4)Integration Services数据挖掘任务和转换
SQL Server Integration Services(SSIS)提供了一些工具来自动完成常见的数据挖掘任务,如处理挖掘模型和创建预测查询等。例如,如果有一个根据潜在客户的数据集生成的挖掘模型,那么,就可以创建一个Integration Services包,该包可在每次用新客户更新数据集时,自动更新该模型。并且可以基于该包来创建预测,将潜在客户分入两个表。一个表里中包含的是可能的客户,另一个表中包含的是不可能购买任何产品的客户。
(5)SSAS的算法
Microsoft决策树算法是由SSAS提供的分类和回归算法,用于对离散和连续属性进行预测性建模。Microsoft Naive Bayes算法是SSAS提供的一种分类算法,用于预测性建模。该算法在假定列互不相关的前提下计算输入列和可预测列之间的条件概率。Microsoft时序算法是SSAS提供的回归算法,用于创建数据挖掘模型以预测连续列,如预测方案中的产品销售额。时序模型的预测仅根据算法在创建模型时从原始数据集派生的趋势,而决策树类算法依靠给定输入列来预测可预测列的模型。Microsoft神经网络算法通过构造多层感知器网络创建分类和回归挖掘模型,与Microsoft决策树算法相类似,当给定可预测属性的每个状态时,神经网络算法可以计算输入属性的每个可能状态的概率。并且可以基于这些概率预测被预测属性的结果。