在企业部署CRM系统后,往往希望借助这一系统的商业智能优势,通过对数据的分析处理,来获取隐含在数据中的更有商业价值的知识,以此来指导企业开展下一阶段的工作。图1描述了测量数据的质量,特别是可信性、及时性、可解释性和有效性的潜在方法。
在企业部署CRM系统后,往往希望借助这一系统的商业智能优势,通过对数据的分析处理,来获取隐含在数据中的更有商业价值的知识,以此来指导企业开展下一阶段的工作。文章首先分析了当前大多数企业所面临的数据质量低下的现状,并对造成这一现象的原因加以分类,然后以笔者曾经参与设计的某企业CRM项目为例,从整个项目的生命周期开始,对各个阶段所要解决的问题加以解释,并给出解决方案。最后,从宏观上给出一套对普遍企业适用的,能够显著提高数据质量的管理方案。
1 CRM系统中数据质量问题分析
CRM(Customer Relationship Management)也称为客户关系管理系统,其主要功能是通过对大量的客户资料进行深入的分析,来实现缩短销售周期,降低销售成本,提高客户忠诚度和保有率等商业目标。然而决定一个CRM系统成败的关键,往往就是数据质量的优劣。
劣质的数据来源不一,通过分析,其原因主要有以下几种:
①缺乏验证程序。很多系统没有在初期就对用户的输入等过程提供完整的验证程序,导致误输入等因素对数据质量造成一定影响。
②数据格式有效但不正确。往往有些看似有效的数据,但却是错误的。
③系统更新。在原系统发生结构性变化时,如果管理员新增加了一个字段或下拉值,但是没有及时通知相关的系统工程师,就会导致一线员工继续使用旧的字段或下拉值去匹配新的信息类型。
④系统接口过多。
⑤缺乏参照完整性检查。
⑥不匹配的规则和定义。
⑦维度渐变。随着时间的推移而可能发生改变的维度,也在某种程度上影响着数据质量。
由此可见,数据质量受到来自多方面的影响,并且随着公司业务集成到网站中,并允许客户和经销商直接操作数据,而更加与日俱增,因此制定一套行之有效的管理方案迫在眉睫。
2 数据质量管理方案
DEMING W.E在其质量管理的十四要点中指出:“质量不能仅依赖于产品的检验,检验不能创造价值,只能将次品挑出来。”根据实际工作情况来看,往往当我们检查出脏数据时,它已经大量的存在于数据库中了,检查的成本高而效益低。要采用事前预防的方法,从一开始就将质量融入到数据中,以降低脏数据的发生率。
在实际项目中,将数据质量的控制在宏观上划分为了三个阶段,参见表1:
表1 数据质量管理方案规划
由于第三阶段属于数据挖掘范畴,是在建立了准确,完整的数据库基础上实现的,暂不属于本文讨论的范畴,所以我们重点关注第一阶段和第二阶段的实施。
2.1 数据质量规划阶段
完整的信息架构在数据质量管理中占据着重要的位置,这个架构一定是针对业务规则建立的,且能够灵活应对将来可能出现的业务规则或数据流变更。
信息,简要的说就是数据和知识。信息架构的工作在本质上就是将一些数据转化为我们可以直观的理解的知识,或者将我们获得的知识转化为数据,一边可以传递,再利用。它应当是兼具两者的设计过程。大体上应该包含三件工作:
①架构设计:首先我们要确定系统中信息的单元的大小,并决定这些单元之间的关系。
②组织方式:将这些组件组合成有意义的,具有特色的类别。也称为逻辑分类。
③标记:将上一步得到的分类用一个唯一的标签来命名。
设计过程的初期要通过有引导性的客户调研工作理解用户需求,寻找分类的趋势,完成信息架构UML图的初稿,这里应该进行至少两次的分别从上到下和从下到上的梳理过程。之后就是情景模拟的测试过程,并且要让用户也参与进来,否则这个测试过程就失去了其本身的意义。企业的信息化过程中要引入数据质量管理平台,以管理企业数据流,并成为企业各个子系统数据交互的中心,同时在各个层次上对数据质量进行监控和管理,以建立统一的企业数据模型,形成企业统一的视图。
信息的安全性管理不但包括我们熟知的密码管理,用户权限分配,服务器端防火墙的设置等网络安全工作,还应特别注意外部数据的来源,是否为可信数据,数据质量是否符合系统的标准,此处要对导入程序做严格的检查,宁肯放弃一部分数据也不能导入潜在的脏数据或无效数据。
2.2 数据质量控制阶段
设计质量,即我们上面所说的质量规划阶段,其目的是要收集质量需求并将它们转换为一套标准来执行。接下来的执行过程中,就存在着数据质量控制的问题。上面一节已经讲过当前常用的评价数据质量的观察点,在本项目中,宏观上从三个方面来看:可信性、及时性、可用性。
检测数据可信性的一系列规则都是要基于依赖性和现实世界的一致性的。他们可以用于定义数据的语义约束;区分静态,暂时的,或是动态的约束;并且可以指定属性、原则、关系或是整个数据库。所有这些类型的约束都是在假设数据的某些性质不依时间的变化而变化为基础上提出的,以便提供一个稳定的数据集用来与其他数据作对比。
图1描述了测量数据的质量,特别是可信性、及时性、可解释性和有效性的潜在方法。
图1 数据质量评估
如图1所示,验证生产数据的可信度要制订即包括单变量特征也包括多变量特征的检查规则。对于某些字段,它有可能同时存在多种约束条件,这些检查的规则要在数据结构确立后就明确。此外,这里还应重点考虑的一项工作是重复数据的检查。
结合项目中的实际情况来说,重复数据可以归为两类,一类是在数据库中已经存在重复的记录,所以要将这些冗余的数据清除,或是归档。另一类是根据业务规则需要清洗,但并不违反数据库的逻辑规则。如某些呼叫中心规定一个时间段内不能跟同一客户联系超过2次。这就要求数据库操作人员在获取客户名单时,要做2次查重,以满足上述条件。
另一个重要因素就是数据流的控制。往往一些企业的CRM系统的数据流的来源和去向较为复杂。任何环节发现了脏数据先不要急于去做数据清洗,应该顺着数据流去寻找源头,在确定从根本上修复了程序后再开始数据清洗工作。
总的来说,数据质量是一种通过度量和改善数据综合特征从而优化数据价值的过程,质量标准要客观的附加在主观的方法和建议之上,从而保证生产数据的质量。由法国等4国研究机构联合立项的研究项目对在元数据层中嵌入质量管理模型已经取得了一定的进展。不仅如此,关于数据仓库的质量管理问题也在对数据抽取,装载,存储等关键步骤进行研究。可见,数据质量问题正在受到各行各业广泛的关注。
3 小 结
概括的说,在项目的整个生命周期内,应该有这样一套完整的管理方案:
①启动数据质量管理计划。该计划要建立并保持数据定义和业务规则的一致性,并且只有一个版本,这样还可以节省未来开发新程序和寻找相关数据的时间。
②制定项目计划。这一计划中要清晰的定义适用范围,制定目标,估算投资回报率,差值分析,预估以及监控实施效果。为了实现上述的目标,开发团队需要做相应的数据挖掘工作事先评估现状,确立修复方案并建立方案监测数据的一致性。
③再次审视业务流程和数据架构。
④评估数据质量。在重新审视信息流和数据结构之后,企业需要对重点业务区域的数据质量进行全面的评估。目的是找出数据普遍存在的缺陷,建立测试模型来检测他们是如何进入数据仓库或其他系统的,制定清洗规则或给出合理的修复方案。
⑤改善业务流程。如前所述,防止脏数据的出现涉及到转变管理态度,优化业务流程等诸多因素。
⑥坚持不懈的监测数据。如果没有持续的数据质量的监控,那我们之前做的所有工作都有可能付之东流。