导读:浅析WEB日志数据挖掘技术,计算机网络论文,计算机论文,工学论文...
(三)基于简单结构的Web日志挖掘方案
Web服务器的简单结构是指那些访问量不是很多,一般只有一个Web服务器组成的网站。对于这些简单结构的Web服务器,分析的原始数据往往就是一个Web日志文件。一般来说,对于这种情况和传统的数据挖掘的处理手法有类似的地方,也大致可以分开原始数据预处理。挖掘算法和模式分析几个主要的步骤。
数据预处理是一个十分关键的步骤,根据不同的业务,不同的情况,将海量的原始数据中抽取需要的数据,并且对于不完整的数据还需要做些处理等。Web日志挖掘的数据预处理包括依赖域的数据净化、用户识别、会话识别和路径补充等。对日志进行预处理的结果直接影响到挖掘算法产生的规则与