基于粒子群优化的模糊文本聚类研究
来源:www.lunwenhot.com 作者:热点论文发表网 点击: 次
1 引言 随着计算机技术和网络技术的飞速发展,文本信息正在以惊人的速度迅猛发展。应运而生的各种聚类技术已经成为海量信息处理领域一项重要的研究。将物理或抽象对象的集合分组成为由类似对象组成的多个类的过程被称为聚类。文本聚类[1]就是将文本集合分组
1 引言
随着计算机技术和网络技术的飞速发展,文本信息正在以惊人的速度迅猛发展。应运而生的各种聚类技术已经成为海量信息处理领域一项重要的研究。将物理或抽象对象的集合分组成为由类似对象组成的多个类的过程被称为聚类。文本聚类[1]就是将文本集合分组成多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别较大。
它是聚类分析技术在文本处理领域的一种应用。其根本原理是根据算法中样本是否允许以不同的隶属度被分配到不同的类。传统的聚类分析是一种硬划分(Crisp Partition),它把每个待识别的对象严格地划分到某一个确定的类中,且只属于这个类,每个样本的隶属度不是1就是0.然而,在现实生活中,由于事物的复杂性,大多数的对象并没有严格的可分属性,尤其在文本的分类上。自从美国扎德(L.A.Zadeh)教授于1965 年建立模糊集合论以来,许多软聚类方法应运而生。1973 年,J.C.Dunn 最先将最小方差聚类方法模糊化,提出了fuzzyISODATA 聚类方法。其后,J.C.Bezdek 和Dunn 将该聚类方法推广为一般的模糊聚类C 均值聚类(FCM)方法,并证明了其收敛性。
但是,FCM 算法仍然存在一些缺陷导致它对文本初始中心点十分敏感并。针对模糊c均值聚类算法的缺点,首先引入粒子群优化对模糊聚类算法进行优化,并使用改进的模糊算法使之克服样本固有的分布不均衡,得到一种高效的文本聚类算法。最后在通用数据集上验证了其有效性。
2 改进模糊聚类概述
由于现实生活中,大部分事物都存在着相对的模糊性,并不是非此即彼的精确情况。而且文本词句之间本身就存在着一定的相似性,所以如果只是单纯的对其进行聚类分析,往往不会有太好的结果,这里就需要使用模糊聚类算法来进行精化操作。模糊聚类算法往往都有较好的适应性和抗噪音能力,通过对文本的模糊划分,就能得到一个比较好的聚类结果。
3 粒子群算法概述
粒子群优化算法(PSO)是一种基于群体智能(Swarm Intelligence)的方法,由Eberhart博士和Kennedy 博士发明。其基本思想源于对鸟群和鱼群群体觅食行为的模拟。每个优化问题的可行性解都可以想象成n 维搜索空间上的一个点,即是搜索空间中一个没有体积的鸟,我们称之为“粒子”.所有粒子都有一个由被优化的函数决定的适应度值(fitness va1ue),且使用一个速度值计算它们的飞行的方向和距离,这个速度根据它本身的飞行经验和同伴的飞行经验进行动态调整,跟随当前的最优粒子在解空间中的搜索。PSO 因其收敛速度快、设置参数少而受到广泛关注。
4 基于粒子群优化的FCM 文本聚类
文本聚类的方式多种多样,没有任何一种算法适用于所有的数据集以及所有的情况。它最重要的思想就是将所用的数据集按照一定的需求进行自动的划分,使得类内高聚集,类间高耦合。以此来寻求人们所需要的模式或者数据分类。目前文