同样n元法的优点为将文本分解为索引项集合是十分容易的。但其索引空间是十分巨大的。使用n元语法同样也会使系统无法利用语言学知识。
2.3 词
目前大多数研究者认为中文全文检索也应以词为索引单位。也就是索引项应该为中文的词。这样做的好处是十分明显的。首先符合人的习惯,有利于提高查询的准确性,也便于系统利用语言学知识。如果要进一步设计跨语种查询系统则非要以词为索引项不可。但使用词为索引项则应先解决好分词问题。
3. 一种混合型正向最大匹配算法
中文分词问题的研究己有二十多年历吏。其间己提出了多种分词算法。总的来说这些算法可分为四大类。第一类为基于词典的机械分词算法。第二类为基于统计的分词算法。第三类为第一类和第二类的混合型分词算法。第四类为基于知识的分词专家系统。
但各种分词算法均有其适用领域,针对全文检索中文档数量大,要求速度快的特点。我们设计了一个混合型正向最大匹配算法,该算法可利用规则及字频信息来处理分词中的歧义并使用了三词块方法[1]。为加快分词过程中词的查找速度,按首字索引结构对词典进行了组织。
3.1 三词块及处理歧义的规则
三词块是一种处理分词歧义的方法。分词中遇到歧义时(假设有一字符串C1C2C3C4C5C6,当前处理到汉字C1,且C1为词C1C2也为词),则向前多找两个词,这种由三个词组成的串称之为三词块。处理中我们将找出所有可能的三词块并且认为具有最大长度的三词块是最有可能的分词。
假设有字符串C1C2C3C4C5C6,且C1,C1C2均为词并有如下一些可能的三词块。
1 C1 C2 C3C4
2 C1C2 C3C4 C5
3 C1C2 C3C4 C5C6
具有最大长度的词块为第三个。这样我们就认为第三个词块中的C1C2为正确的分法。取其为词。从C3外再次开始进行分词,一直到字符串结束。
我们所设计的分词算法以