导读:IT社区&写作平台,www.donews.com...
最新百度中文分词原理
许清峰 | 网站推广 | 出处:原创-IT| 2011年07月25日 19:17 | 阅读 次
一、中文分词原理的解说 1、基于理解的分词方法基于理解的分词方法就是机器模拟人来理解词语,在语言知识及其词库的配合下,机器执行语句控制,词意控制,以及分词控制来模拟人来读取网页信息。可以理解成机器模拟人分词。
2、基于字符串匹配的分词方法
基于字符串匹配分词是与词库进行对比按照不同的扫描方式进行分词,扫描方式分为四种:
1)正向最大匹配法(由左到右的方向)
2)逆向最大匹配法(由右到左的方向)
3)最少切分(使每一句中切出的词数最小)心得体会
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
为了提高分词精确度,又出现了标志和特征扫描。标志分词以标志作为为断点,http://wendang.yxtvg.com可将原字符串分为较小的串再来进机械分词;特征分词将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
3、基于统计的分词方法
基于统计的分词方法目前有两种方式:互现信息统计分词、机械学习统计分词 互现信息统计分词:在去除噪声的前提下统计词语出现的频率以及词语相邻的位置,根据相邻原则以及词语出现的频率形式词语。
机械学习统计分词:在有大量已经分词的文本前提下,利用统计机器学习模型学习词语切分的规律,实现对未知文本的切分,也可以成为训练统计分词。
4、歧义词语的识别
歧义分词包括交集型歧义和组合型歧义在此就不做具体介绍您可以参考”中文分词”百科
5、新词识别
新词识别主要指专业术语或者是命名实体比如”人名、地名、机构名、商标”等在百度词库用定位为专有词库。
wendang.yxtvg.com