浅谈百度中文分词是怎样举行的 发布人:admin 更新时间:2011-09-05 21:32 浏览:次
置信大师关于搜刮引擎收录的分词手艺不断都很猎奇,控制领会了搜刮引擎分词手艺关于咱们这些的任务有很大的协助:在网站的链接架构及环节词的结构都与分词有很大的联系。日常平凡跟百度接触的比力多,以是就以百度中文分词为例引见下搜刮引擎分词的方式。
中文分词是什么
在领会百度的中文分词之前大师起首要领会什么是中文分词?咱们中文与英文分歧,是由一个个汉字毗连成的,因而分起来相比照力繁杂。百度的中文分词是将一个汉语句子切分红一个个的零丁的词,然后依照必然的法则从头组分解一个序列的进程,简称“中文切词”。分词对搜刮引擎的协助很大,能够协助搜刮引擎法式主动辨认语句的寄义,从而使搜刮成果的婚配度到达最高,因而分词的品质也就间接影响了搜刮成果的切确度。以后百度搜刮引擎分词次要采纳字典婚配和统计学这两种方式。
分词手艺 词库字典婚配分词
这种方式的就失事有一个词库量超大的辞书,即分词索引库,在依照必然的法则将待分的词的字符串与词库中的词停止婚配,找到某个词语就暗示婚配胜利,此次要经过以下几种体例:起码切分(使每一句中切出的词数最小);正向最大婚配法(由左到右的标的目标);双向最大婚配法(停止由左到右、由右到左两次扫描);逆向最大婚配法(由右到左的标的目标)。