展会信息港展会大全

浅析中文分词算法,帮助站长更好的优化
来源:互联网   发布日期:2011-09-21 21:54:53   浏览:19392次  

导读:通常的分词算法往往是针对中文搜索引擎而言,对于Google则不存在,在百度和Google上搜索同样一个关键词或者短语,返回的结果是不同的,这不仅仅是算法不同或者...


浅析中文分词算法,帮助站长更好的优化  通常的分词算法往往是针对中文搜索引擎而言,对于Google则不存在,在百度和Google上搜索同样一个关键词或者短语,返回的结果是不同的,这不仅仅是算法不同或者技术不同的原因,更多是因为分词算法的存在。百度会根据用户搜索的关键词去进行拆分,而Google更多地是把结果直接返回。 ;Wa4d`K  
  不论对于英文还是中文,搜索引擎索引页面都是以词为基础的,由于中文的博大精深,和英文单词之间往往相差很多。有时同一句话,标点符号的位置不同,音调不同,语义就完全的不同,而英文则不存在这样的问题,英文更多的是把单词进行拆分。下边给大家介绍我对中文分词算法的一些理解。 TfaL5evio  
  一般中文分词分为基于词典和统计两种匹配,通常两种方法并不是单一存在着,而是在混合使用。 RG [*:ReB9  
  首先是基于词典的匹配方法,根据用户搜索的词语,搜索引擎会把这些词语与自己词典中的词条进行匹配,如果匹配成功,就切分出一个单词。同时根据方向的不同,分为正向和逆向两种匹配。在正向匹配中,按照词语长度的不同又细分为最大匹配和最小匹配。这种基于词典的匹

赞助本站

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港