展会信息港展会大全

搜索引擎算法解读:分词技术揭秘
来源:互联网   发布日期:2011-09-07 13:57:05   浏览:6452次  

导读:今天张杭烽在了解近期百度频繁更新调整的相关信息过程中,无意中发现了一篇百度分词算法的分析文章。虽然,文章中对于分词中涉及到的一些案例缺陷,在百度搜索引...

今天张杭烽在了解近期百度频繁更新调整的相关信息过程中,无意中发现了一篇百度分词算法的分析文章。虽然,文章中对于分词中涉及到的一些案例缺陷,在百度搜索引擎的实际操作过程中并没有出现(百度已经改进算法),但从另一个角度来看,对于本文搜索引擎对于关键词分析的思维流程值得我们认真回味!

  由此,张杭烽结合百度李彦宏持有的超链接分析技术专利(强调锚文本与页面核心内容的对应匹配)觉得,网络营销中我们需要合理的分析用户需求、体验心理、内容切分(对应分词思路)之间的整合,使我们提供的内容既符合目标用户的访问诉求、浏览心理,又要迎合搜索引擎分词常规逻辑,实现营销整合。

信息链接:百度分词算法详解

本文通过搜索结果归纳分析+切词通用算法分析的方式对百度预处理阶段的查询处理和中文分词两项技术进行了阐述、总结,如果你对数据结构、算法有一定了解的话,理解起来会相对容易些;个人感觉,得出正向最大匹配算法不够准确,无论是专用词典还是普通词典里的词,都是有不同权重的,这根搜索频率应该有一定关系,基于这点,在出现多个专用词典里的词时,是需要采用双向最大匹配算法来检测到底哪一个专有词汇应该先被切出来,当然,这是个人猜想,有待考究。

理解分词技术对SEO工作具有极大意义,可以从科学的角度来分析关键词,并构想关键词部署策略;如果正向最大匹配算法的结论是正确的,那基本上可以断定,切词后的分词的权重是按照正向排序的

我还想搞明白的是专用词典和普通词典,哪一个权重会更高?

以下为转载的原文:
查询处理以及分词技术
随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。
但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等。这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的。我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节。
查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。那么我们就来看看百度到底采用了哪些所谓的核心技术。
我们分两个部分来讲述:查询处理/中文分词。
一、查询处理
用户向搜索引擎提交查询,搜索引擎一般在接受到

赞助本站

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港