中文分词是百度和谷歌的核心技术之一,因此不会将细节公之于。我只能利用黑盒方法进行推导,也即通过输入检索提问,查看结果情况,并通过两个搜索引擎都具备的网页快照功能查看各自对检索提问的分词情况。
表1 检索提问在百度和谷歌中的分词情况*
第一,推导百度的中文分词技术
第1个例子说明,如果对检索提问用引号做精确检索,百度对其不进行分词运算。例2说明,如果输入用空格进行分割的若干个子字符串,百度对其自动做分词处理(如果用标点符号分割,也会做自动分词处理)。例3、6、7、8、10等都说明百度对检索词会进行多种切分方式,并且首先是不进行切分,直接匹配,如果有结果则返回,并排在检索结果最前面;然后再按照不同形式切分之后再去匹配。
例4对“比尔盖茨”的检索表明,百度有专有名词库,例5对“旭日阳刚”的检索表明,百度对新词收录较快。例9“旭日阳刚才”的分词结果为“旭日阳刚/才”也说明,百度对新词能够识别。
例11“大长今天天向上”,百度能够识别出“大长今/天天向上”,“大长今”为一韩剧名,“天天向上”为一综艺节目,百度均能正确地识别,表明其词库收词范围很广,收词量很多。例7、8说明,百度对在分词时不会忽略“的”、“和”这些意义不大的字(即禁用词),可以做更多的尝试,百度对“了”、“吗”等都不会忽略,仍作为检索词进行分词。
再探讨百度是正向最大匹配还是逆向最大匹配。例7中,对“走路和气质”可以分出“走路/和/气质”,这种结果像是逆向最大匹配法,再看例12,“分居民生活水平”,如果逆向最大匹配法的话应该是应该分为“分/居民/生活水平”,但事实上百度对这个检索提问的分词结果并不如此,在这个例子上看似为正向分词。因此,百度的分词不是单纯的正向最大匹配或者逆向最大匹配,采用的应该是双向最大匹配法。
通过有多种划分方式的例子(比如例8),可以看出,百度首先是不进行分词,得到“朱德的母亲”,然后再识别出专有名词或新词,剩余部分又按照先不切分的方式,得到“朱德/的母亲”,然后用最少切分法原则,并且用到了3元交叉切分法得到了“朱德的/的母亲”。
第二,推导谷歌的中文分词技术
例1说明,对于引号中的检索提问,谷歌不进行拆分;例2说明,用空格分开的子字符串,谷歌自动做分词处理(如果用标点符号分割,效果也一样)。
例3、4、5、6表明,谷歌对于专有名词和新词识别能力较差,对“比尔盖茨”、“旭日阳刚”等都进行了分词处理,甚至连“忐忑”都划分为了“忐/忑”,“图书馆”划分为“图书/馆”,“中医药”划分为“中/医药”,说明谷歌的词
百度和谷歌的中文分词技术对比分析
来源:互联网 发布日期:2011-09-21 22:44:52 浏览:17556次
导读:百度和谷歌的中文分词技术对比分析 中文分词是 百度 和谷歌的核心技术之一,因此不会将细节公之于。我只能利用黑盒方法进行推导,也即通过输入检索提问,查看结...
相关热词: 百度和谷歌的中文分词技术对比分析 网络营销 网站推广 优友网
相关内容
- OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员
- 奥尔特曼坦诚 OpenAI 急缺 GPU,GPT-4.5 只能分阶段推出
- OpenAI发布最具“情商”的GPT-4.5,奥特曼:已耗尽GPU资源,将在下周增加数万块
- AI成最强赛道,半导体何去何从?
- 一个向左一个向右, OpenAI与DeepSeek 谁能主导AI竞争格局?
- DeepSeek爆火:AI赛道的一次“非典型突围”
- 特别策划 | DeepSeek浪潮下,人类与AI如何共生、共存?
- AI跨界发展,人才需求能否跟上
- OpenAI推出新模型GPT-4.5,仍面临成本挑战
- DeepSeek将尽快推出R2人工智能模型 机构看好AI应用加速爆发
- 范先群:在人工智能时代培养更多医工交叉领军人才
- 百度变调:文心大模型4.5系列即将推出,6月30日起正式开源
- GPT-4.5 重磅发布!OpenAI 最大最贵模型,没把 DeepSeek 当对手
- 下周大模型诸神混战!DeepSeek和美国巨头对打,OpenAI CEO喜当爹
- 法国人工智能公司发布专精阿拉伯语的AI大模型
- 如果不断用AI来对话AI,最终它会变成什么样子? | No.449
- 马光远:中国在人工智能产业应用方面遥遥领先
- 2024年生成式AI专利调查:中国新增量全球第一
- DeepSeek加码开源,清华浙大缘何成中国AI关键力量
- DeepSeek发布开源第一弹!让大模型在GPU上跑得更快
AiLab云推荐

最新资讯
- AI.com域名要价1亿美元,目前仍指向DeepSeek
- 马斯克:AI毁灭人类的风险为20%,未来结果更可能“超级棒”
- 大模型“注意力简史”:与两位AI研究者从DeepSeek、Kimi最新改进聊起
- 范先群:在人工智能时代培养更多医工交叉领军人才
- OpenAI推出下一代通用大型语言模型GPT-4.5
- GPT-4.5 重磅发布!OpenAI 最大最贵模型,没把 DeepSeek 当对手
- OpenAI发布最具“情商”的GPT-4.5,奥特曼:已耗尽GPU资源,将在下周增加数万块
- OpenAI推出新模型GPT-4.5,仍面临成本挑战
- 多邻国预测年收入超华尔街预期,人工智能订阅服务将获广泛采用
- OpenAI“高情商”模型GPT-4.5发布,定价高过GPT-4o
本月热点
- DeepSeek风暴席卷AI产业链
- 刷屏的DeepSeek-V3能力到底如何?自称ChatGPT 真相或指向“AI污染”
- 中国大模型“搅动”硅谷,巨头恐慌,大佬发声:中国AI已追上美国
- 北京智源发布2025年AI十大趋势:世界模型有望成多模态大模型下一步
- DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平,成本降至1/30
- 人工智能热度再起,AI技术全面渗透是大势所趋
- Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重
- 每年 CES 都在产生共识,今年的共识是「端侧 AI」
- 2024硅谷AI年度总结:从英伟达到OpenAI,这一年都发生了什么?
- 为超越 OpenAI GPT-4,Meta 不惜使用争议数据训练 Llama 3
热门排行
-
机构看衰、专家批评项目艰难,大语言模型会不会成为即将破碎的AI泡沫?
阅读量:7337
-
人工智能对材料科学研究有哪些深远影响?谢建新院士分享
阅读量:6489
-
这个会议一天提及AI 500次,最后的结论是什么?
阅读量:6287
-
OpenAI 罕见开源!低调发布的新研究,一出来就被碰瓷
阅读量:6061
-
AI攻占诺奖背后:新的技术革命成为社会进步发展的重要引擎
阅读量:5400
-
机构看衰、专家批评项目艰难,大语言模型会不会成为即将破碎的AI泡沫?
阅读量:5300
推荐内容
- 2025年第33届中国华东进出口商品交易会(上海华交会)
- 2025第十五届中国(郑州)塑料产业博览会(AllinPlas)
- 2025第二十届中国(临沂)小商品博览会
- 2025年加拿大多伦多矿业展PDAC
- 2025北方国际电机技术与节能科技展览会
- 2025第三十届届华南国际口腔展览会
- 2025CME第10届上海国际机床展(华机展)
- 2025第14届国际生物发酵展(济南展)(BIO)
- 2025中国(山东)国际工业节能技术与装备博览会
- 2025北方国际膜工业大会暨膜工业技术产品展览会
- 2025第十五届杭州网红直播电商及私域团购选品博览会
- 2025第十五届杭州全球新电商博览会
- 2025济南药交会
- 2025广州国际护肤用品展览会(迎河个护展 PCE)
- 2025第三十一届中国国际包装工业展览会(中国国际包装工业展 Sino-Pack 2025)
- 2025第三十一届华南国际印刷工业展览会(printing south china)
- 第九届广州国际氢科技产业博览会
- 2025第三十二届上海国际广告技术设备展览会(上海国际广印展 APPP EXPO)
- 2025 年日本国际照明LED 展览会