搜寻引擎算法的转变迎来的中文分词原理的变更,上面idsem团队成员王克江以中文分词原理来讲解百度中文分词原理的分词规矩,分享如下:
一、中文分词原理的讲解
1、基于理解的分词方法
基于理解的分词方法就是机器模仿人来理解词语,在言语常识及其词库的配合下,机器履行语句掌握,词意掌握,以及分词掌握来模仿人来读取网页信息。能够理解成机器模仿人分词。
2、基于字符串匹配的分词方法
基于字符串匹配分词是与词库进行对照遵照不同的扫描方法进行分词,扫描方法分为四种:
1)正向最大匹配法(由左到右的方向)
2)逆向最大匹配法(由右到左的方向)
3)起码切分(使每一句中切出的词数最小)
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
为了进步分词正确度,又涌现了标记和特性扫描。标记分词以标记作为为断点,可将原字符串分为较小的串再来进机械分词;特性分词将分词和词类标注联合起来,应用丰硕的词类信息对分词决策供给赞助,并且在标注历程中又反过去对分词后果进行测验、调剂,从而极大地进步切分的正确率。
3、基于统计的分词方法
基于统计的分词方法目前有两种方法:互现信息统计分词、机械学习统计分词 互现信息统计分词:在去除噪声的前提下统计词语涌现的频率以及词语相邻的地位,依据相邻准则以及词语涌现的频率情势词语。
机械学习统计分词:在有少量已经分词的文本前提下,应用统计机器学习模型学习词语切分的法则,完成对未知文本的切分,也能够成为练习统计分词。
4、歧义词语的辨认
歧义分词包含交加型歧义和组合型歧义在此就不做具体介绍您能够参考”中文分词”百科
5、新词辨认
新词辨认重要指专业术语或许是命名实体比方”人名、地名、机构名、商标”等在百度词库用定位为专有词库。
在为大家讲解玩中文分词以后,那么百度是如何进行中文分词的呢,上面器具体例子具体介绍
二、图例具体讲解百度如何进行中文分词
百度中文分词实例演示图
1、如图所示”林夕阁软文”匹配成词,表现了百度”基于理解的分词方法”,机器模仿人理解涌现了误区。
2、在admin5的URL描写中咱们能够发明”林夕阁”"软文”独自成词,那么在题目中”林夕阁
搜寻引擎算法的转变迎来的中文分词原理的变更
来源:互联网 发布日期:2011-08-28 21:48:10 浏览:11376次
导读:搜寻引擎算法的转变迎来的中文分词原理的变更 ,SEO论坛...
相关热词: 搜寻引擎算法的转变迎来的中文分词原理的变更
相关内容
AiLab云推荐
最新资讯
- 纳米缝合让复合材料更轻更坚韧
- Meta全新自研AI芯片曝光:性能相比MTIA v1提升了3倍!
- M4芯片将专注于AI!苹果据称拟全面升级Mac产品线,股价涨超4%
- 英特尔甩出全新AI训练芯片!跑千亿大模型速度超H200,罕见披露AI浮点性能
- 英特尔突袭英伟达H100,新AI芯片训练快40%,推理快50%,CEO蹦迪庆祝
- 对话东方晶源:打造中国芯片制造的GoldenFlow
- 一颗改变了世界的芯片
- 英特尔展示多模块芯片,预计为 Gaudi 3 人工智能加速器
- 台地震影响全球半导体格局?分析称可能会让供应链多元化呼声更强烈
- 三星 Exynos 2500 芯片再爆料:加码NPU芯片,构建更丰富 AI 体验
本月热点
热门排行
-
ChatGPT 设计了一款芯片
阅读量:196167
-
2023年全球风投额创5年最低,机构:今年会有更多创业公司倒闭
阅读量:195319
-
计算效率提升超60倍!中国公司杉数科技用GPU芯片开启运筹学新的“大航海时代”|钛媒体焦点
阅读量:191924
-
2023,AI创业者的50条反思
阅读量:102946
-
专访清华大学脑机接口科研团队负责人:中美“脑机接口”下一突破是什么?
阅读量:63437
-
2024,AI芯片之争加剧
阅读量:24135