有关有序HASH树SDK请参考以下网址
[url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url]
作者联系方式:
e-mail:[email]freeland007@163.com[/email]
QQ: 723273055
1.1 基于词典中文分词介绍
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配。常用的两种分词方法如下:
(1)正向最大匹配。
正向最大匹配法目的是将最长的词分离出来,例如从文本的开始位置在词典中匹配出最长的词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:
“中华人民共和国万岁”,首先分出“中华人民共和国“这个词,而不是更短的”中华“、”中华人民“,然后解析出”万岁“这个词,依次类推解析出文本中的所有出现在词典中的词。
(2)逆向最大匹配。
逆向最大匹配法的基本原理和正向最大匹配法相同,不同的是分词切分的方向与正向最大匹配法相反,并且使用的分词词典也不同。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。
(3)最多匹配。
从文本中解析出所有的词,包括最长、最短以及其他所有出现在置在词典中词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:
“中华人民共和国万岁”,可以解析出:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。
基于有序HASH树可以开发出正向匹配分词、反向匹配分词;支持最大匹配、最小匹配、最多匹配。
1.2 功能实现原理
基于有序HASH树进行关键词的实现原理是把前缀匹配规则插入到有序HASH树
中,然后使用SDK中的反向模糊匹配函数输入文本进行模糊匹配,即可返回
中文分词(基于有序HASH
来源:互联网 发布日期:2011-08-29 22:13:36 浏览:21448次
导读: 有关有序HASH树SDK请参考以下网址 [url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url] 作者联系方式: e-mail:[email]freeland007@163.com[/email] QQ: 723273055 1.1 基于词典中文分词介绍 这种方法又叫做...
下一篇:CRF中文分词开源版 1.0
相关内容
- 联想意外曝光英伟达N1芯片!AI PC要迎来“质变”时刻了?
- 美科技巨头未来“完全收购”AI开发者?拜登警告:警惕科技工业综合体
- 脑机接口临床案例获“出乎意料”成果:瘫痪患者训练2个月,不需脑机接口也可拿起木球
- 2025全球电商消费趋势有哪些?AI等创新科技应用场景加速拓展、情绪经济成亮点
- 沙特媒体:中国有望成为全球生物科技强国
- 盘点2024年的“AI 事故”:内容垃圾、幻觉与滥用
- 中国互联网协会发布 “2024年影响中国互联网行业发展的十件大事”
- 上海团队实现脑机接口临床试验重大突破,用汉语“意念对话”走进现实
- 端侧AI火爆,中国芯片企业如何在高通、苹果竞争中食得一杯羹
- 成功进入国际三大品牌之后,炬芯科技发力存内计算AI芯片!
AiLab云推荐
最新资讯
本月热点
热门排行
-
科学家成功研发可弯曲的非硅柔性芯片,成本不到 1 美元
阅读量:5959
-
FuriosaAI推出高能效AI芯片:性能与英伟达L40S接近,功耗低40%!
阅读量:5488
-
瑞士团队打造超小脑机接口,意识转文本准确率高达 91%
阅读量:4817
-
马斯克的新愿景对准盲人,Neuralink下一代脑机接口已获批
阅读量:4542
-
清华洪波教授:脑机接口实现语音解码输出应该在三年左右
阅读量:4330
-
为了获诺奖,AI不仅要懂物理学,还要懂哲学?
阅读量:3749