有关有序HASH树SDK请参考以下网址
[url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url]
作者联系方式:
e-mail:[email]freeland007@163.com[/email]
QQ: 723273055
1.1 基于词典中文分词介绍
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配。常用的两种分词方法如下:
(1)正向最大匹配。
正向最大匹配法目的是将最长的词分离出来,例如从文本的开始位置在词典中匹配出最长的词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:
“中华人民共和国万岁”,首先分出“中华人民共和国“这个词,而不是更短的”中华“、”中华人民“,然后解析出”万岁“这个词,依次类推解析出文本中的所有出现在词典中的词。
(2)逆向最大匹配。
逆向最大匹配法的基本原理和正向最大匹配法相同,不同的是分词切分的方向与正向最大匹配法相反,并且使用的分词词典也不同。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。
(3)最多匹配。
从文本中解析出所有的词,包括最长、最短以及其他所有出现在置在词典中词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:
“中华人民共和国万岁”,可以解析出:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。
基于有序HASH树可以开发出正向匹配分词、反向匹配分词;支持最大匹配、最小匹配、最多匹配。
1.2 功能实现原理
基于有序HASH树进行关键词的实现原理是把前缀匹配规则插入到有序HASH树
中,然后使用SDK中的反向模糊匹配函数输入文本进行模糊匹配,即可返回
中文分词(基于有序HASH
来源:互联网 发布日期:2011-08-29 22:13:36 浏览:20718次
导读: 有关有序HASH树SDK请参考以下网址 [url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url] 作者联系方式: e-mail:[email]freeland007@163.com[/email] QQ: 723273055 1.1 基于词典中文分词介绍 这种方法又叫做...
下一篇:CRF中文分词开源版 1.0
相关内容
- Kria开发板搭配QNX软件,AMD、黑莓宣布合作推进下一代机器人系统
- 苹果中国工厂回收机器人首次露面,规避了哪些电子回收弊端?
- 机器人即将迎来“ChatGPT时刻”的三个原因
- 如何参与机器人浪潮?——中国共振,机器人元年来临
- 星尘智能发布AI机器人,可以叠衣、炒菜、叠杯,预计今年商业化
- 人形机器人登陆英伟达GTC大会,产业发展已成趋势
- 特斯拉或将在2025年底前销售人形机器人Optimus,机器人100ETF(159530)一度涨超1%
- 全球首台商用协作机器人制造商:拒绝价格战,大力引入人工智能
- 外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底上市
- 李彦宏上车直播:汽车机器人就是未来,相当于司机和助理
AiLab云推荐
最新资讯
- 机器人实现全自动显微注射 将提高大规模遗传学实验能力
- 星尘智能发布AI机器人,可以叠衣、炒菜、叠杯,预计今年商业化
- 全球首台商用协作机器人制造商:拒绝价格战,大力引入人工智能
- 马斯克:可能在明年年底前出售特斯拉人形机器人 Optimus
- 苹果中国工厂回收机器人首次露面,规避了哪些电子回收弊端?
- 特斯拉或将在2025年底前销售人形机器人Optimus,机器人100ETF(159530)一度涨超1%
- 马斯克:“擎天柱”机器人仍在试验阶段 最早明年年底上市
- 马斯克称最快明年底前开卖人形机器人Optimus!网友:真能那么快吗?
- 外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底上市
- 投资300亿!机器人产业爆发:几大趋势
本月热点
- 人形机器人崛起:OpenAI、微软洽谈投资Figure AI,望募资5亿美元
- OpenAI 悄悄升级 ChatGPT:可在对话中调用不同的自定义聊天机器人 | 懂点AI
- Limbic开发AI心理咨询机器人,帮用户避免与人类交流可能引发的焦虑感
- 麒麟信安入股超能机器人 或尝试打开新业绩增长点?公司最新回应来了
- 灿瑞科技:已有产品应用于消费级机器人领域
- 英伟达官宣AI聊天机器人,本地RTX显卡运行,这是要挑战OpenAI?
- 人形机器人企业暂时得救了
- Meta联合研发家务机器人,能在零人力帮助下自主整理房间
- 端到端纯视觉!OpenAI押注的人形机器人献艺拜年了
- 波士顿动力 Atlas 机器人能力升级,可灵活搬运汽车零件
热门排行
-
斯坦福家政机器人火了但又翻车了!多数是真人操控编排的
阅读量:167404
-
斯坦福团队发布新机器人Mobile Aloha,人形机器人将迎来产业元年?
阅读量:165704
-
我的同事是 GPT-4 机器人,我们在 Slack 上一起工作
阅读量:162431
-
谷歌起草“机器人宪法”,以确保 AI 机器人不会伤害人类
阅读量:160333
-
人形机器人崛起:OpenAI、微软洽谈投资Figure AI,望募资5亿美元
阅读量:104310
-
大疆回应停售青少年教育产品:将资源聚焦在大学生高校机器人赛事
阅读量:68788