有关有序HASH树SDK请参考以下网址
[url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url]
作者联系方式:
e-mail:[email]freeland007@163.com[/email]
QQ: 723273055
1.1 基于词典中文分词介绍
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配。常用的两种分词方法如下:
(1)正向最大匹配。
正向最大匹配法目的是将最长的词分离出来,例如从文本的开始位置在词典中匹配出最长的词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:
“中华人民共和国万岁”,首先分出“中华人民共和国“这个词,而不是更短的”中华“、”中华人民“,然后解析出”万岁“这个词,依次类推解析出文本中的所有出现在词典中的词。
(2)逆向最大匹配。
逆向最大匹配法的基本原理和正向最大匹配法相同,不同的是分词切分的方向与正向最大匹配法相反,并且使用的分词词典也不同。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。
(3)最多匹配。
从文本中解析出所有的词,包括最长、最短以及其他所有出现在置在词典中词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:
“中华人民共和国万岁”,可以解析出:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。
基于有序HASH树可以开发出正向匹配分词、反向匹配分词;支持最大匹配、最小匹配、最多匹配。
1.2 功能实现原理
基于有序HASH树进行关键词的实现原理是把前缀匹配规则插入到有序HASH树
中,然后使用SDK中的反向模糊匹配函数输入文本进行模糊匹配,即可返回
中文分词(基于有序HASH
来源:互联网 发布日期:2011-08-29 22:13:36 浏览:21448次
导读: 有关有序HASH树SDK请参考以下网址 [url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url] 作者联系方式: e-mail:[email]freeland007@163.com[/email] QQ: 723273055 1.1 基于词典中文分词介绍 这种方法又叫做...
下一篇:CRF中文分词开源版 1.0
相关内容
- 特别策划 | DeepSeek浪潮下,人类与AI如何共生、共存?
- 大模型“注意力简史”:与两位AI研究者从DeepSeek、Kimi最新改进聊起
- 范先群:在人工智能时代培养更多医工交叉领军人才
- 国产 AI 大模型加速迭代,厂商迈向开源、集聚化
- 国泰君安:AI模型加速进化,国产半导体突破在即
- 中国的AI技术为何突然崛起?陈果:因为社会需求被激发了
- DeepSeek发布开源第一弹!让大模型在GPU上跑得更快
- AI成最强赛道,半导体何去何从?
- AI跨界发展,人才需求能否跟上
- OpenAI 最新研究:当前 AI 模型仍无法媲美人类程序员
- OpenAI发布最具“情商”的GPT-4.5,奥特曼:已耗尽GPU资源,将在下周增加数万块
- AI 新突破:扭矩聚类算法无需人工标注、自主学习准确率高达97.7%
- 重庆瞭望丨万物皆可“AI”吗?
- DeepSeek将尽快推出R2人工智能模型 机构看好AI应用加速爆发
- DeepSeek爆火:AI赛道的一次“非典型突围”
- 奥尔特曼坦诚 OpenAI 急缺 GPU,GPT-4.5 只能分阶段推出
- DeepSeek加码开源,清华浙大缘何成中国AI关键力量
- 马光远:中国在人工智能产业应用方面遥遥领先
- 下周大模型诸神混战!DeepSeek和美国巨头对打,OpenAI CEO喜当爹
- AI.com域名要价1亿美元,目前仍指向DeepSeek
AiLab云推荐

最新资讯
- AI.com域名要价1亿美元,目前仍指向DeepSeek
- 马斯克:AI毁灭人类的风险为20%,未来结果更可能“超级棒”
- 大模型“注意力简史”:与两位AI研究者从DeepSeek、Kimi最新改进聊起
- 范先群:在人工智能时代培养更多医工交叉领军人才
- OpenAI推出下一代通用大型语言模型GPT-4.5
- GPT-4.5 重磅发布!OpenAI 最大最贵模型,没把 DeepSeek 当对手
- OpenAI发布最具“情商”的GPT-4.5,奥特曼:已耗尽GPU资源,将在下周增加数万块
- OpenAI推出新模型GPT-4.5,仍面临成本挑战
- 多邻国预测年收入超华尔街预期,人工智能订阅服务将获广泛采用
- OpenAI“高情商”模型GPT-4.5发布,定价高过GPT-4o
本月热点
- DeepSeek风暴席卷AI产业链
- 刷屏的DeepSeek-V3能力到底如何?自称ChatGPT 真相或指向“AI污染”
- 中国大模型“搅动”硅谷,巨头恐慌,大佬发声:中国AI已追上美国
- 北京智源发布2025年AI十大趋势:世界模型有望成多模态大模型下一步
- DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平,成本降至1/30
- 人工智能热度再起,AI技术全面渗透是大势所趋
- Transformer作者初创重磅发布Transformer²!AI模型活了,动态调整自己权重
- 每年 CES 都在产生共识,今年的共识是「端侧 AI」
- 2024硅谷AI年度总结:从英伟达到OpenAI,这一年都发生了什么?
- 为超越 OpenAI GPT-4,Meta 不惜使用争议数据训练 Llama 3
热门排行
-
机构看衰、专家批评项目艰难,大语言模型会不会成为即将破碎的AI泡沫?
阅读量:7337
-
人工智能对材料科学研究有哪些深远影响?谢建新院士分享
阅读量:6489
-
这个会议一天提及AI 500次,最后的结论是什么?
阅读量:6287
-
OpenAI 罕见开源!低调发布的新研究,一出来就被碰瓷
阅读量:6061
-
AI攻占诺奖背后:新的技术革命成为社会进步发展的重要引擎
阅读量:5400
-
机构看衰、专家批评项目艰难,大语言模型会不会成为即将破碎的AI泡沫?
阅读量:5300
推荐内容
- 2025年第33届中国华东进出口商品交易会(上海华交会)
- 2025第十五届中国(郑州)塑料产业博览会(AllinPlas)
- 2025第二十届中国(临沂)小商品博览会
- 2025年加拿大多伦多矿业展PDAC
- 2025北方国际电机技术与节能科技展览会
- 2025第三十届届华南国际口腔展览会
- 2025CME第10届上海国际机床展(华机展)
- 2025第14届国际生物发酵展(济南展)(BIO)
- 2025中国(山东)国际工业节能技术与装备博览会
- 2025北方国际膜工业大会暨膜工业技术产品展览会
- 2025第十五届杭州网红直播电商及私域团购选品博览会
- 2025第十五届杭州全球新电商博览会
- 2025济南药交会
- 2025广州国际护肤用品展览会(迎河个护展 PCE)
- 2025第三十一届中国国际包装工业展览会(中国国际包装工业展 Sino-Pack 2025)
- 2025第三十一届华南国际印刷工业展览会(printing south china)
- 第九届广州国际氢科技产业博览会
- 2025第三十二届上海国际广告技术设备展览会(上海国际广印展 APPP EXPO)
- 2025 年日本国际照明LED 展览会