分词中的难题 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。 1、歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。 交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。 2、新词识别 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词? 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。 中文分词的应用 目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。 分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。
中文搜索引擎技术揭密:中文分词
来源:互联网 发布日期:2011-08-17 22:59:30 浏览:18233次
相关内容
AiLab云推荐
最新资讯
本月热点
- 从数字化到智能化,探访中国首个五星5G工厂 中兴通讯副总裁陆平:5G革新了生产方式
- 苹果自研5G基带细节曝光:3年3款芯片,全面替代高通
- 5G网络:向未来演进,开启全面智能新时代
- 爱立信详解5G发展瓶颈应对之法:从差异化到平台化
- 天翼智库饶少阳:AI+5G融合助推高阶广泛智能落地
- 中国科学院院士尹浩:5G商用遍布全球,仍需解决安全保障问题
- 5G规模化应用时间表确定 5G-A支撑低空经济加速落地 通信业增长空间进一步打开|行业观察
- 中国广电曾庆军:5G NR广播扩展到卫星覆盖,国产芯片的车载音视频系统等均可预载功能
- 千亿规模!2024年运营商集采大盘点:5G建设集采仍占“大半壁江山”
- 爱立信:5G需向能力开放,差异化连接寻求突破
热门排行
-
如何买到便宜大碗的 5G 套餐?聊聊你也许不知道的 CPE、MiFi 和物联卡
阅读量:4300
-
5G-A商用加速:北京运营商齐发力,创新应用场景欣欣向荣
阅读量:4234
-
美版苹果 iPhone 16 Pro 实测:5G下载超400 Mbps、平均增幅23.7%
阅读量:3493
-
消息称国内“通信大厂开始搞 5G SOC”
阅读量:3276
-
精彩回顾 | 5G-A与AI融合产业论坛行业大咖观点
阅读量:3255
-
爱立信中国区总裁方迎:5G发展仍面临两大挑战,“新质网络”将创造“新质价值”
阅读量:2455