展会信息港展会大全

什么是中文分词?有何作用?
来源:互联网   发布日期:2011-08-18 13:41:55   浏览:25410次  

导读:A5论坛,站长网旗下站长论坛,致力打造最大站长交流学习赚钱的专业平台;专业提供快速域名网站、链接买卖、程序源码、建站美工任务等交易中介服务平台。 ,A5论坛...

与英语、法语等印欧语系的语言的书面形式不同,中文文本中词与词之间没有分隔符。在中文自然语言处理 (Chinese Natural Language Processing)过程中,许多分析技术需要用到“词”的概念,需要在词的基础上处理,比如词性标注、语法分析、词义消歧、语义分析、自动文摘、文本分类、文本聚类、文本检索、搜索引擎、机器翻译等。可以说中文分词技术是中文信息处理的基石。词的正确切分是进行中文文本处理的必要条件。从二十世纪八十年代初,中文分词(也称中文自动分词)技术得到了重视,陆续有各种分词模型和软件提出。近年来,随着国民经济信息化的不断发展以及Internet的普及应用,在中文信息处理的广泛应用中,迫切要求实现汉语词典和语料库等中文信息的共享和复用,对自动分词技术的要求也越来越高。在信息产业需求的强大动力推动下,自动分词已经引起多方面的关注,目前已经有成熟的商业产品。

  中文分词与词性标注一般作为中文词法分析的部分,完成自然语言处理第一个阶段的处理,是上层处理的基础。中文分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,如“结合成分子时”这句话就有好几种切分方法:“结合/成分/子时”、“结/合成/分子/时”、“结合/成/分子/时”等。但是正确的只有一种,能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别。所谓未登录词是指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。词性标注的主要研究内容是兼类词的识别,兼类词是指具有多种词性的词。分词与词性标注可应用于各个自然语言处理和信息检索系统中。

  在中文自然语言处理 (Chinese Natural Language Processing)过程中,许多分析技术需要用到“词”的概念,需要在词的基础上处理,比如词性标注、语法分析、词义消歧、语义分析、自动文摘、文本分类、文本聚类、文本检索、搜索引擎、机器翻译等。可以说中文分词技术是中文信息处理的基石。词的正确切分是进行中文文本处理的必要条件。

赞助本站

相关内容
AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港