导读:A5论坛,站长网旗下站长论坛,致力打造最大站长交流学习赚钱的专业平台;专业提供快速域名网站、链接买卖、程序源码、建站美工任务等交易中介服务平台。 ,A5论坛...
中文分词与词性标注一般作为中文词法分析的部分,完成自然语言处理第一个阶段的处理,是上层处理的基础。中文分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,如“结合成分子时”这句话就有好几种切分方法:“结合/成分/子时”、“结/合成/分子/时”、“结合/成/分子/时”等。但是正确的只有一种,能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别。所谓未登录词是指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。词性标注的主要研究内容是兼类词的识别,兼类词是指具有多种词性的词。分词与词性标注可应用于各个自然语言处理和信息检索系统中。
在中文自然语言处理 (Chinese Natural Language Processing)过程中,许多分析技术需要用到“词”的概念,需要在词的基础上处理,比如词性标注、语法分析、词义消歧、语义分析、自动文摘、文本分类、文本聚类、文本检索、搜索引擎、机器翻译等。可以说中文分词技术是中文信息处理的基石。词的正确切分是进行中文文本处理的必要条件。