什么是词性标注
在介绍词性标注前,首先需要先了解一下什么是词性。
我们知道,词类的划分其实是具有层次性的。如在汉语中,词可以分成实词和虚词,实词中又包括体词、谓词等,体词中又可以分出名词和代词等。
从组合和聚合关系来说,一个词类是指:在一个语言中,众多具有相同句法功能、能在同样的组合位置中出现的词,聚合在一起形成的范畴。
词性是语言学中的术语,是最普遍的语法的聚合。它是指在语言中以词本身的特点(语法特征、句法功能、形态变化等)、兼顾词汇意义等对词语进行划分分类的依据,词类即根据词性进行划分后的结果。
那什么是词性标注呢?词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。通俗地讲,就是对句子进行分词后,在句子中的分词后标上词的性质如名词(n)、动词(v)等等。
图:词性标注示例,来源于网络
词性标注是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术,也被称为语法标注、词类消疑。
图:词性标注示意,来源于网络
词性标注主要被应用于文本挖掘和NLP领域,是各类基于文本的机器学习任务(如语义分析、指代消解)的预处理步骤,是自然语言处理中一项非常重要的基础性工作。
中文词性标注的难点
在长时间对于词性标注的研究中,相关研究人员发现与英文相比,中文词性标注主要有以下几类难点:
1.缺乏直接判断的依据
汉语是一种缺乏词形态变化的语言,词的类别不能直接从词的形态变化上来判别。
2.常用词兼类现象严重。
在对现代汉语常用词的收取统计中,兼类词(即指一个词有两种或两种以上的词性,又称同词异类)所占的比例高达22.5%,且越是常用的词,不同的用法越多。
由于兼类使用程度高,兼类现象涉及汉语中大部分词类,因而造成在汉语文本中词类歧义排除的任务量巨大。
3.研究者主观原因造成的困难。
由于语言学界在词性划分的目的、标准等问题上还存在分歧,导致目前还没有一个统一能被广泛认可的汉语词类划分标准。
不同机构对词类划分的粒度和标记符号都不统一。词类划分标准和标记符号集的差异,以及分词规范的含混性,给中文信息处理带来了极大的困难。
词性标注的3种常用方法
词性标注在本质上是分类问题,即将语料库中的单词按词性分类。一个词的词性由其在所属语言的含义、形态和语法功能决定。词类不是闭合集,而是有兼词现象,因此词性标注与上下文有关。
关于词性标注的研究比较多,常见的有基于规则的词性标注方法、基于统计模型的词性标注方法、基于统计与规则相结合的词性标注方法等。
基于规则的词性标注方法
基于规则的词性标注方法是人们提出较早的一种词性标注方法,其基本思想是按兼类词搭配关系和上下文语境建造词类消歧规则。
早期的词类标注规则由人工构建。随着标注语料库规模的增大,可利用的资源也变得越来越多,这时候以人工提取规则的方法显然变得不现实,于是人们提出了基于机器学习的规则自动提出方法,如下图:
图:来源于网络
基于统计模型的词性标注方法
统计方法的核心思想是将词性标注看作一个序列标注问题,其核心是给定带有各自标注的词的序列,可以推定判断下一个词最可能的词性。
典型的基于统计的模型有隐马尔可夫模型(HMM)、条件随机域(CRF)等,这些模型可以使用有标记数据的大型语料库进行训练(有标记的数据则是指其中每一个词都分配了正确的词性标注的文本)。
基于统计与规则相结合的词性标注方法
这类方法的主要特点在于通过计算词被标注为所有词性的概率,来对统计标注的结果给出一个可信度,对于所有的语料先经过统计标注,对统计标注结果的筛选,然后对那些可信度小于阈值的统计标注结果,才进行人工校对和采用规则方法进行歧义消解,而不是对所有情况都既使用统计方法又使用规则方法。