计算语言学和自然语言信息处理研究和应用综述
目录
面向信息处理应用的语言研究
文本信息处理
语料库
语言知识库
基于语料库的语言分析方法
计算语言学和自然语言信息处理研究和应用综述
计算语言学的研究也像其他学科一样,有科学研究与技术研究两个层次。科学研究的目的是发现语言的内在规律、探索语言理解和生成的计算方法、建设语言信息处理的基础资源;而技术研究则借助应用目标来驱动,根据社会的实际需要,设计和开发实用的语言信息处理系统。
自然语言信息处理的应用目标是使人与计算机之间用自然语言进行交流。具体说,是建立各种处理自然语言的计算机应用软件系统,譬如:机器翻译、自然语言理解、语音自动识别与合成、文字自动识别、计算机辅助教学、信息检索、文本自动分类、自动文摘,还有文本中的信息提取、互联网上的智能搜索,以及各种电子词典和术语数据库。
作为《中国语言学年鉴》当中一个分支学科的内容,这里主要叙述的是语言信息处理领域里与语言研究直接有关的专题,或者叫作面向信息处理应用的语言研究。不包括语言计算处理方法的研究和以技术为主的工作,例如统计意义下的建模方法、机器学习的算法、文字识别与汉字输入技术,等等。
一种观点,认为在很多情况下,语义分析不一定必须经过句法分析。这篇文章根据
。这个理论建立了一个计算机可操作的符号体系,描述人类的语言概念空间。符号体系分成三个层面,第一是概念基元层面,对应自然语言的词语;第二方法。
用词汇手段实现,表示状态意义的语法形式具有多样性,加上汉语“复合态”的组合形式受严格的句法语义条件限制,所以在生成汉语“复合态”时,不宜象英语那样使用全循环递归的方法,而应使生成过程在有限受控的条件下进行。该文描述了根据汉语关系的分析问题。《并列结构的外部句法特征》为翻译单位可以解决一些以小句为翻译单位时不容易处理的问题,例如简缩称代和概指称事件的时刻,先对汉语时间短语进行分类,然后用形式化的方式表示时间短语的语义结构和上下文中的时间信息,再以此为基础提出一种
在面向语言工程和应用实践的研究中,歧义辨识也是一个重要问题,同时又是一个难题。语言学家对汉语歧义的研究主要涉及歧义分类、歧义成因、歧义格式、歧义界定、歧义分化、消歧手段、歧义指数等内容,希望找出人与人在交际过程中产生歧义的原因以及各种歧义的类型。语言信息处理需要在语言学家的研究成果的基础上,考察计算机在处理自然语言的过程中所遇到的歧义现象,分析与歧义现象有关的语法和语义问题。近年来有许多关于如何处理歧义问题的研究,它们大多从具体问题入手,主要是多义词的义项选择,歧义字段的切分,歧义格式的辨识等问题,目的是针对每种歧义结构提出消解歧义的对策。
语言资源主要指语料库和语言知识库(详见本文第四节)。关于语言资源建设的专题研究包括语料的标注、语料的分析和处理,以及用于语言资源建设的各种字表、词表和标准、规范。
对语料进行标注、分析和处理的目的,是更多地发掘出语料中蕴藏的语言知识。汉语语料库最基础的标注工作是词语切分,进而有词类标注、句法信息标注和语义信息标注。对于双语或多语语料库来说,还有另一项处理内容:语料对齐,即把不同语种的语料分别在段落、语句、短语、词等不同的层次上对齐。除此之外,一些语料处理的算法和技术也在研究之列,例如语句成分相似度的计算。
自动分词是我国较早开始研究的汉语信息处理技术之一[3]。在语料库的建设当中,自动分词方法得到了更深入的研究和实际的应用。自动分词系统一般需要以一个词表为基础做字符串匹配运算,匹配算法有
切分歧义有两种类型:交集型切分歧义和包孕型切分歧义。近年来人们围绕这两种歧义的识别和消解问题,进行了许多从形式描写到具体辨识的工作,有基于规则的方法(譬如:扩充转移网络、短语结构文法、有限状态自动机等),也有基于统计的方法(譬如:隐马尔夫模型、词性二元统计规律等)。通过实践人们逐渐形成了基本的共识,这就是歧义切分消解必须有充分的语言知识来支持。词频、词法、音节、语素性质、语法结构关系、语义甚至语用信息,都能够在歧义切分消解中起作用。消除歧义时分析的层次越深,计算机对语言知识的质量和规模的要求就越高。
词性自动标注是在自动分词的基础上,根据带有词类信息的词典,给切分出来的词语标上词类标记,标注中的主要问题是如何辨别兼类词,目前大多采用基于统计的方法处理。和自动分词一样,即使是用统计方法,词性自动标注也需要足够的语言知识来支持,分析的层次越深,对语言知识的质量和规模的要求就越高。
本来自动分词和词性标注是汉语分析和理解过程的起始阶段,应该为下一步的句法和语义分析提供初始信息。但是它们又需要某些句法和语义知识的支持才能得以完成。这样一来,自动分词反倒需要依靠句法和语义分析的某些结果作为条件了。这种“循环论证”产生的原因,是我们在用一种机械的过程来模拟人的语言过程,这种机械的模拟距离人类真正的语言过程还很遥远,也过于肤浅,而且目前的研究水平也无法让我们在这个问题上有质的进展,因此汉语的自动分词和词性自动标注这样一个看似基础和简单的问题,在短时间内还不能取得经得起考验、并得到广泛认同的结果。
分词和词类信息是语料的基本标注内容。除此之外,语料标注的内容还有表示语句结构关系的短语(也叫语块)标记和句法标记,以及表示词语义类和词语之间语义关系的语义标记。带有这些标记的语料库称为语块库、句法树库、语义标注库等。这些标注实际上是对语句进行短语分析、句法分析或语义分析的结果,因此标注的过程本身就是语言分析的过程。譬如语块的分析和标注,语块是具有一定句法功能的基本短语,介于词语和句子之间。语块的标注要解决切分分析和关系分析两个问题,前者是在句子中把各种语块找出来,例如主语语块、述语语块、宾语语块、兼语语块、状语语块、补语语块、独立语块等;后者是弄清每个语块内部的结构层次和结构关系,并加上标记。经过这样处理的语块汇集在一起,成为语块库。在此基础上应用机器学习的方法,提取有用的识别特征,训练形成有效的统计语言模型,用于基本短语的自动识别、动词搭配知识的获取和浅层句法分析等方面的研究。
近几年国内在汉语句法标注语料库开发、自动句法分析和语言知识获取方面主要有以下研究和进展:提出了包括基本短语、的功能的句法树库;对汉语句法规则和词语搭配知识获取以及句法分析器进行了探索。目前见到的研究报告多数是关于数据资源的建设问题,相比之下,语言学方法和计算方法的报道还比较少。
)对单字词有几类具体的定义。整个词表由七个分库组成:普通词库、带字母词库、专名库、常用接续库、成语库、俗语库、单字词库。其中普通词库只收语言学规则认可的词。普通词库、专名库和常用、计算各种统计数据、依据定性和定量的原则逐个确定入选词,到用人工分词的语料库进行词表覆盖率检验,最终得到总词数为
个基本词类:名词、数词、量词、形容词、动词、副词、代词、介词、连词、助词、叹词、拟声词、习用语、简称和略语、前接成分、后接成分、语素字、非语素字、其他。每个大类下面又有次类和小类。为了适应语言信息处理的需要,《词类标记集》中的符号不仅要覆盖语言学意义上的词,还要覆盖比词小的单位(如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等),以及比词大的单位(如成语、习用语、简称、略语、标点符号、非汉字符号等)。多年以来,用于信息处理系统的汉语词类标记体系有多种设计方案,在分类的依据、类别的数目和术语的使用等方面各不相同。《词类标记集》的制定,是为了使各种汉语信息处理系统能够在基本共识的前提下,使用比较统一的词类标记符号体系,便于学术交流和数据交换。
)。前者是先依据某种语言理论建立语言模型,再从语言模型构造规则系统,所以也叫基于规则的方法。后者是在调查和分析大规模语料的基础上,用统计学的方法处理自然语言,也叫作基于语料库的方法。
多年来在计算语言学和自然语言处理的研究中,理解和生成语句的必经之路是句法分析和语义分析。因此在很长一段时间里,许多语言处理系统都是基于规则的。建立这样的系统,从整体构架到具体的处理技术,语言学的研究都是必不可少的基础。基于规则的方法最早应用在机器翻译当中,被证明在一定范围内是相当有效的。随着研究的深入和应用目标的发展,人们逐渐发现,实际上很难用规则的形式把各种语言事实和理解语言所需要的背景知识充分地表达出来。所以,基于规则的自然语言处理系统往往只能在极其受限的某些语言环境中获得一定的成功。
),语言知识的学习和获取,各种语言统计模型的建立、语言成分相似度的计算,等等。语料库方法的优点是可以使语言现象数量化,这非常适合计算。目前的研究大致可以分为两类:一是基于简单相关统计的方法,也可以称为语言资源性分析;二是在统计意义下的建模方法,这涉及机器学习的算法问题。经过几年的研究和实践,人们也开始对统计语言模型本身进行分析和再认识,提出了适用的统计模型与统计模型的适用范围、统计量的繁与简、统计对象的升华、多统计量的结合等问题。
基于语料库的方法当然也有自己的局限性。在人们对语言的机制还缺乏系统了解,还没有一种适合信息处理的语言理论可以应用的时候,经验主义实际上是一种依靠“量”来获取“质”的策略。也就是说,它认为大量语言现象的统计规律能够确切地反映语言的结构规律和言语过程的认知规律。而实际上这还是有待证明的观点。我们还不能从语言学的角度解释所采用的统计方法和语言模型,说明统计数据的语言学意义。统计语言模型需要建立在语言学知识的基础上,一个语言模型能否达到比较好的处理效果,很大程度上取决于我们能为它提供什么样的语言学知识作为参数。目前统计语言模型方法在机器翻译系统中效果不佳,其主要原因应该不是模型本身的计算能力有限,而是能够提供给模型的关于机器翻译的知识太少。我们目前的基础研究还没有发掘出足够的语言学知识,或者是还没有把这些知识系统地、结构化地组织起来。这一点对基于规则的方法来说,同样也是亟待解决的问题。
三 应用性的研究和实用系统的研制
机器翻译是我国最早开始研究的自然语言处理应用系统,已经走过了近半个世纪的历程。近年来在吸收国外研究成果和技术的同时,结合中文信息处理的实际,在专题研究和实用系统开发等方面都有新的进展。
计算语言翻译概率模型的参数,根据翻译模型完成翻译过程。后者也要建立大规模的双语语料库,分别存放各种翻译单元的大量实例及其对应的译文,翻译时,系统先在语料库中寻找与源语翻译单元类似的实例,然后模仿实例从源语的翻译单元构造目标语的译文。多年来基于规则的方法一直是我国机器翻译研究的主流。九十年代以后,基于语料库的方法开始得到重视,建立了用于机器翻译的双语语料库,进行了基于语料统计或基于实例类比的机器翻译实验。
机器翻译是自然语言信息处理中最复杂的领域,翻译过程中的每个环节都有许多难以处理的问题。这是由于人类自然语言受很多因素的影响,这些因素之间又相互交织,使得翻译系统的研制既涉及语言学的研究,也与其他领域的知识有关。如果只采用单一的翻译策略,不管是基于规则,还是基于语料库,都只能解决一部分问题。因此,把两种方法结合起来应该是一种可取的思路。近年来,如何在同一个系统里融合基于规则和基于语料库的多种机器翻译方法和技术,成为机器翻译研究和开发的一种发展趋势。已经有基于规则的机器翻译系统吸收了实例类比的方法,提出了一种交互式的、混合策略的辅助翻译系统的设计方案[9]。这种系统采用多种翻译处理策略,包括规则分析、类比推理、统计分析,用面向对象的多类型数据库来管理翻译所需的各种信息,并且提供人机交互接口,实现人工对翻译结果的干预。
机器翻译中的专题研究
一个机器翻译系统至少要涉及自然语言的两个语种,既要分析源语言,又要生成目标语言,还可能需要处理两种语言的对比差异。因此机器翻译十分需要语言学研究的支持,需要结合机器翻译应用的实际,研究语法、语义等问题。前些年机器翻译学者对语言问题的研究大多针对外汉翻译系统中的源语言,如:英语、日语等。近几年对汉语的研究逐渐增多,涉及的问题有:汉语时间短语的分析与时制计算[9]、汉语并列结构的识别[9]、汉语动结式的分析[9]、汉语离合词的分析[9]等。歧义和多义的辨别一直是机器翻译的研究重点,近几年对机器翻译中的句法结构歧义、语义关系歧义、指代关系歧义和词义多义等问题也都分别开展了研究。歧义和多义问题的解决,关键在于使源语分析达到足够的深度,这就需要词典提供尽可能全面的信息,另外还要求翻译系统采用的语法体系具有上下文相关分析和处理的能力,这是机器翻译中最难解决的问题之一。
机器翻译的另一类专题研究是知识处理问题,主要有以下几项内容。第一项是机器翻译所需的知识及其形式化表示。机器翻译需要的首先是语言学知识,包括词法知识、语法知识、和词汇信息,除此之外还需要日常知识、社会、文化、历史背景知识和各种专门领域的知识。所有这些不同类型的知识要在计算机中用统一的方式表示出来,并且可以进行有效的操作。第二项是知识的获取问题,指用计算机辅助人来总结、归纳机器翻译所需要的知识,用规范的格式表示获取的知识,自动检测新知识与原有知识的一致性,并且能够根据译文校正的反馈信息使已有的知识不断完善。第三项是知识的管理和维护问题,要随着知识数量的增加,发现隐含、冗余、非一致性、非完全性等问题,对知识库进行调整和优化,提高信息的有效性。
算法设计和软件实现是机器翻译的又一类专题研究,主要包括词法分析算法的设计和实现、句法分析器的设计和实现、转换与生成算法的设计和实现,以及用户环境的设计和实现。算法和软件使语言学理论和语言模型在计算机上得以实现,它们能够支持机器翻译规则的操作,检验理论和方法的可行性,促进与机器翻译有关的语言研究。
机器翻译研究的最终目标是提供高质量的实用翻译系统,因此研制应用型的系统始终是机器翻译领域的主流工作。在我国研制的系统中,参与翻译的语言对大多是英汉和汉英。尤其是英译汉系统,投入的力量最多,实用的机器翻译产品也大多是英汉翻译系统。九十年代前期曾经出现了数家机器翻译系统同现市场,用户的期望值被商业化行为提得过高的现象。到了九十年代末,能够继续留在市场上的系统已经不多了。人们也逐渐用更客观和科学的态度对待机器翻译系统的翻译能力和应用目标,认识到机器翻译实际上还是一个不成熟的研究领域。近年来,研究人员根据机器翻译的难点、现有的研制水平和技术发展的可行性,提出了以下几个观点,试图为机器翻译系统的应用定位[9][28]:
(1)
(2) 使机器翻译系统受限。所谓受限,一方面指特定的用户(如某个公司),另一方面指特定的待翻译文本(如天气预报、产品技术手册等)。这样能够使系统的词典、规则和实例更有针对性,减少翻译中的各种歧义。
(3) 在翻译过程中采用人机交互的方式。包括译前编辑、翻译过程中的提问和人工干预、以及译后编辑等。
(4) 把机器翻译的阶段性结果与语言信息处理的其他应用目标结合起来。譬如跨语言的文本信息检索和信息提取。
下的实时浏览翻译,也有以多种文字处理软件(如写字板、记事本及
对汉英翻译系统的投入比较多、研究逐步深入,是这几年机器翻译系统开发中的一个特点。把汉语翻译成英语,首先遇到的问题就是汉语的分析和理解。目前适用于信息处理的语言理论和方法多以印欧语言为目标,应用它们处理汉语时会遇到很多问题和困难。汉语语句的语序灵活,结构简练却寓意丰富,计算机作自动分析的时候缺少形式上的依据。因此,汉英机器翻译一直被认为是一块难啃的骨头。近几年越来越多的汉语语法学者开始从信息处理的角度研究汉语,语言信息处理领域的学者也从应用实际出发研究汉语的词语切分、句法分析、歧义辨识等问题。这些工作为汉英机器翻译系统的开发打下了基础。目前推出的应用型汉英系统,虽然译文质量还不能令人满意,但是可以看出已经做了不少扎实的工作。除此之外,还有几个正在研制的汉英系统和针对汉英机器翻译进行的专题研究。
近几年涉及中国少数民族语言的机器翻译研究和开发工作也有一定进展,已有
文本信息处理
文本信息处理系统可以帮助人们在大量的文献资料中迅速获得所需要的信息。其中信息检索、信息提取、信息过滤和文本分类成为近几年投入研究最多的文本信息处理应用技术。目前的文本信息处理系统大多采用统计语言模型和语言浅层分析规则的策略,这样就避开了自然语言理解当中难以解决的问题,把一些相对成熟的语言分析技术应用到语言工程当中。所以比起机器翻译来,文本信息处理虽然起步要晚许多年,却取得了快得多的研究进展和应用效果。
早期的文本信息检索(Information Retrieval,简称IR)系统是基于自由关键字和布尔模型的,语言处理技术的含量不高,虽然实用,但检索效果并不很理想。近年发展起来的基于自然语言处理的文本检索技术,已经达到了能够处理大规模开放文本的实用程度。其中采用的语言处理技术有:自动分词,词频统计,识别“有效词”和“停用词”,识别复合短语、专有名词和未定义词,在此基础上用概率统计的方法计算文本的类别特征值,判断检索结果的相关程度。与此同时,文本自动分类和自动文摘技术也被引入到检索系统里,以提高检索的效率和准确度。特别值得注意的是,文本信息检索与机器翻译结合,形成了跨语言信息检索(Cross-language IR)的研究方向,即用某一种语言提出检索要求,计算机在其他语种的文本中检索,再把得到的检索结果翻译成用户指定的语种。
文本信息提取(Information Extraction,简称IE)与文本信息检索的不同之处是,它的目标不是提供用户感兴趣的文档,而是提供结构化的信息,譬如数据库。因此,文本信息提取系统要在更多的自然语言处理技术支持下,把需要的信息从文本中提取出来,再用某种结构化的形式组织起来,提供给用户(人或计算机系统)使用。信息提取技术一般被分解为五个层次:第一是识别专有名词(Named Entity),主要是人名、地名、机构名、货币等名词性条目,以及日期、时间、数字、邮件地址等信息的识别和分类;第二是模板要素(Template Element),即应用模板的方法搜索和识别名词性条目的相关信息,这时要处理的通常是一元关系。第三是模板关系(Template Relation),即应用模板的方法搜索和识别专有名词与专有名词之间的关系,此时处理的通常是二元关系。第四是同指关系(Co-reference),要解决文本中的代词指称问题。第五是脚本模板(Scenario Template),是根据应用目标定义任务框架,用于特定领域的信息识别和组织。
语言自动分析的研究是信息提取技术的基础。在现有的自然语言处理技术中,从词汇分析、浅层句法分析、语义分析,到同指分析、概念结构、语用过滤,都可以应用在信息提取系统中。譬如,对专有名词的提取大多采用词汇分析和浅层句法分析技术;识别句型(如SVO)或条目之间的关系需要语义分析和同指分析;概念分析和语用过滤可以用来处理事件框架内部有关信息的关联和整合。随着对语言的分析逐渐深入,对信息的发掘由浅到深,信息提取的实际应用也从改进搜索引擎、自动问答系统到各种信息的图示化表达(Visualization),逐渐增多。
信息过滤是根据用户的需求用计算机从动态变化的信息流中自动检索出符合要求的信息,多用于互联网上的信息内容安全领域(如根据某种有害信息的特征描述,甄别或截流符合这些特征的网页)。文本分类是在给定的分类体系下,利用计算机根据某种特征对文本的内容进行划分和聚类,自动判别文本的类别。它们大多采用统计语言模型的方法,统计的对象包括词汇、语义信息,词语搭配信息和词语共现信息等。
国际上文本信息处理领域有一个最具权威性的评测会议:每年一次由美国国家标准技术局和美国国防高级研究计划局组织的文本检索国际标准评测会议(TREC)。它不仅提供了含有规范的大规模语料的标准文档库,还提出了一套比较科学的测试评价方法,其评测项目也代表了新的研究方向。如2002年的评测项目包括:跨语言检索、文本过滤、交互检索、网页检索、新信息抽取、问题回答和视频检索。中国近几年每年都高校和科研机构参加评测,在文本信息检索、自适应文本过滤和新信息抽取等项目中多次取得很好的名次。
在自然语言信息处理领域,语言资源指的是语料库和语言知识库。前者收录原始的语言材料,后者收录的是反映语言内部结构规律和言语过程认知规律的知识。1998年-2002年期间,国内有许多科研力量投入了这两类项目中。
语料库
经过科学选材、具有适当规模的语料库能够反映和记录语言的实际使用情况,为语言学研究和应用提供统计数据和各种语言材料。譬如词典编纂,以往收词、立项、释义依靠的主要是编者的语言学知识和语感,语料库的支持将使这种内省和定性分析的方式与实证和定量分析的方式结合起来,这不仅是词典编纂手段的进步,也能够促进词典学的发展。
对于计算语言学基于统计的研究方法来说,语料库的建设更是不可缺少的基础。目前我国已有多个百万字以上容量的汉语语料库和双语语料库(多为英语和汉语),用于语言信息处理的各种研究和应用目的:汉字识别、智能汉字输入、文本自动分类、汉语自动分词、汉语人名地名自动识别、汉语关联词语自动识别、词语多义辨识、句法语义分析、机器翻译,等等。其中比较有代表性的是《人民日报》标注语料库。这个语料库加工的项目有词语切分和词性标注,还有专有名词(人名、地名、团体机构名称等)标注、[28][29]。在选材方面更有普遍意义和代表性的是平衡语料库。目前国内具有相当规模、并且经过规范化标注的平衡语料库还不多,现有的都还未超过百万字级。国家语委主持的《现代汉语通用语料库》有7千万字生语料,从2001年开始对其1千万字的核心语料进行标注加工。还有一些面向特定研究目标的专用语料库也在建设之中。
,还标注它