传统的语言研究是为语言教学、文献整理、社会历史研究服务的。这样的研究完全是面向人的,这样的研究搞了近两千年,已经取得了可观的成绩。
电子计算机出现以来,人与计算机之间要进行信息的传输和交流,因此,除了继续进行面向人的语言研究之外,还要开展面向计算机的语言研究。学者们开始采用计算机技术来研究和处理自然语言,在计算机上建立各种自然语言处理系统。
面向计算机的语言的研究是本世纪五十年代才开始的,四十年来,这项研究取得了长足的进展,成为了一门重要的新兴学科--自然语言处理。
计算机对自然语言的研究和处理,一般应经过如下三个方面的过程:
第一,把需要研究的问题在语言学上加以形式化(linguistic formalism),使之能以一定的数学形式,严密而规整地表示出来;
第二,把这种严密而规整的数学形式表示为算法(algorithm),使之在计算上形式化(computational formalism);
第三,根据算法编写计算机程序,使之在计算机上加以实现(computer implementation)。
因此,为了研究自然语言处理,我们不仅要有语言学方面的知识,而且,还要有数学和计算机科学方面的知识,这样自然语言处理就成为了一门界乎于语言学、数学和计算机科学之间的边缘性的交叉学科,它同时涉及到文科、理科和工科三大领域。
面向计算机的语言研究首先是从机器翻译系统的研究开始的。1946年电子计算机刚一问世,人们在把计算机广泛地应用于数值运算的同时,也想到了利用计算机把一种或几种语言翻译成另外一种语言或另外几种语言。从50年代初期到60年代中期,机器翻译一直是自然语言处理系统研究的中心课题,当时采用的主要是“词对词”翻译方式,这种不是建立在对自然语言理解的基础上的简单技术,没有得到预期的翻译效果。60年代中期,人们开始转入对自然语言的语法、语义和语用等基本问题的研究,并尝试着让计算机来理解自然语言。许多学者认为,断定计算机是否理解了自然语言的最直观的方法,就是让人们同计算机对话,如果计算机对人用自然语言提出的问题能作出回答,就证明计算机已经理解了自然语言,这样,就出现了“人机对话”系统(或“自然语言理解”系统)的研究。自然语言处理的理论和方法也就在这些具体的研究中逐渐形成、成熟并完善起来。
机器翻译系统的研究是面向计算机语言研究的一个历史悠久的部门。
关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。当时,人们曾经试图设计出一种理想化的语言来代替种类繁多形式各异的自然语言,以利于在不同民族的人们之间进行思想交流。曾提出过不少方案,其中一些方案就已经考虑到了如何用机械手段来分析语言的问题。
本世纪三十年代之初,法国科学家阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法。
1933年,苏联发明家特洛扬斯基(П.П.ТРОЯНСКИЙ)设计了用机械方法把一种语言翻译为另一种语言的机器,并在同年9月5日登记了他的发明。但是,由于三十年代的技术水平还很低,特洛扬斯基的翻译机没有制成。
机器翻译系统的研制是从四十年代末期开始的。可以分为草创期、复苏期、发展期三个时期。
(1)草创期(1954年-1970年):
1946年,美国宾夕法尼亚大学的埃克特(J. P. Eckert)和莫希莱(J.W.Mauchly)
设计并制造出了世界上第一台电子计算机ENIAC,电子计算机惊人的运算速度,启示着人们考虑翻译技术的革新问题。因此,在电子计算机问世的同一年,英国工程师布斯(A.D.Booth)和美国工程师韦弗(W.Weaver)在讨论电子计算机的应用范围时,就提出了利用计算机进行语言自动翻译的想法。1949年,韦弗发表了一份以《翻译