写在第四届HNC与语言学研究学术研讨会举行之际
新华网北京11月14日电(记者隋笑飞)2009年11月14日——15日,第四届HNC与语言学研究学术研讨会在京举行。100多位有关人士围绕HNC的方方面面进行探讨。与会人士普遍认为,我国中文信息处理技术正加速前行。
多年潜行以期收获未来
如果说,上世纪80年代围绕汉字计算机处理问题的技术解决促进了中国与世界的对接,那么在互联网时代,围绕中文信息处理技术的突破,将有可能推动我国信息产业走向新的繁荣。
发端于上世纪90年代初的HNC(概念层次网络)理论,是中文信息处理技术的一大流派,由中科院声学所黄曾阳研究员创立。
这一流派提出了计算机对中文的处理应该以对语言模糊的消解能力为第一标准。相对于西方计算语言学界源于图灵标准而采用的句法分析和语义分析,中国成体系地从语言学和计算机角度形成较为完善的基础理论。
多年来,HNC一路潜行,在并不张扬的表象下,取得了比较迅速的发展。两年一度的HNC研讨会,至今已经办了四届,会议规模也逐渐变大。
面对互联网应用的无限可能性,北京大正语言知识处理科技有限公司董事长陈小盟介绍说,本届会议除了学术研讨之外,还将就科研院所与企业间合作的机制问题,理论面向应用的进展和成果等方面展开深入交流。
互联网浪潮作为中国信息产业发展的关注点,多年来一直未能在中文处理技术上取得突破,这抑制了中文信息产业的发展步伐。而脱离基础技术的应用尽管踊跃展现,却不得不面临模仿和受制于人的局面。中国亟需选择未来中文信息处理技术的发展方向和实施路径。
本次研讨会的举行,与会的有关人士将围绕诸多主题进行探讨,以期收获未来。
HNC理论的创新和突破
在信息技术领域,以西方语言形态建立起来的计算机标记,对汉语而言是天然屏障,这使得至今大量的应用依然无法摆脱关键词处理的窠臼。
解决这一问题的难度不小。首先是汉语语法灵活,其次是汉语语义灵活。
HNC则是在深入挖掘汉语特点的基础上,以意义表达和语言理解为主线,建立了一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式。
据介绍,这一模式首先将人类的语言表述形式分为陈述句和疑问句,陈述句又分为肯定句和疑问句,疑问句又分为3大类问句并延伸出100多种问句形式。在此基础上,HNC又进一步浓缩了句类的处理模式,并与之对应建立了国内规模最大的语意知识库及核心算法。
同时,HNC对自然语言理解的“理解”有比较恰当的定位。中国人民大学语言文化学院林杏光教授认为,HNC对“理解”定位于三种能力:预期能力、联想能力、消解语言五重或三重模糊的能力,将三种能力作为计算机理解语言初级阶段的标准,是一个重要的创新。
&