邹晓辉
狒狒
加入时间: 2005/10/30
文章: 437
来自: 珠海
邹晓辉 写道:
中国人工智能学会第十一届全国学术大会2005年8月25日录用论文
自然语言处理的总量控制模型
——形式化标准平台
摘要 除生物基因外,美国标准信息交换码(ASCII)是最成功的代码。如改进中文处理基本单元,国际统一代码(Unicode)将会更好。本文试图提供一个逻辑和数学上相对完备而堪称终极标准信息交换码(Z-ASCII)的基因文本数据库。那时就能更好地分析和解释各个中文处理单元的含义,同时,也不仅限于支持输入、输出、交换等固有的用法。基于Z-ASCII的中文处理单元的新用法是最简单且最有效的。中文与英文的区别相当大,对英文信息处理系统足够的ASCII,对中文信息处理系统却远远不够,因为,音节总量控制模型(GSCM)和文本总量控制模型(GTCM)在前者是一致的可在后者却不一致而需采用与GTCM相应的GB或Unicode——因其太粗放而没充分顾及汉语特点,要提高中文信息处理智能化水平还需基于Z-ASCII。
关键词 美国标准信息交换码 国际统一代码 音节总量控制模型 文本总量控制模型 终极标准信息交换码 间接形式化
1.引言
在过去几年,人工智能的研究取得了长足的进展[以中文信息处理为例:1,基于微型中文造字产生器的汉字基因芯片的产品化;2,电子辞典和计算机辅助翻译系统的产品越做越好,已有完全支持中文的计算机汇编语言(如:O语言)]。然而也还有很多重要的问题没有得到满意的解决[3,中文信息处理的基础研究薄弱(如:汉语语言学领域“各种本位说之争”和计算语言学领域“各种资源库之战”);4,GB与ASCII之间在信息处理效率上的巨大差距仍然存在,而Unicode汉字处理部分几乎仍沿用GB的作法;5, 汉语形式化困难重重,机器翻译的消歧难题依然存在]。有鉴于此[1][2][3][4],本文提出了一种形式化标准平台——自然语言处理(含;中文信息处理)的总量控制模型,即:音节总量控制模型(GSCM)和文本总量控制模型(GTCM)及其底层技术规范——终极标准信息交换码(Z-ASCII)[5][6][7][8]。
概述:本文属于自然语言处理与理解领域,涉及:机器翻译,复杂性,信息化与智能化。其应用,一方面,涉及:计算机辅助教育,如:计算机辅助汉语(英语、双语乃至多语)教学;另一方面,涉及:中文信息处理产品标准与产业发展,如:改进GB和Unicode中文信息处理基本结构单元的部分。特殊性:直接采用工程融智学8大系统工程实验的前沿科技成果[9][10],探讨长期困扰自然语言处理与理解和机器翻译,复杂性,信息化与智能化等领域的消歧难题[11][12]。重要性:为解决消岐[涉及:模式识别、语言理解、知识表达(典型实例:机器翻译)]的技术瓶颈提供理论模型、计算和操作的系统工程技术方法及底层技术规范。研究途径:1、梳理工程融智学前