展会信息港展会大全

中文自然语言理解中基于条件随机场理论的词法分析研究
来源:互联网   发布日期:2011-09-07 15:49:04   浏览:16332次  

导读: 【作者】; 【导师】; 【作者基本信息】上海交通大学,电路与系统,2009,博士 【摘要】 随着计算机技术的不断发展和互联网的广泛普及,人们迫切需要一种自然、便捷的方式与计算机交流,使计算机能够“听懂”人类的语言。语音识别就是实现这种人机交互界面的...

【作者】 ;

【导师】 ;

【作者基本信息】 上海交通大学, 电路与系统, 2009, 博士

【摘要】 随着计算机技术的不断发展和互联网的广泛普及,人们迫切需要一种自然、便捷的方式与计算机交流,使计算机能够“听懂”人类的语言。语音识别就是实现这种人机交互界面的关键技术,统计语言模型作为当前连续语音识别技术的基石之一,离不开自然语言处理技术的支持。对于中文来说,中文词法分析是中文信息处理技术的基础和关键,它直接关系到后续的句法分析和语义理解,并最终影响到实际的应用系统。因此,它一直是目前中文信息处理研究领域的一个热点和难点。本文系统地介绍了条件随机场(Conditional Random Fields,CRFs)模型及其在中文词法分析领域的应用,分析了目前主流的条件随机场模型训练准则和参数优化方法。然后以中文词法分析为应用背景,从区分性原理的角度研究了条件随机场训练准则,提出了基于条件随机场模型的交集型歧义消解方法,讨论了特定领域中的新词提取和词典优化算法,为中文词法分析的研究提供了新的方法和思路。最后简要阐述了中文词法研究在汉语语音识别中的应用。首先,本文研究了条件随机场模型区分性训练准则。目前,条件随机场模型的参数训练准则主要是基于最大似然/最大后验概率,其训练的目标是使训练语料中正确标注序列的概率最大。而以此目标建立的模型并不能保证在实际的测试环境中可以找到最佳的标注序列,从而获得较高的标注正确率。故目前的训练准则与序列标注性能评价指标之间存在着不匹配的情况。针对这一问题,本文提出了一种新的区分性训练准则—最小标注错误(Minimum Tag Error,MTE)。该准则在每条候选路径中加入该条路径相对于参考路径的正确率权重,以训练语料平均正确率最大化为目标函数。为了有效地计算平均正确度,本文还提出了一种新的前-后向算法,推导了正确率期望求解方法。实验表明,该准则不仅使切分指标的F-score值略有上升,而且使词表外(OutOf Vocabulary,OOV)词的召回率显著提高,即该准则在未知词识别的能力上具有明显的优势。同时,该准则在命名实体识别方面的性能也获得了较大的提升。其次,针对条件随机场等概率图模型不具备支持向量机(Support Vector Machine,SVM)那样良好的泛化能力,本文借鉴大间隔原理,提出了类似于大间隔思想的区分性条件随机场训练方法—增强型条件随机场(Boosted Conditional RandomFields,BCRF)。该方法不仅继承了传统CRFs凸函数的特性,保证了全局最优解,而且也融合了大间隔模型所具有的泛化能力,其内涵可理解为在正确标注序列和候选序列之间加入了一个“软间隔”,而该“软间隔”与两个序列间的汉明距离(候选序列中错误标注元素的个数)成一定的比例关系。实验结果表明,该方法与传统的最大后验概率方法相比具有明显的优势,不仅能够提高切分精度,而且能够提高OOV词和命名实体识别的能力。但与MTE方法相比,虽然其切分精度和识别性能略有下降,但其参数计算方法相对较简便,无需进行第二次前-后向算法。再次,本文讨论了中文交集型歧义消解方法。利用SVM在分类问题上的卓越表现及其适用于处理高维数据的特点,研究了SVM在交集型歧义消解问题上特征的选取原则和表示方法。通过分析交集型歧义两种切分方式之间存在的差异,采用互信息、附属种类、二字词频和单字词频四种统计

赞助本站

相关内容
AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港