中文分词
词是能独立运用的最小语言单位,自然语言处理中的很多方法都是基于词来实现的。由于中文书写的特点,即词与词之间没有明显的分隔符,使得计算机对于词的准确识别变得非常困难。因此,分词就成了中文处理中所要解决的最基本的问题,分词的性能对后续的语言处理如机器翻译、信息检索等有着至关重要的影响。随着对中文处理关注程度的增加,国际计算语言联合会 (ACL) 下设的汉语特别兴趣 (SIGHAN) 研究组每年举办国际汉语分词评测大赛。大赛提供多种语料上的开放和封闭测试,至今已有斯坦福大学、新加坡国立大学、微软亚洲研究院、法国电信北京研发中心、中科院计算所、哈尔滨工业大学、东北大学等多家国内外研究机构参加此评测。
中文分词组以评测作为驱动,主要研究统计机器学习方法在中文分词、词性标准和命名实体识别中的应用。研究内容包括隐马尔科夫模型、最大熵模型、支持向量机、条件随机场等多个统计模型在中文序列标注中的应用和相关的特征选取技术。在此工作的基础上,分词组参加了第三届国际汉语分词评测大赛,在大赛提供的四种语料的封闭测试上取得了很好的成绩。
指导教师:朱靖波 教授
小组成员:
2004级硕士生:王屹林
2005级硕士生:王振兴 张海雷