王昊 中文分词技术综述
新闻来源:IR实验室 发布时间:2010-7-28 20:55:32
一、分次规范概述
1)黄昌宁提出的四个难题(1)“词”是否有清晰的(2)分词和理解孰先孰后(3)分词歧义消解(4)未登录词
2)国际中文分词评测Bakeoff
a. 多个不同标准的分词语料同台测试
b. 完成了从“分词规范”到“规范+词表”,再从
意义:“规范+词表”到“分词语料库”的“词语”定义过程
二、自动分词原则
1)有利于标注,句法分析
2)准确率——重要指标
3)容错性
4)可移植性
三、自动分词方法基
1)于字符串匹配(机械分词方法)
正向最大匹配,正向最小匹配,逆向最大匹配,逆向最小匹配
2)基于统计----基于词和词贡献的频率(概率)
3)基于理解----理想的,实现难
四、歧义字段
交集型切分歧义、多义组合型切分歧义、词汇级歧义、句子级歧义、语境级歧义
五、未登录词处理
汇基于规则的方法、基于统计的方法