到目前为止,中文分词包括三种方法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。到目前为止,还无法证明哪一种方法更准确,每种方法都有自己的利弊,有强项也有致命弱点,简单的对比见下表所示:
各种分词方法的优劣对比
分词方法 基于字符串匹配分词 基于理解的分词 基于统计的分词
歧义识别 差 强 强
新词识别 差 强 强
需要词典 需要 不需要 不需要
需要语料库 否 否 是
需要规则库 否 是 否
算法复杂性 容易 很难 一般
技术成熟度 成熟 不成熟 成熟
实施难度 容易 很难 一般
分词准确性 一般 准确 较准
(1)歧义识别
歧义识别指