第12章 概率句法分析
1 一些概念
1)句法消歧分析
在句法分析器中至少有三种不同的途径可以使用概率:
一种可能的做法是将句法分析器看成是一个词语网格上的语言模型,用来确定什么样的词序列经过网格的时候会获得做大概率。
第二个目标是利用概率对句法分析器的搜索空间进行排序或剪枝。这使得句法分析器能够在不影响结果质量的情况下尽快找到最优的分析途径。
句法分析器可以从输入句子的众多分析器中选择可能性最大的。
在许多情况下,我们只关心“最好的分析结果”,也就是被认为最有可能正确的结果。统计句法分析器一般会消除歧义,并且给出一个比率来表示各种不同的分析作为实际分析的可能性。但是,在传统的句法分析器中,作为分析结果的句法分析树通常被送到下游的语义和世界知识模型中,并由它们做出选择。一个统计句法分析器通常在运行的过程中使用各种扩展的词语符号和类别搭配来代替语义和世界知识,以进行消歧。这至少也表明了词语的使用对我们了解语义有一定的作用。
树库
句法分析模型与语言模型
PCFG独立性假设的弱化:上下文和独立性假设;词汇化;结构化上下文的概率依存。
分析树概率和派生概率
其他途径:概率左角文法等。
短语结构语法和依存语法:
依存的两个优势:其一,我们以前讨论过词汇信息是解决大多数分析歧义的关键,因为依存语法是直接按照词语之间的依存关系工作的,直接依据之间的依存关系又是歧义决策的依据。没有必要对句子建立一个庞大的超结构(即短语结构树),也没有必要脱离句子中的词在结构上进行歧义决策。其二,依存关系给出了分解结构规则的方法,而且能够估计它们的概率。
评估
PARS的三个基本的衡量尺度:准确率,是指在分析中有多少个括号与正确分析树是匹配的;召回率,是指在分析中有多少个正确分析树中的括号;交叉括号,给出了在一棵树中与其他树的成分边界交叉的的成分数目的平均值。