基于语音识别的信息校核方法
申请专利号 CN00130298.1
专利申请日 2000.11.10
名称 基于语音识别的信息校核方法
公开(公告)号 CN1293428
公开(公告)日 2001.05.02
类别 物理
颁证日
优先权
申请(专利权) 清华大学
地址 100084北京市海淀区清华园
发明(设计)人 刘加;单翼翔;刘润生
国际申请
国际公布
进入国家日期
专利代理机构 清华大学专利事务所
代理人 廖元秋
摘要
本发明属于语音技术领域,包括:非特定人语音识别模型的预先训练、语音信号的端点检测、语音识别参数提取、基于多子树三元词对文法的帧同步束搜索Viterbi语音识别方法、语音识别置信测度与拒识模型、非特定人语音识别模型的说话人自适应学习、语音提示。本发明的基于语音识别的信息校核方法具有识别率高、稳健性好等特点。构成的语音识别系统可以用于信息查询、语音命令识别、学习机,以及生产环节的控制系统中。
主权项
权利要求书 1、本发明提出的一种基于语音识别的信息校核方法,包括语音信号的端点检测及 语音识别参数提取、非特定人语音识别模型的预先训练、非特定人语音识别、语音识 别置信测度与拒识模型、语音识别置信测度与拒识模型、非特定人语音识别的说话人 自适应学习、语音识别词条的生成、语音提示各部分,具体包括以下步骤: A、语音信号的端点检测及语音识别参数提取: (1) 语音信号通过计算机的声卡A/D进行采样成为原始数字语音信号; (2) 对所说的原始数字语音信号进行频谱整形及分帧加窗处理,以保证分帧语音的 准平稳性; (3) 使用语音信号的短时能量、波形走势特征进行端点检测,去除无声区的语音帧, 以保证各帧语音特征的有效性; (4) 对分帧加窗处理后的语音信号进行语音(识别)特征提取; B、非特定人语音识别模型的预先训练: (1) 预先采集大量的语音数据,建立训练语音数据库,采集的语音与要识别的语音 的语言种类相一致; (2) 从所说的数据库中的语音信号提取语音特征参数,然后在PC机上通过预先的 学习过程将这些特征参数转变成识别模型的参数;识别模型采用基于音素隐含 码尔科夫模型(Hidden Markov Model,HMM),训练的方法是根据最大似然准 则,对HMM模型参数(包均值与方差)进行估值; C、非特定人语音识别: (1) 将所说的语音特征与语音识别模型进行模式匹配,通过N-best维特比(Viterbi) 帧同步束搜索算法,实时地提取前三选最好识别结果,在识别搜索过程中保留 了所有有用“关键词”信息,不需要再进行回溯; (2) 输入语音信息,每校核一条该语音信息,就自动剪掉该词条对应的语音发音模 板,减少搜索空间,以提高校核过程的语音识别速度与识别精度。识别过程的 语言模型采用基于多子树三元词对文法; D、语音识别置信测度与拒识模型: 在维特比(Viterbi)帧同步束搜索过程中结合置信测度与拒识模型的计算。通过判 定识别语音的置信度的大小,确定是否接受或拒识该语音识别结果,同时拒掉在操作 过程的无关语音; E、非特定人语音识别的说话人自适应学习; 采用说话人自适应方法对识别模型进行调整;所说的自适应方法采用最大后验概 率方法,通过迭代方法逐步修正识别模板参数; F、语音识别词条的生成: 根据需要校核的数据文本信息,借助发音字典自动生成要识别词条的语音发音模 1 板。输入的语音信息与这些发音模板信息通过前面的非特定人语音识别进行比较;发 音字典由识别词汇汉字与对应的汉语拼音构成,预先存放在计算机中; G、语音提示: 采用语音合成技术进行语音提示,语音合成模型参数分析提取过程在计算机上通 过预先处理后完成,并存储在计算机的硬盘中用于语音合成,语音合成模型使用码激 励语音编码模型;语音提示用于回放识别结果,若回放语音与输入语音一致,则表示 识别结果正确;若不一致,则要求使用者读入语音命令,重新进行该语音命令的识别。 2