有专家说,语音识别用途广泛,潜力巨大,但要真正实现人与计算机的自然交流却很难,它不仅需要高深的基础理论的突破,更需要大量的实际工作的积累。
语音交互就要实现?
1996年,IBM公司发布了VoiceType中文语音识别软件,首次将其语音识别产品介绍给中国用户;1997年9月,IBM推出了ViaVoice中文连续语音识别系统,标志着中文语音识别技术商业化进程开始启动。
然而,语音识别技术并不是一夜之间冒出来的神话,自从有了计算机,人们就开始了语音识别技术的研究,因此可以说语音识别的历史和计算机一样长。特别是在70年代前后,研究的脉络日渐清晰,贝尔实验室和IBM等都先后建立了专门的研究机构。今天这两家公司在这一领域都已取得了显著的成果,并且在商业上应用成功,贝尔实验室主要偏重于电信方面应用的语音识别系统,如电话查询等;而IBM则偏重于商务应用,因而在连续语音识别上取得了不小的成功。
不谈商业方面的应用,事实上,很多公司都提供语音识别的引擎(Engine),并且都表示能支持微软的SAPI。看一看SAPI 4.0SUITE就不难发现,微软在这方面的研究并不逊色,只是很奇怪它居然没有将成果商业化。微软同时提供了一系列引擎,如SpeechRecognition(语音识别)、Command&Control(发布指令并控制)、PhoneQuery(电话语音识别)、Texttospeech(文本语音转换)等。
今天,许多用户已能享受到语音技术的优势了,可以对计算机发送命令,或者要求计算机记录用户所说的话,以及将文本转换成声音朗读出来。尽管如此,距离真正的人机自由交流的境界似乎还很遥远。现在已有商用系统存在的主要问题是:系统鲁棒性还有待改进,如对于噪声环境下或方言的语言识别率和稳健性等都不尽如人意。
不可否认,语音识别技术还有一段路需要走,要做到真正成功的商业化,它还需要在很多方面取得突破性进展,这实际上也是其技术的未来走向。
语音识别难在哪儿?
计算机自动语音识别就是让计算机能听懂人说话。这一问题曾经被一位知名的美国教授称之为是“比登月还难”的科学难题。其实,人们很早就认识到语音识别对于人类生活的重要性。世界上第一台计算机问世之后,马上就有人想到要让计算机听懂人说话。所以说,语音识别的研究历史与计算机的发展历史一样长。计算机的发展已经经历了好几代,今天已经进入到了普通家庭。但是,语音识别方面的产品却迟迟未能进入市场。那么,它难在哪儿呢?
计算机语音识别是一个模式识别匹配的过程。在这个过程中,计算机首先要根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的整体模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板。然后,据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型和语言模型的好坏、模板是否准确等都有直接的关系。
一个语音识别系统性能好坏的关键首先是它所采用的语音模型能否真实地反映话音的物理变化规律,所用的语言模型能否表达自然语言所包含的丰富语言学知识。然而无论是语音信号还是人类的自然语言都是随机、多变和不稳定的,很难把握。这就是目前语音识别过程中的最大难点。
其次,模板训练的好坏也直接关系到语音识别系统识别率的高低。为了得到一个好的模板,往往需要有大量的原始语音数据来训练语音模型。因此,在开始进行语音识别研究之前,首先要建立起一个庞大的语音数据库和语料数据库。一个好的语音数据库包括足够数量、具有不同性别、年龄、口音说话人的声音,并且必须要有代表性,能均衡地反映实际使用情况。
有了语音数据库及语音特征,就可以建立语音模型,并用语音数据库中的语音来训练这个语音模型。训练过程是指选择系统的某种最佳状态(如对语音库中的所有语音有最好的识别率),不断地调整系统模型(或模板)的参数,使系统模型的性能不断向这种最佳状态逼近的过程。这是一个复杂的过程,要求计算机有强大的计算能力,并有很强的理论指导,才能保证得到良好的训练结果。
当语音识别系统对语音进行识别时,相对来说,其识别过程要比训练过程简单,对计算机的运算能力要求也很低,并且速度较快。这有利于实时地实现语音识别系统和进行商品化开发应用。
那么,制约语音识别技术发展的根本是什么呢?接受记者采访的清华大学王作英教授认为,语音识别的关键是其依据的模型和算法,模型算法是计算机描述语音的能力能否抓住人的语音的本质的关键。在语音识别领域,固然有资金实力、人力资源等的竞争,但最根本是其关键核心技术——模型和算法的竞争。
DTW逐渐淡出 HMM占据统治地位
要建立一个语音识别系统仅有一个好的语音特征还不够,还要有一个好的语音识别的模型和算法。在语音识别系统中通常分为两个部分:声学层部分主要研究如何充分利用语音信号中的信息;语音学层部分主要研究如何充分利用已有语音学知识来提高系统的识别率。目前,大家关注的中心是低层中声学层部分所涉及的模型和算法。
目前,在研发语音识别系统时常用的算法有基于神经网络的训练和识别算法、基于动态时间归整匹配(DTW)的识别算法和基于统计的隐含马尔可夫模型(HMM)识别和训练算法。
基于神经网络的训练识别算法由于实现起来较复杂,且识别率并不见得比基于统计的语音识别模型好,因此,这种算法目前仍处于实验室研究阶段。
基于动态时间归整匹配的DTW算法从目前来看,可能是一个最为小巧的语音识别的算法。其系统开销小,识别速度快,在对付小词汇量的语音命令控制系统中是一个非常有效的算法。但是,如果系统稍微复杂一些,这种算法就显得力不从心了。
基于统计的HMM算法可能是目前最为成功的一种语音识别模型和算法了。目前所能见到的各种性能优良的连续语音识别系统几乎无一例外地采用了这种模型。这是因为这种数学模型出现的时间较早,人们对它的研究也比较深入,已建立起了完整的理论框架。从20世纪80年代初人们开始用这种模型来描述语音信号后,就不断有人对它进行了各种改良和发展。这种隐含马尔可夫模型的算法是将语音看成是一连串特定状态,这种状态是不能被直接观测到的(如这种状态可以是语音的某个音素),而是以某种隐含的关系与语音的观测量(或特征)相关联。而这种隐含关系在HMM模型中通常以概率形式表现出来,模型的输出结果也以概率形式给出。这为系统最后给出一个稳健的判决创造了条件。
如今,各种形式的HMM模型和算法已日趋成熟,以它为基础已经形成了语音识别的整体框架模型,它统一了语音识别中声学层和语音学层的算法结构,制定了最佳的搜索和匹配算法,以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起。因此,HMM语音识别模型与算法是迄今为止最为完美的一个语音识别模型,从中也可看出好的理论体系对研究工作所起的重要的指导作用。
HMM的“内伤”
许多从事语音识别技术研究的公司都把HMM当做“救命稻草”,对其展开了大量的研究开发,随着语音识别研究工作的深入开展,HMM语音识别方法愈来愈受到人们的重视,但与此同时,人们也愈来愈认识到经典HMM语音识别模型在一些重要方面存在严重的缺陷,这就是:
经典HMM是一个齐次的Markov模型,状态转移概率与状态驻留长度无关,与语音的实际过程不符;
经典HMM现有的模型训练算法和识别算法都是假设语音特征是相互独立的,这也不符合语音信号的实际情况;
经典HMM模型用于大词汇表的识别系统时,其模型的训练量是灾难性的;
模型的存储量太大。
任何一个成功的语音识别模型,都是基于其参数具有聚类性这一基础上的。HMM模型之所以能达到很高的识别率,是由于反映其状态的特征参数具有聚类性,从而它必然是对应于语音学中的语音单位(如音素),声学上则必然是对应于某种声学单元或发声器官的某种结构状态。语音学的研究表明,语音单位(如音素)在词中的长度有一个相对平稳的分布。正是这种状态长度分布的相对平稳性破坏了HMM模型的齐次性结构。
DDBHMM浮出水面
王作英教授1988年年底向“863”计划提交的“语音识别的改进隐含马尔可夫模型”,可以说是对语音识别模型算法的一次重大革新。它指出了传统的HMM模型在语音识别应用中存在的问题,得到了一个基于段长分布的非齐次隐含马尔可夫模型(Duration Distribution Based Hidden Markov Model,DDBHMM)。以此理论为指导所设计的语音识别听写机系统在1994年~1998年的全国语音识别系统评测中取得三连冠,从而显示了这一新模型的生命力和在这一研究领域内的领先水平。
HMM模型是在国际上在语音识别系统中被广泛引用的一种模型,但是它有一个主要的缺点,即根据词模型推出的状态段长分布是指数分布,这不符合语音的本质属性。而王作英教授提出的DDBHMM(基于段长分布的HMM)模型解决了这一缺陷。它是一个非齐次的HMM语音识别模型。在此模型中用状态的段长分布函数替代了齐次HMM中的状态转移矩阵,彻底抛弃了“平稳的假设”,而从非平稳的角度考虑问题,使模型成为一种基于状态段长分布的隐含Markov模型。段长分布函数的引入澄清了经典HMM语音识别模型的许多矛盾。
同时,由于非齐次HMM是一个有后效过程,不能用Bellman的动态规划求最大似然路径,也不能用Baum的重新估值算法对模型参数进行训练。对于这类有后效的多阶段决策问题,如果用完全搜索算法求解最佳路径,其计算复杂性太大,甚至在现有硬件水平上无法实时运行。因而,必须建立新的非齐次HMM训练算法和识别算法。DBBHMM比国际上流行的HMM语音识别模型有更好的识别性能和更低的计算复杂度(训练算法比流行的Baum算法复杂度低两个数量级)。由于该模型解除了对语音信号状态的齐次性和对语音特征的非相关性的限制,因此为语音识别研究的深入发展提供了一个和谐的框架。
有好的模型只是一个开始,还需要做大量的工作。以前的模型可以借助其他技术如神经网络技术改进模型的不足,而DBBHMM模型的出现促进了语音识别模型与算法的竞争与发展。未来,在语音识别领域,基于HMM和DBBHMM两种模型的语音识别系统将齐头并进,展开竞争。基于HMM的系统“走得早”,且有大量资金和技术力量的支持;后发的DBBHMM系统有理论优势,但需要做的工作却很多,短期内两种系统将共存。另外会不会出现更好的第三种模型算法,现在还不能断定。
认准语音识别的“内核”
来源:互联网 发布日期:2011-12-04 20:54:22 浏览:16802次
导读:有专家说,语音识别用途广泛,潜力巨大,但要真正实现人与计算机的自然交流却很难,它不仅需要高深的基础理论的突破,更需要大量的实际工作的积累。 语音交互就要实现? 1996年,IBM公司发布了VoiceType中文语音识别软件,首次将其语音识别产品介绍给中国用...
上一篇:微软:触控之后就是语音操作的时代
相关内容
- 获准测试机械臂!马斯克的脑机接口公司Neuralink,越来越科幻了
- 登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做
- OpenAI收购域名Chat.com,传金额超过1000万美元
- 脑机接口领域获关注 已有上市公司开始布局
- 解读2025年十大战略技术趋势,对话Gartner研究副总裁高挺
- 超越硅极限:纳米3D晶体管或成AI低功耗未来之钥
- 无需开颅手术!贝索斯与比尔·盖茨押注的脑机接口公司要挑战马斯克
- 中国的生成式人工智能:创新、文化与全球领导力的桥梁
- 外媒:AMD 全球裁员 4% 以加速 AI 芯片研发
- 小鹏:未来 AI 汽车搭载至少 3 颗自研图灵芯片,已跑通智驾功能
- TrendForce 发布 “2025 十大重点科技领域市场趋势预测”
- 从断供中国芯片始,三星或加速衰落,韩国距发展中国家有多远
- AI 计算时代,为何Arm CPU依然是基石?
- Python 成 GitHub 最受欢迎编程语言,AI 成主要推动力
- 科思科技:公司第一代智能无线通信基带芯片已进入商业化推广阶段
- 航宇微:玉龙810A人工智能芯片已在部分商业卫星上成功实现搭载
- 不开颅将ChatGPT植入大脑? 盖茨投的AI硬件公司 挑战马斯克脑机接口
- 金砖大赛之元宇宙3D数字内容设计创作赛发布3D协同设计实训平台,考察学生3D内容在线编辑创作力
- 麻省理工团队成功研制出全新纳米级3D晶体管,垂直纳米线结构创新
- Sam Altman泄露新模型o2,太会整活了,营销鬼才
AiLab云推荐
最新资讯
- 马斯克:NeuraLink脑机接口,解决大部分脑部问题,价格相当于手机
- 从“不合作”到“求链接”:HTX的底气与雄心
- 马斯克的脑机接口公司宣布启动新试验:通过大脑植入控制机械臂
- 马斯克旗下Neuralink获批测试用脑机接口控制机械臂,SpaceX获土卫六探测新订单 | 环球科学要闻
- 获准测试机械臂!马斯克的脑机接口公司Neuralink,越来越科幻了
- 中国的生成式人工智能:创新、文化与全球领导力的桥梁
- 航宇微:玉龙810A人工智能芯片已在部分商业卫星上成功实现搭载
- 脑机接口,从实验室到市场还有多远?
- TrendForce 发布 “2025 十大重点科技领域市场趋势预测”
- 科思科技:公司第一代智能无线通信基带芯片已进入商业化推广阶段
本月热点
热门排行
-
存储芯片年涨七成不算完:AI需求接棒,大厂持续加注
阅读量:18036
-
美大选逼近!传大陆芯片设计业计划从台积电转单三星
阅读量:13772
-
黄仁勋对话扎克伯格:新款芯片样品本周发送,AI行业还有5年产品创新期
阅读量:12017
-
马斯克:Neuralink 今年预计完成 10 例脑机接口植入手术
阅读量:11857
-
应对先进封装挑战,芯碁微装直写光刻技术助力本土创新突破
阅读量:11516
-
黑芝麻智能登陆港交所:智能汽车AI芯片第一股,拥抱广阔机遇
阅读量:11389
推荐内容
- 2024中国(宁波)工业装备博览会、2024中国(宁波)智慧能源产业博览会
- 2024年俄罗斯国际医疗器械、医药、康复设备展览会
- 2024年第三十二届俄罗斯国际医疗设备展览会
- 2024年英国伦敦国际安全技术展览会
- 2024第12届上海国际汽车电子技术展览会(IATW)
- 2024年德国慕尼黑户外及体育用品展览会
- 2024第二十九届中国国际涂料、油墨及粘合剂展览会(中国国际涂料展 CHINACOAT) 第三十七届中国国际表面处理、涂装及涂料产品展览会
- 2024年阿尔及利亚国际安防及消防展览会
- 2024年俄罗斯莫斯科电网技术展览会
- MEDLAB2025中东实验室展
- 2024加拿大建筑照明展览会
- 2024大湾区国际电机工业及磁性材料展览会
- 2024大湾区国际电磁线及漆包线展览会
- 2024第十六届上海国际消防保安技术设备展览会
- 2024中国数字化义齿产业展、数字化口腔设备应用展览会
- 2024中国(深圳)国际氢能与燃料电池技术展览会
- 2024大湾区国际汽车创新技术周
- 2024国际电子电路(深圳)展览会
- 2024深圳国际换电设施及充电桩展览会(EBTE 深圳换电设施展)
- 2024第十九届大湾区国际汽车内饰与外饰展览会(CIAIE)2024第十三届大湾区国际新能源汽车技术与供应链博览会
- 2024大湾区国际精密光学及红外探测技术应用展览会
- 2024CBTC深圳国际储能及锂电技术装备展览会
- SIA2024深圳国际工业自动化展会及机器人展览会