多年来,“让机器能够听懂人说话”的语音识别技术一直备受关注。今天,在对全球领先的语音和语言解决方案提供商Nuance Communications(以下简称Nuance)的专访中,其表达了云端+3G的移动智能设备网络环境下,在语音识别技术上的进展。
过去的语音识别技术是通过将输入的语音特征与设置好的声学模型进行匹配与比较,而后得到最佳的识别结果。由于处理速度和存储容量的限制,这样的语音识别通常有固定的句式要求,如此一来,识别性能弱、交互固定,并且需要用户进行固定句式的学习与记忆,导致学习成本略高,使用便捷性较差。
云端+3G,语音识别新体验
如今,Nuance对语音识别的实现,则是通过本地和云端相结合的方式进行,不仅加快了识别速度,其“自然语言理解”功能更是填补了过去语音识别技术的缺陷。
在Nuance工作人员的演示下我们看到,当一条命令(如说:“发送短信给刘涛,今天晚上七点图书馆见。”)发出后,本地端会对“刘涛”这个命令词进行识别,而后将刘涛的电话号码从通讯录中调出,放在短信的收信人一栏中;随后将“今天晚上七点图书馆见”这段语音发送至云端,云端识别器识别完毕之后,把语音转化为文本反馈回来,本地端将文本填在短信内容里。
在整个过程中,用户也许会出现略微等待的情况。由于这种语音识别运用到了云端技术,而强大的云端识别几乎不花时间,因此这个等待的时间可以被认为纯粹是网络的传送时间,也就是说,网速有多快,语音被识别的速度就有多快。在3G网日益发达的今天,云端技术必能给语音识别带来新的体验。
Nuance的语音识别技术的亮点是其“自然语言理解”功能。所谓自然语言理解,即用户可以按照个人的语言习惯,用自己惯用的语气、惯用的词,将需要被识别的语音任务说出来,有别于过去需要记忆的、遵循一个既定句式才能被识别的语音技术。用户可以说“打电话给刘涛”,也可以说“给刘涛打电话”或者“帮我call一下刘涛”,这在过去的语音识别技术中是无法做到的。同时,自然语言理解还能处理一些较为“模糊”的命令,例如用户可以说“把空调调高一点,我有点冷”,而无需给出具体的命令“把空调打开,把空调温度调高3度”等。
除此之外,自然语言理解还表现在对常用语的理解上。在传统的语音识别功能中,能够做到的是部分关键词的识别,如一个很长的公司名字,说出其中两三个词,就能够被识别。例如“上海交通大学附属中学”,也许说出“交通大学”和“附属”就能被识别。这在一定程度上解决了长名词的简单化识别,但不能全部解决。事实上,在生活中,人们更常说的是“交大附中”,这是由一个词中取出一个字来拼凑而成的缩写,在过去语音识别技术中无法做到的,现在自然语音理解就能够识别,这大大改善它的用户体验。
在对Nuance采访中就有这样的演示场景——
“请输入兴趣点名称”
“滨海”
“您说的是滨海吗?”
“是。”
“导航到上海滨海森林公园”
Nuance发言人接受采访时满怀自信地说:“从技术发展趋势来讲,我们已从服务器到云端,下一步从云端到哪儿?将会是自然语言理解上。在这一方面上自然语言理解上,毫无疑问我们是走在最前面的。”