多年来,“让机器能够听懂人说话”的语音识别技术一直备受关注。今天,在对全球领先的语音和语言解决方案提供商Nuance Communications(以下简称Nuance)的专访中,其表达了云端+3G的移动智能设备网络环境下,在语音识别技术上的进展。
过去的语音识别技术是通过将输入的语音特征与设置好的声学模型进行匹配与比较,而后得到最佳的识别结果。由于处理速度和存储容量的限制,这样的语音识别通常有固定的句式要求,如此一来,识别性能弱、交互固定,并且需要用户进行固定句式的学习与记忆,导致学习成本略高,使用便捷性较差。
云端+3G,语音识别新体验
如今,Nuance对语音识别的实现,则是通过本地和云端相结合的方式进行,不仅加快了识别速度,其“自然语言理解”功能更是填补了过去语音识别技术的缺陷。
在Nuance工作人员的演示下我们看到,当一条命令(如说:“发送短信给刘涛,今天晚上七点图书馆见。”)发出后,本地端会对“刘涛”这个命令词进行识别,而后将刘涛的电话号码从通讯录中调出,放在短信的收信人一栏中;随后将“今天晚上七点图书馆见”这段语音发送至云端,云端识别器识别完毕之后,把语音转化为文本反馈回来,本地端将文本填在短信内容里。
在整个过程中,用户也许会出现略微等待的情况。由于这种语音识别运用到了云端技术,而强大的云端识别几乎不花时间,因此这个等待的时间可以被认为纯粹是网络的传送时间,也就是说,网速有多快,语音被识别的速度就有多快。在3G网日益发达的今天,云端技术必能给语音识别带来新的体验。
Nuance的语音识别技术的亮点是其“自然语言理解”功能。所谓自然语言理解,即用户可以按照个人的语言习惯,用自己惯用的语气、惯用的词,将需要被识别的语音任务说出来,有别于过去需要记忆的、遵循一个既定句式才能被识别的语音技术。用户可以说“打电话给刘涛”,也可以说“给刘涛打电话”或者“帮我call一下刘涛”,这在过去的语音识别技术中是无法做到的。同时,自然语言理解还能处理一些较为“模糊”的命令,例如用户可以说“把空调调高一点,我有点冷”,而无需给出具体的命令“把空调打开,把空调温度调高3度”等。
除此之外,自然语言理解还表现在对常用语的理解上。在传统的语音识别功能中,能够做到的是部分关键词的识别,如一个很长的公司名字,说出其中两三个词,就能够被识别。例如“上海交通大学附属中学”,也许说出“交通大学”和“附属”就能被识别。这在一定程度上解决了长名词的简单化识别,但不能全部解决。事实上,在生活中,人们更常说的是“交大附中”,这是由一个词中取出一个字来拼凑而成的缩写,在过去语音识别技术中无法做到的,现在自然语音理解就能够识别,这大大改善它的用户体验。
在对Nuance采访中就有这样的演示场景——
“请输入兴趣点名称”
“滨海”
“您说的是滨海吗?”
“是。”
“导航到上海滨海森林公园”
Nuance发言人接受采访时满怀自信地说:“从技术发展趋势来讲,我们已从服务器到云端,下一步从云端到哪儿?将会是自然语言理解上。在这一方面上自然语言理解上,毫无疑问我们是走在最前面的。”
Nuance产品技术的应用与展望
Nuance如此的自信还源于iPhone 4S语音助理Siri的大获成功。Siri的解决方案正是通过云端和本地端结合的方式,通过3G网络,实现人机自然对话。而苹果公司这款遭“全民调戏”的语音助理,正是运用了自然语言理解技术。
除了与苹果公司的合作外,Nuance去年在美国推出的语音搜索应用 Dragon Go!也得到广泛关注。它可让用户通过移动终端用语音搜索电影、音乐、娱乐、天气等各种内容,实现查找、预订和购买门票等服务功能。目前与Dragon Go!有合作的网站包括Spotify、Pandora、Yelp、AccuWeather、Ask.com、Wolfram|Alpha、Dictionary.com、Google+ 和Video Streaming等。一位业内人士这样评论道:“Dragon Go!是非常像Siri的,可以理解自然语言的指令。”而在亚洲市场,Nuance也于去年在中国推出了 Dragon Dictation (声龙听写)和 Dragon Search(声龙搜索)的中文语音应用,支持包括广东话、普通话和台湾国语在内等25种语言的语音听写和搜索。
除此之外,Nuance现在正在推进的还有与汽车厂商方面的合作。在这里最值得一提的是福特。福特是推语音技术最激进的一个品牌,它在北美推的Ford Sync,在当地非常叫强,其中文版也将很快在中国上市。除了Ford Sync以外,还有On Star(安吉星)也是Nuance的合作伙伴,现在正在使用Nuance 的技术开发新一代的系统。其他几个大品牌,如奔驰、宝马、大众和奥迪,也在过去一年里与Nuance合作进行了深入开发。
Nuance在语音方面的竞争优势和良好的抗噪性是其与各大牌汽车品牌得以合作的基础。首先它是全球最大的语音技术公司,用在各行各业的语音技术占据市场份额三分之二以上,基本上是主导了这个市场。其次,针对汽车行业普遍重视的抗噪性,Nuance也颇具优势。他们自信地表示:“我们的抗噪性能好到什么程度?就是驾驶员在用语音操控机器的时候,副驾驶上坐着人在说话,甚至打开收音机,都对语音识别没什么影响。”
值得一提的是,几年前,语音技术还是高档车的专利;如今,Nuance的语音识别技术应用从高端到低端都有相关的方案,所有的车型都会考虑用上语音技术,并且汽车成本的增加是微乎其微的。
另外,Nuance语音技术也应用到了电视平台,已于2012年1月9日发布了Dragon TV平台,实现语音控制电视。用户可以利用它来实现语音控制电视——说出频道号、电视台名称、电视节目或电影名称就可以实现电视的语音搜索,还可通过演员名字进行内容搜索,非常引人注目。Dragon TV平台将提供给那些选择将语音技术融入到电视、机顶盒和遥控器等设备制造商、运营商及开发商。
同时,Dragon TV也对Facebook和Twitter等社交网络进行了融合,用户可以通过语音发布信息和更新状态。Nuance表示Dragon TV还能运行在Linux、Android和iOS平台上。乔布斯也曾说过他已经知道如何设计一款超功能集成Apple TV,融合语音控制应用的电视产品。而在苹果相关产品发布之前,Nuance已经发布了Dragon TV 平台。
由此可见,语音正在从一种文本备选方案转变成一个更加强大的工具,能理解用户意图,通过自然语言处理、语义分析和云计算等技术帮助用户迅速获得信息。Nuance公司CTO Sejnoha表示,本质上语音正在成为移动设备的智能快捷方式。手机制造商非常愿意让语音技术整合成为一道分水岭,让自己的硬件脱颖而出。他认为语音是一种新的控制方式,就好比是虚拟框架上的自然语言叠加层。人们可以通过语音更加快捷方便地获得和控制移动智能设备里的东西。
自iPhone 4S语音助理Siri问世以后,整个移动智能设备行业对语音技术的期望值都有所上升。语音技术和操作系统和硬件正在进行深度整合,并有望改变智能手机。Nuance方面表示:“现在我们明显地感觉到在过去两三个月里头,来联系我们的客户越来越多,这是好事情。也就是说这个蛋糕会越长越大。”
因此我们有理由相信,继触屏技术之后,语音识别最为可能成为移动智能设备上的“杀手”技术。