自2011年苹果将Siri带进手机市场之后,语音助手类应用可谓火的一塌糊涂。还记得当年上至生活大爆炸里的谢耳朵,下至无数的果粉,纷纷以调戏Siri为乐。先不说Siri到底是否为消费者带来极致的便利,但就影响力来说,Siri一定是苹果的一个代表作品。苹果几乎以一己之力打开了一个全新的市场,再大的厂家也无法淡定,谷歌微软纷纷入局,使出浑身解数,誓要为消费者在手机上打造一名“私人管家”。那么今天,我们就来聊聊各家的语音助手。
如今手机界有三大操作系统,iOS,安卓和WP8。相应的来说,自然也有三大语音助手,Siri,GoogleNow和Cortana(微软小娜)。三大语音助手之中,Siri来的最早,也是名头最大的一个,不然怎么有人说iPhone 4S的S就是Siri呢。
事实上,Siri直接发源于史上最大的人工智能项目:五角大楼的CALO项目。CALO是“CognitiveAssistantthatLearnsandOrganizes”的缩写(会学习和组织的认知助理),这个项目汇聚了全球人工智能方面的顶尖科研人员。整个CALO计划的带头人名叫AdamCheyer,现任苹果iPhone团队的工程总监。Cheyer说CALO早已开始探索如何把“对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考、服务代表全部融合到一个模仿人类的助理中,帮助人们完成不同的事情。”他形容说Siri计划就是寻求在一件消费产品中做同样的事情。其实,在Siri正式发布的前四年里,Cheyer和他的团队一直在钻研如何优化CALO,使其能够在一台强大的移动电话中发挥效用,每天都能被成千上万的用户使用。对Cheyer来说,Siri并不是早期安卓手机上简单的语音识别,Siri是人工智能,是这个十年里移动平台最大的事情之一。Siri最终的目的就是为消费者打造一个贴身的数字管家,让消费者感受到科技的便捷。
iPhone 4s上的Siri
有了先行者,自然就有追赶的人。或许,谷歌早就预料到苹果会渐渐在iOS中去掉谷歌服务。为了巩固自己在移动搜索领域的优势,同安卓4.1一起推出了全新的搜索应用,Google now。用谷歌官方的话来说,Googlenow会全面了解消费者的各种习惯和正在进行的动作,并利用它所了解的来为消费者提供相关信息。现如今,谷歌已经为Googlenow添加了诸如步行和行车里程记录,汽车租赁,演唱会门票和通勤共享等方面的内容,并且如今,Googlenow已经被直接整合进原生的安卓系统之中,使用更为便利。
Googlenow
看着苹果和谷歌在移动语音领域大展身手,同样身为科技巨头的微软自然是坐不住了。为了对抗苹果和谷歌,微软也推出了自家的语音助手---Cortana,而且针对中国市场,微软还发布了本土版的Cortana---微软小娜。虽说想达到Holo里Cortana的技术再有500年都未必能够实现,但这并不妨碍微软现在将“非完全体”的它移植进手机之中。在WP8.1之中,Cortana被定位为个人数字助理,能通过不断学习用户的使用习惯和兴趣来帮助用户组织日常活动,常规的Web搜索。
基于这种设计理念,微软为Cortana特意打造了一个虚拟的记事本。当然,这个记事本并非是隐私收集器,而是代表了Cortana记录用户的一切待办事项。并且这些待办事项全部存于云端,如果愿意,用户完全可以同好友分享信息,甚至是位置,兴趣点等等。另外,Cortana最有用的部分在于自主性的学习能力和基于时间的触发行动,有些像是一些基于“IFTTT”(网络行为连锁反应)的Web服务。随着使用时间的推移,Cortana能够学习你的发声习惯,从而更准确地理解你的意思,另外在了解你的喜好之后,理论上可以实现更智能化的主动式服务。微软也将向第三方软件厂商开发API,实现更多操作可能。
微软Cortana
说了这么多,各位读者可能感觉语音助手是一项非常“高大上”的技术,事实上并非如此。以Siri为例,Siri所用到的技术无过乎只有两样,人工智能以及云计算。但如果更细分来说,则可分为前端技术和后台技术来看。在前端技术方面,即面向用户,和用户交互(UserInterface,UI)的技术,主要是语音识别以及语音合成技术。
语音识别技术是把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到所谓的“云计算”技术。而语音合成则是把返回的文字结果转化成语音输出,这个技术理论上本地就能完成,当然也可以是在云端完成的。后台技术,其实才是真正的大角色。这些技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括,①以Google,Bing,百度等为代表的网页搜索技术;②以WolframAlpha为代表的知识搜索技术(或者知识计算技术);③以维基百科为代表的知识库(和WolframAlpha不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);④以Yelp为代表的问答以及推荐技术。将处理后得到的结果再返还给用户,也就完成了一次与用户的问答或是聊天。
Siri聊天
Siri和Cortana的技术基本就是如此,但一定要强调的是,严格的说Googlenow应当只是一款语音搜索软件,并不具备与用户聊天的的交互式功能。Googlenow只是利用了谷歌强大的搜索引擎,并且加入了上下文联想功能,根据用户的搜索记录,习惯来提供智能化的服务。当然,这意味着它会收集用户数据加以分析,但是其呈现出的信息还是极为有效地。
语音助手的最终目的是为消费者带来便利,因此,往往理论说的极其完美,但消费者更关心其在现实生活之中的表现。仅以在大陆的情况来看,Googlenow可谓毫无用处。我们都知道Googlenow是基于Google搜索来提供反馈的,但是在大陆,因为一些“你懂得”的原因,Google基本是无法使用的。唯一能使用的一些本机上的服务,还必需在英文界面下使用。当然,如今谷歌已经推出了Googlenow的桌面版和可穿戴设备版,要是各位一定想尝鲜的话,挂个VPN就是最好的选择了。
与Googlenow不同的是,Siri和Cortana目前都是基于Bing平台,因此两者在大陆还是完全可以使用的。Siri在经过了两年的发展之后,成功摘掉了Beta版的帽子,迎来了正式版。相对于早期只能打电话,设置闹钟等简单的操作,如今的Siri正不断地加强其功能,如多国语音,男女声,打开一些程序等,并且在识别率上也有了很大的进步。但从聊天的角度来看,Siri和有人情味还有一段的距离。并且,因为监管的原因,早期还爆出了涉黄等问题。这些都是Siri在未来要加以改正的和进步的。
Cortana在大陆的本土版叫做微软小娜,相比于以上两者,可谓接地气的多。各位读者应当还记得不久前被腾讯封杀的微软小冰吧。事实上,小娜和小冰都是微软中国团队的作品,微软中国曾说过,小冰小娜就像一对姐妹花,虽然都是偏向人工智能的产品,但定位不同,小娜更注重对用户制定任务的完成,小冰则更倾向于娱乐俏皮的交流,两者都是极为接地气的产品。
这一点,在一些小细节中有较大的体现,比如在天气预报之中加入了空气质量提醒,限行信息等,另外从第三方应用上来看,针对大陆市场,微软小娜选择了微信,新浪微博,爱奇艺等七家应用进行深度合作,例如使用微软小娜可以直接打开微信的朋友圈,这在Siri上是无法做到的。从目前大多数使用者的反应来看,微软小娜还是具有很大的优势的。而且随着后天的学习功能的加强,微软小娜必将成为WP手机的一大亮点。
接地气的微软小娜
先布局者得市场,在任何一个行业,这个道理也仅限于前期,谁能真正地笑到最后还不得而知。在竞争日益激烈的移动互联网时代,语音助手最终拼的还是是否真正为用户着想,提供更加便利的语音智能生活。这场竞争还只是刚刚开始,未来大家还有很长的路要走,谁将最终获得用户认可,就让时间给我们一个答案吧。