大公司早已为实现人工智能而收购、投资或合作,发展语音识别技术。例如苹果,Google,Facebook,Amazon,英特尔,三星以及雅虎。不仅如此,可通过语音来识别情绪的公司Beyond Verbal与英国语音识别初创企业EI两家初创公司也在为人工智能而努力
语音交互事关未来,国内外已经不少公司在抢蛋糕了,大公司收购、投资、合作不断,就可见一斑。目前,基本上所有的巨头都有涉足。
苹果收购Siri、Novauris,组建基于神经网络算法的语音识别团队
2014年7月,有消息称,苹果正在联系多位语音识别技术的专家,正在招聘经理、小组负责人、研究员,很可能将成立一支强大的语音识别团队,并最终取代现在的Siri技术服务商Nuance。过去几年中,苹果招聘了多名此前供职于Nuance的的高层次语音技术研究员,包括前研究副总裁拉里·吉利克(LarryGillick)、Siri的项目经理贡纳尔·艾弗曼(GunnarEvermann)、微软语音识别项目高管亚历克斯·阿赛洛(AlexAcero)。
在2013年,苹果收购了自动语音识别公司NovaurisTechnologies。Novauris是英国研究机构DragonSystems旗下的附属公司,以语音听写识别著称,成立于2012年。当然,怎么能忘了最著名的那笔收购呢,2010年4月,以1.5~2.5亿美元收购了Siri。
Google收购多项语音识别技术专利、SayNow、PhoneticArts
Google在2014年收购了SRTechGroup的多项语音识别相关的专利,其中包括“搜索引擎语音界面”和“修改、更新语音识别项目系统”的专利。
Google一直致力于投资语音搜索技术,以期与苹果公司的Siri展开竞争。2011年,Google收购语音通信技术公司SayNow和语音合成技术PhoneticArts。其中,SayNow创建于2005年,可以把语音通信、点对点对话、以及群组通话和社交应用整合在一起,支持的设备包括PC浏览器、智能手机乃至座机。被收购时,有1500万用户,旗下产品包括SayNowPhone,SayNow广播,BigCall以及ChitChat等。
Facebook收购Wit.ai和MobileTechnologies
语音交互解决方案服务商Wit.ai要做的就是重写互联网的语音层,简单地在第三方App中加入几行代码来为它生成一个语音交互界面,就能把语言转化成可以操作的数据。正如移动支付公司Stripe通过几行代码就为网站解决了线上支付问题一样。Wit.ai称,它比Siri更灵敏精确,不需要开发者先期投资,或训练数据集,而且可以应用在移动应用程序(iOS、Android等平台)、穿戴设备和机器人以及几乎任何你可以想到的智能设备。被收购时,Wit.ai成立才18个月,吸引了6000多名开发者,创建的应用超过了数百个。此次收购有助于提高Facebook整体对自然语言的理解能力。
除了Wit.ai,Facebook还在2013年收购了语音识别公司MobileTechnologies。MT创建于2001年,在2009年推出了Jibbigo应用,允许用户在25种语言中进行选择,使用一种语言进行语音片段录制或文本输入,然后将翻译显示在屏幕上,根据你选择的语言大声读出来。
Amazon收购Yap、Evi、Ivona
2011年,Amazon收购语音识别公司Yap。Yap成立于2006年,主要提供语音转文本服务,代表应用是Yap语音邮件。利用Yap的技术亚马逊建立自己的语音技术平台,服务于亚马逊的网上搜索和客户服务等领域。
2012年,Amazon收购语音技术公司Evi。Evi是一家应该创业公司,原名TrueKnowledge,在获得了Nuance语音识别技术的授权后,基于自主的自然语言搜索引擎开发了一款与苹果Siri类似的应用。
2013年,Amazon收购语音技术公司IvonaSoftware。Ivona是一家波兰公司,是Nuance的竞争对手,主要做文本语音转换,被收购时支持17种语言44种声音。
英特尔收购语音识别技术公司Indisys
2013年,英特尔收购了语音识别技术公司Indisys。这是一家西班牙公司,但自称一直在做多语音。在计算语言学、人工智能、认知科学和机器学习领域有研究,不少西班牙公司都采购了他们家的技术。此外,他们还开发了与苹果Siri相似的助手界面。
三星或收购语音识别软件商Nuance
关于三星和Nuance的绯闻已经传了段时间。Nuance的语音识别技术在智能手机、电视和GPS导航设备上都有广泛应用,比如苹果的Siri就是用的它的技术;其他一些企业级市场也有需要用到语音识别的地方,比如医院里的电子病历业务,医生直接口述就能生成电子病历。2013年9月份时,Nuance还同三星达成合作。
雅虎收购SkyPhrase,牵手RobinLabs
2013年12月,雅虎收购了自然语言处理技术初创公司SkyPhrase。Gmail和Twitter的相关技术支持就是SkyPhrase提供的,允许用户跟机器说“人话”得到个性化的搜索结果。比如“NANA发的带图微博”,或者“Jane发给我的包含照片的电子邮件”——这样复杂的信息Siri是理解不动的。SkyPhrase还开发了两款应用,其中一款能让用户查看梦幻足球的比分统计数据,另一款应用与GoogleAnalytics整合发挥作用。
为了推雅虎语音助手,雅虎还找到了合作伙伴RobinLabs,后者主要做自然语言识别和导航。除开发自己的私人助手的导航应用外,现在它还为客户提供语音助手白标产品的开发。”也就是说,理论上讲,每个应用都可以添加一个特定的语音助手模块。既然雅虎语音助手其实是RobinLabs开发的,那它会被收购么?
其实,除了这些大公司和被他们收购的小公司,还有几家初创公司做的也挺有意思。比如,下面这两家。
全球首个通过语音来识别情绪的公司BeyondVerbal
BeyondVerbal是一家以色列公司,成立于2012年,在情绪识别领域一直领先。BeyondVerbal系统创建的算法可以通过识别音域变化,从而分析出像愤怒、焦虑、幸福或满足等情绪,心情、态度的细微差别也能被识别到。BeyondVerbal的情绪识别系统可以分析出11个类别,400个复杂情绪的变量。
2013年1月,他们开发的情绪识别appmoodies在iOS平台发布;2014年8月,他们开发了moodies的安卓版。2013年5月,获得了280万美元融资;2013年7月,又获得了100万追加融资。2014年9月,又追加了330万美元种子融资。
在2014年耶路撒冷召开的TEDMEDLive上,就引入了BeyondVerbal的技术来对所有与会人员的情绪进行分析,进而总结整个会议的整体反馈情况。
英国语音识别初创企业EI
英国的初创企业EITechnologies也是一家做语音情绪识别的公司,可以分析人声的音调,监控用户的情绪。之前从孵化器WayraLondon和英国政府的TechnologyStrategyBoard拿到了15万英镑的种子期融资。
目前系统可识别5种基本情绪:高兴、悲伤、害怕、愤怒及无感情。识别的准确率约为70-80%左右,这个数字要高于人类60%的平均水平。而受过训练的心理学家的判断准确率约为70%,从这些数据来看,EI的算法准确率已经非常可观。其未来目标是进一步提高到80-90%。
通过识别并恰当响应语言内容和情绪来增强自然语言处理算法似乎是人工智能系统的下一步发展方向。《银翼杀手》里面的复制人的致命缺陷正是缺乏“移情(empathy)”能力。现在这三家公司的技术正帮助机器朝着具备“移情”能力迈出一小步—首先学会感受人类的情绪。不过这也是个庞大又复杂的工程。