有部美国电影叫《Her》,讲述了一个宅男爱上电脑操作系统的故事。他每日每夜通过耳机与声音性感的萨曼莎(类似Siri的女声)对话,谈情说爱,甚至一起意淫XO。但遗憾的是萨曼莎并不存在,她只是未来人机交互的一个纽带。
爱 上机器也许听起来不可思议,但电影《Her》描绘的新世界其实并不遥远。也许用不了几年,我们的双手和眼睛就会从人机交互之中释放出来。控制机器,你将不 再需要敲打键盘、触摸屏幕。随着语音交互技术的进步,你需要做的仅仅是发号施令,用人类最原始的方式与机器交谈。在你的周围,万物联网,随时待命,整个世 界仿佛都在竖起耳朵,听候你的差遣。
与世界对话,你仍然需要一个助手。现在看来,最适合承载这一使命的似乎还将是手机。毕竟,这是一个集成了通讯、社交、学习、工作等等无数功能的百宝箱,暂时无可替代。目前兴起的智能家居、可穿戴设备,也都纷纷把手机当成控制中心和数据中心。
新技术意味着新商机、新格局。在按键时代,手机行业的霸主是诺基亚;在触控时代,苹果一骑绝尘。在语音交互的新时代,又将成就哪些商业的宠儿?
我们完全有理由相信:未来是属于语音手机的。当然,每一个行业在黎明到来前,都会经历漫长的黑暗时光。语音手机要想崛起,也注定要经历不少曲折。
你好,世界
人们都在期待一个全新的未来,机器能听会说、有感情、懂思考的未来。不过,彼岸并非伸手可触。在幻想人工智能普及之前,我们必须建立起一个与机器自由交流的通道,不需要代码、不需要键盘和屏幕,而是用人类最原始的方式——语言,来对话。
为什么一定要用语言?
首先,人类发明机器的目的是为了提高效率、节省时间。长期以来,机器的能力飞速增长,但人与机器交流手段的变化却并不明显。可以说,人机交互已成为效率瓶颈。要想让世界运转的更快,机器必须听得懂人的语言。
对 人来说,语言交流也是最省力的手段。它可以彻底解放你的双手和双眼,你不再需要盯着手机屏幕、不再需要手动触摸电子设备,就可以使它们按照你的意愿运转, 这种变化绝不仅仅意味着酷。对于在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群,语音同样是最佳 的交互选择。
此外,声纹也是最契合万物互联时代的应用之一。每个人说话时使用的发声器官——舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面差异 很大。所以,声纹所携带的个人生物识别信息是与安全结合的天然基础,而这种非接触特性相对接触式生物识别信息(比如指纹),可以为用户带来更多便利性和更 好的用户体验,也可以规避一些安全性方面的隐患。
在2G和3G时代,流量成为了语音交互的瓶颈。语音数据库累积较慢,又限制了语音辨识与语 义理解的提升。而缺乏大数据支持,又导致语音功能体验较差,恶性循环。4G时代的来临为语音带来了福音,首先,传输速度大大提升,用户流量较多,使用语音 变得频繁,容易形成海量数据库,辨识度和语义理解将随之改善,为语音交互整体爆发提供了基矗
是时候和你身边的机器谈谈心了。
生态链初现
越来越多的手机、平板、智能家居、可穿戴设备,以及车载设备,正在日益重视语音的作用。特别是苹果Siri、腾讯微信、科大讯飞等主流企业和产品,一直在培养人们的语音习惯。谷歌预计目前大约有50%的Android设备通过语音进行搜索,咨询公司SA则预测含语音及手势触觉反馈技术的智能机目前在中高端智能机上已经很普遍,2014年发货规模将达到5.7亿部,渗透率(占智能机)约一半左右。
经过多年的发展,智能语音人机交互产业目前已经形成了从核心技术研发到知识库提供再到应用、服务的完善的产业链。
在核心技术方面及应用方面,世界各国都在赛跑。美国设立的DARPA高科技研究计划、日本设立的“第五代计算机”技术攻关计划、欧洲尤里卡计划中对该方向均设立了专项予以重点支持。IBM、微软、Motorola、Nuance等国外著名的IT厂商也在同台竞技。
在 中国,核心技术研发环节,有小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术研究院校和科研院所;人机交互技术及服务提供商,如科大讯飞、捷 通华声、车音网等语音技术提供商及微信、QQ等平台服务商;在数据和内容提供商环节更是百花齐放;智能终端领域则有中兴、联想、华为等厂商。
不过,语音交互的爆发光靠每个产业链条的单兵作战并不足够。市场亟需一个能够整合各方资源的平台方,而这个平台方必须离用户最近,既当数据入口、也当交互中心。
语音手机便应运而生。
语音手机的辉煌时代将至
手机,离我们距离最近的移动终端,从键盘输入到触摸屏输入,用了30年时间。每一次操作方式的进步,都催生出了一批世界级的企业出现。语音手机时代的到来也不例外。
智 能终端、家电、汽车市场,在这些多样化的智能应用场景下,语音的优势以及价值一旦发挥出来,天然的交互入口导流作用,将对即时通讯、搜索、购物、LBS等 垂直应用服务市场产生巨大的影响。语音交互将凌驾于搜索引擎、社交工具等其他应用入口之上,形成一个以语音交互技术为核心的全新应用生态链。
与 传统的手机相比,未来的语音手机将支持语音唤醒手机、语音拍照、语音控制音乐播放、语音控制其他APP等等。当你驾车时,用语音可以唤醒手机、解锁手机, 用语音直接拨叫通讯录里的号码,接听电话,而不用担心影响注意力;当你用手机自拍时,用语音就可以拍出一张完美的照片,不用担心手抖的问题;当你想在手机 的众多软件里搜索你需要的软件时,运用语音指令就可以迅速启动软件。
这些功能体验也许还谈不上完美,但我们已经看到,有越来越多的玩家正在加入这一阵营。随着支持语音功能的手机、软件、应用,以及其他硬件产品越来越多,语音交互积累的数据和交互的体验质量相互促进,万物语音的时代真的已经不远了。
当然,在此之前,个性化的语音识别和语义理解技术还需要持续改进,水滴石穿,非一日之功。语音时代前途光明,语音手机大有可为。