展会信息港展会大全

语音交互:未来的智能家居操控方式
来源:互联网   发布日期:2015-07-06 10:50:35   浏览:10326次  

导读:在很多国外科幻大片所描述的未来生活中,使用语音方式来操控家电的炫酷场景无处不在。比如在《美国队长2》中,神盾局的头子用语音操控虚拟桌面、窗帘和电视;在《钢铁侠》系列电影中,男主角回到家以后,说声想喝咖啡,咖啡机便开始冲咖啡;在《碟中谍4》中,...

科幻片中这样的未来并非凭空想象,国外的IT巨头已先后以智能家庭产品与语音相结合的方式进入智能家庭领域:谷歌收购NEST布局智能家庭,不断强化GoogleNow的语音入口;苹果HomeKit智能家居平台与Siri也不断加强融合;微软近期也发布语音助手Cortana,为它在智能家庭领域扩展交互入口。

语音交互:未来的智能家居操控方式

从这些国外科技大佬们对语音产业的重视和投入,可以看出智能语音与智能家庭的融合是大势所趋,业内普遍认为语音作为人类信息最自然、最便捷的交互方式,必将成为未来智能家居设备中的重要组成部分。在国内,语音巨头科大讯飞也在去年8月宣布进军智能家庭市场,并于今年3月携手京东成立合资公司,宣告双方将在智能家居和语音技术领域展开全面合作。

语音交互:未来的智能家居操控方式

随着国内外巨头们对语音交互领域投入的增加,语音核心技术正逐步成熟,曾经的技术瓶颈亦在慢慢被突破。这其中语音识别技术是语音交互的基础与核心,"语音识别"技术相当于给计算机系统安装上"耳朵",使其具备"能听"的功能。该技术经过语音信号处理、语音特征处理、模型训练及解码引擎等复杂步骤,使机器最终能够将语音中的内容、说话人、语种等信息识别出来。

语音交互:未来的智能家居操控方式

(图:主流的语音识别系统框架图)

了解了语音识别的基础内容和系统框架之后我们来看看,语音识别技术要在智能家居生活中真正实用,必须要过哪5关?

一、距离:远场识别技术打破距离瓶颈

近场识别技术目前已经比较成熟,现在手机上使用的语音输入功能就属于近场识别技术,用户必须在离手机比较近的距离内说话,但在智能家居环境中,用户和智能终端之间的距离被大大增加了,用户能随意用语音控制智能家居的一个必要条件就是在无论你在客厅哪个角落发出指令,设备都能准确的识别,语音识别技术必须突破距离的障碍。

语音交互:未来的智能家居操控方式

目前室内的语音交互受到背景噪音、其他人声干扰、回声、混响等多重复杂因素影响,导致识别率低甚至无法使用,只能在相对安静、近距离的环境下使用。而远场识别技术将能够很好的解决这些问题。

二、效率:又快又准

近年来,随着深度学习理论的爆发式发展及其在语音识别领域获得的显著效果,同时Kaldi等开源语音识别工具也在工业界和学术界逐渐普及,语音识别的门槛持续降低,许多公司都具备了语音识别的能力及相关产品,但其实很多使用过Siri的国内用户都会有这样的感觉:Siri的反应太慢,说出一句话往往要等待很久才能显示结果,另外,准确率也不高,离好用还有很远的距离。

三、个性化:越来越懂你

每个人在说话时,口音、语速、口头禅都不一样,那么家里的智能设备只会识别一些基本词句显然是远远不够的,它们必须要更懂你。比如,懂你的口音、方言、口头禅以及时不时蹦出的专业词汇等。

语音交互:未来的智能家居操控方式

让智能设备适应每个人的使用习惯可能吗?答案是肯定的。这里要用的到就是语音识别的另外一项关键技术--个性化识别技术。个性化识别指的是语音识别系统具备自动学习并适应用户使用习惯的能力,你用的越多,它越懂你。一般来说,个性化识别包括发音和语言两方面。其中发音个性化主要是指系统对用户语速、口音等发音习惯的学习,而语言个性化主要是指系统可以对用户的特定词汇(例如人名、地名、口头禅、专业词汇等)具备更好的辨识性。

四、方言:普通话标不标准也照样能用

众所周知,中国的语音及语言博大精深,虽然国家在推广标准普通话方面不遗余力,但是中国真正掌握标准普通话的人群比例还是比较低的,而中国的口音现象则是纷繁复杂,甚至会出现同城市中都有不同口音的情况。因此,当这些带有或轻或重口音的人群在使用语音输入时,如果按通常的方法使用标准普通话数据进行模型的训练,就会产生很严重的适配问题,从而影响语音输入时的识别效果。

"方言"现在也不再是语音识别的障碍,得益于各类方言丰富的音频数据、特殊词汇、发音现象等专业资源以及充分利用深度神经网络的自学习特色,方言的语音识别可以得到改善。

语音交互:未来的智能家居操控方式

五、语音唤醒:真正解放双手

由于功耗等方面的限制,智能设备很难24小时都保持在激活状态。因此,要想在家里自由地控制智能家居设备,我们还需要能即时"唤醒"功能,也就是给智能设备加入"语音唤醒"技术。

语音唤醒,是指通过含有特定唤醒词的语音输入来"触发"语音识别系统以实现后续的语音交互。通过该技术,任何人在任何环境、任何时间,无论是近场(0.5米以内)还是远场(2~5米),面向设备直接说出预设的唤醒词,就能激活产品的识别引擎,从而真正实现全程无触控的语音交互。

除了说单个唤醒词实现唤醒外,更自然便捷、在技术上更具有挑战性的交互方式是在连续语流中带上唤醒词,以实现唤醒产品并同时实现操控的效果。目前,语音唤醒方案已在部分产品中取得成功应用。

结语:随着语音识别技术在距离、效率、个性化、方言、唤醒等多方面一一突破实用瓶颈,随心所欲"声"控智能家居的时代一触即发,那么这一变革多久会来?也许在明年,也许就在明天。


赞助本站

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港