展会信息港展会大全

Siri引领语音识别技术成熟
来源:互联网   发布日期:2011-11-23 22:39:27   浏览:15524次  

导读:导语:英国《卫报》周一发表分析文章称,语音助手功能Siri成为了苹果iPhone 4S的一项重要功能,但语音识别技术由来已久,如今该技术已经逐步发展成熟。 以下是文章全文: 一位男子在电脑前坐下,然后轻声说道:计算机。然而电脑并未作出任何反应,该男子对这...

    导语:英国《卫报》周一发表分析文章称,语音助手功能Siri成为了苹果iPhone 4S的一项重要功能,但语音识别技术由来已久,如今该技术已经逐步发展成熟。

    以下是文章全文:

    一位男子在电脑前坐下,然后轻声说道:“计算机”。然而电脑并未作出任何反应,该男子对这电脑又说了一遍:“计算机”,还是没有反应。旁边的人已经没有耐心,对他说:“用用键盘”。该男子回应道:“键盘?真奇怪。”

    以上场景出自1986年电影《星舰迷航记4》,工程师斯库提(Scotty)以及其他船员从23世纪穿越回地球。斯库提需要使用电脑完成一些工作,要知道他们在23世纪时全部使用的是语音命令,而不是上世纪80年代那样的复古操作。

    如果上述电影场景发生在35年之后,也就是现在,斯库提仍旧会对电脑的毫无反应感到困惑。除非他拿起一款最新智能机,该智能机可以对人类声音做出回应,并成为了最新潮的人机互动方式,它就是iPhone 4S。

    iPhone 4S

    自从iPhone 4S十月份上市以来,人们开始购买并使用苹果新手机的Siri功能。Siri是一项语音导航助手,可以接收语音命令,确定或取消约会,发送邮件,电话呼叫,网络搜索。它能够完成秘书所做到的一切。

    Siri并不只是一项语音识别工具,它可以将语音转化成文本,并以电邮或短信的方式发送出去。Siri可以对天气情况进行预测,进行汇率转换或提供股票价格,并对天气现象进行解释。

    很多人认为Siri并不是一项新技术,我们多年前就可以进行语音电话呼叫,谷歌也已经提供了语音搜索应用。但是专家称,Siri可能代表的是一种更加精细的技术革命,就像iPhone在2007年1月推出时的多点触摸屏。它不仅能进行语音呼叫和语音识别,还可以将语音转化为文本,也就是“自然语言理解”(NLU)。

    NLU

    NLU连同图像识别、智能机器是多年来一直未能解决的计算问题,不过现在我们可以让机器强大到足以理解我们所说的话。NLU技术面临的第一个挑战就是语音向文本转换的复杂性,发音的类似将导致处理结果的不同。其次,机器需要理解字面信息和画外音。

    IBM超级电脑沃森(Watson)今年2月震惊世界,它此前参加了智力竞赛节目Jeopardy,并与Jeopardy两位冠军进行PK。IBM工程师表示,参见Jeopardy节目肯定不是沃森的最终目标,它展示的是此前电脑从未展示的能力,并与拥有广泛知识词汇的人类进行互动。

    沃森现在开始着手解决人类健康问题,并使用了Nuance的语音转文本技术,未来还可能用来解决一些医疗难题。

    技术实现

    NLU是人们都年来一直希望实现的一项技术。1996年,比尔·盖茨宣布,到2011年时,人们就能开发出具备人类语音和面部识别技术的电脑。就是在今年,如果把智能机算作电脑(最起码智能机功能能够达到2001年笔记本的水平),盖茨的寓言已经实现。最新款Android智能机已经具备面部识别解锁功能,语音功能我们仍在努力实现。

    然而现在的语音技术还不完美,Siri服务器已经出现了多次宕机事故。不过Nuance公司的尼尔·格兰特(Neil Grant)表示:“时间将会解决所有连接问题。”

    随着技术的日益成熟,人们与电脑间的语音互动也将会逐步实现。

赞助本站

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港