智能语音技术是道坎-自然语言处理-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

智能语音技术是道坎

来源：互联网发布日期：2012-07-30 21:16:39 浏览：34362次

导读：某一天，人可以和一台机器人进行无障碍的交谈，人脑和机器人的电脑将没有区别在一些美国大片里，这样的场景经常出现，不过从事智能语音技术研究的科学家对此并不乐观。中国科学院声学研究所所长助理颜永红在接受《中国科学报》记者采访时说：不管是现在，还...

某一天，人可以和一台机器人进行无障碍的交谈，人脑和机器人的电脑将没有区别在一些美国大片里，这样的场景经常出现，不过从事智能语音技术研究的科学家对此并不乐观。
中国科学院声学研究所所长助理颜永红在接受《中国科学报》记者采访时说：“不管是现在，还是可见的将来，这样的场景都不可能出现在真实社会，因为通过技术手段很难实现。”
智能语音技术小有成绩
从科大讯飞(002230,股吧)的手机语音软件讯飞语点到iPhone 4s的Siri应用功能，用户可以通过语音，向自己的手机“发号施令”。
讯飞语点的开发基于科大讯飞“语音云”技术。来自科大讯飞公司的数据显示，当前该技术的终端用户已达3000万，每天在线用户超过120万。除了手机，“语音云”技术的应用还涉及车载、互联网电视、智能家电等多个领域。
iPhone 4s的Siri应用功能在自然语音处理方面比较智能。曾有媒体报道了Siri在国外的应用，比如就“生活的意义是什么”这个语音提问，Siri将给出至少3种不同的语音回答，分别是“我在思考这样的问题”、“我不知道，但是我想应该有其他App可以解决这个问题”、“我回答不了，但是给我些时间，让我写个什么事也没发生的长剧本”等。
此外，智能语音技术在搜索引擎领域也有着很好的应用。由中科院声学所参与研发的百度语音搜索引擎，可以下载到手机客户端，根据人的语音指令，进行搜索。腾讯搜搜和QQ语音输入法也是基于声学所核心技术开发的。
除了正常的语音输入，百度语音搜索引擎还可以通过用户哼唱的旋律，找到对应的曲目。虽然现在这项技术已经在多款语音软件上得到实现，但它最早是由中科院声学所中科信利语音实验室（现名中科院语言声学与内容理解重点实验室）从事研究，并在两个月时间内完成开发的。
身为实验室的主任，颜永红告诉记者，该实验室的语音识别技术在国内多次获得第一名，音乐检索技术在世界音乐搜索组织（MIREX）评测中连续4年获得第一名。
尽管智能语音技术取得了不少成果，颜永红表示，当前智能语音技术成熟度仍有待大幅提高，尤其是核心的自然语言理解的处理技术。
深语义理解之难
智能语音主要包含两项技术，分别是语音识别和自然语言理解。语音识别就是将简单的发音变成文字，而自然语言理解则包含对语义的判断。换句话说，语音识别是语音到文字的抄录，而自然语言理解则让计算机做到像人一样的思考。
目前的情况是，用户往往对计算机的人机对话实现功能期望过高。人对一项事物的描述可能有多种形式，而在计算机的记忆条目里可能没有记载那么多数据。
另外，每个人的知识领域有着一定的边界，颜永红举了一个简单的例子，比如一个化学家向一个作家讲述他的研究成果，作家可能会不知所云，因此，计算机很多时候也会听不懂人话。
当前，计算机智能语音技术并不成熟。颜永红说：“相比较而言，语音识别技术的成熟度相对较高，而自然语言理解在深层次理解的实现上还存在很大难度。”
虽然语音识别依旧会存在从语音到文字的输入错误，但颜永红表示，只要搜集大量的语言和语音模式，比如方言的口音，并输入计算机，这项技术的突破就会更快一些。
智能语音技术最核心的部分是计算机如何准确揣摩人的心理，并在人机对话中给出正确答案。给计算机输入简单的数据不难，比如地图、算术法则、文学库和歌曲库，“难就难在如何让计算机处理不确定的问题。”颜永红说。
颜永红客观地表示，当前自然语言理解的技术突破在短期内无法实现。换言之，这也是机器人和人永远的差别，那就是感性认知。
应用面尚不够宽
颜永红告诉记者：“相对于用户的期待，智能语音当前的应用领域仍然比较狭窄。”一方面受制于核心技术难以突破，另一方面也与该技术的研发投入有很大关系。
以语音识别技术为例，颜永红表示，多语种、多方言的语音识别技术可以实现。只需要将各种语音输入数据库，但问题是谁来搜集这些信息？
如果是商业机构，那么赢利是主要目的，但一些语种和方言的受众比较有限，这些商业机构不得不担心可能会入不敷出。“因此，商业机构会谨慎地对待此事。这也是当前智能语音在民用技术领域发展的一个现状。”颜永红说。
另外，不少从事智能语音开发的小企业，他们没有实力参与智能语音核心技术的研发，产品多数通过现有技术的合成，往往技术含量较低。相反，大企业有充足的资金和研发团队，还能及时发现并将好的资源和创新应用收入囊中，苹果收购Siri就是最好的证明。
虽然国内的语音企业和科研单位开发了不少应用，但颜永红表示，在全球智能语音技术市场，国内企业的技术相比一些国际大企业还存在着一定差距，特别是在多语言支持方面。曾有业内人士提出质疑，一旦大量用户群体同时使用讯飞语点，该软件的后台能否给出及时回应就不好说了。
与此形成对比的是，苹果收购Siri，使用了Siri开发商Nuance Communications的语音识别技术，该公司一直以来致力于语音识别技术软件的研发，苹果公司在此基础上进行研发，起点就比其他智能语音公司高。“这也是苹果Siri在世界智能语音技术领域能保持相对领先的原因。”颜永红说。

相关热词： 智能语音技术道坎一天可以一台机器人进行无障

智能语音技术是道坎
来源：互联网发布日期：2012-07-30 21:16:39 浏览：34362次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

智能语音技术是道坎 来源：互联网 发布日期：2012-07-30 21:16:39 浏览：34362次