中国科学院声学研究所副研究员、声智科技创始人陈孝良在“CCF-GAIR 全球人工智能与机器人峰会”上,分享了人机语音交互的技术趋势与商业机遇。他提到,智能音箱为什么会引起那么多巨头的关注?因为智能音箱可能是人工智能下一个入口,但相比国外智能音箱企业,国内企业面临着很大的挑战。
陈孝良表示全球有很多有关智能音响的发布会,包括国外的亚马逊、谷歌、苹果、微软,国内包括阿里、喜马拉雅、小米、腾讯等,都在发布智能音响,智能音箱有可能是人工智能下一个入口。而远场语音交互将带动全球智能链条的创新:底层包括器件、芯片、模组;上层包括VOS、网络、产品;之后的内容服务等等都会根据语音交互的变革进行相应的改变。
但与国外产品相比,陈孝良认为国内的智能音箱企业还面临着很大的挑战。
首先是国内麦克风相对比较落后,即便国内有些麦克风在前期利用国外的技术来进行生产,这块的核心技术不在我们国内。而且我们现在做的麦克风是标量麦克风,只能取一个物理量,下一步要解决很复杂的声学问题,需要矢量麦克风,矢量麦克风是下一步的麦克风,更遥远一点。
其次是芯片。现在所有的消费电子特别偏重人工智能的,前端大量用ARM架构,LPT比较少一点,LPT用在服务端离线数据的训练,在这方面国内有很大的问题。
第三个挑战是算法。声学每个国家比较封闭,因为声学主要是为军工服务,所以相当于各个国家相互保密,只能各自发展。我国如何在原创方面比国外领先,这是很大的技术挑战。
第四个是商业挑战。现在不确认这类产品到底处在哪个启动周期。
商业挑战又可以进行划分:第一是产品,国外最著名的是亚马逊的Echo,还有国内的很多,京东、联想、小米等要发的产品,这些产品有的做过评测,陈孝良认为,能不能迈过80分的槛,这是很大的挑战。这个产品下一步怎么定义,把生态链条挖掘出来用户痛点,这是比较大的问题。第二个是内容和服务,国内的内容和服务比较割裂;第三个是知识产权,标准。亚马逊、微软都在联合生态做标准,甚至包括ARM,本身国内也是ARM生态联盟的。
在以上挑战的基础上,陈孝良又分享了技术发展的趋势:麦克风现在是标量麦克风,下一步做智能麦克风,最后要做到矢量麦克风;声光电三个学术合在一起应该怎么做,这也是下一步需要整个研究和开发的;算法与模型,包括机器学习的时候是不是只用大数据,还是可以用别的方法做一些小样数据的处理,进行冷启动,这是下一步要研究的方法。(静静)