1月22日下午消息,2015中国互联网产业峰会在北京召开,科大讯飞云平台事业部总经理于继栋分享了《语音云艺术:自然交互,整装待发》,他谈了科大讯飞2014年在语音方面的突破,并对预测了2015年。
于继栋指出,从2014年是语音云非常重要的一年,我们走向人脸、声闻更多的技术,在四年变化是非常大的,语音云合作伙伴从零到55000多个,激活终端6亿。
于继栋称,2014年比较重要一些改变是科大讯飞在2014年首次发布方言技术,在语音云上面做了14种方言,这些方言标志着语音技术走向非常重要的时代,就是个性化的年代。
于继栋大胆预测一下2015年,他认为“2015年是智能机器人元年。”
以下为于继栋演讲全文:
于继栋:谢谢,我今天要分享的整体是自然交互,整装出发。
在过去四年历讯飞坚持开放道路,然后在2012年到2014年更多走向交互一个阶段,也是伴随着在2012年发布也带动交互的变化。从2014年是语音云非常重要的一年,我们走向人脸、声闻更多的技术,在四年变化是非常大的,在这四年中其实我们可以看到在语音云合作伙伴从零到55000多个,激活终端6亿,那我们其实不知道大家有没有注意到在手机上所有输入法在过去四年终悄悄发生变化,每个输入法增加语音输入这个能力,这也是语音作为非常重要的输入能力也是成为广大用户非常重要的一个选择。
实际上除了语音输入之外,语音搜索占有非常大的比例,我们在平台上有数百万用户在使用语音搜索,百度公布一个数据通过语音搜索产生搜索量大概占到了整个百度搜索10%以上,从过去这种文本输入转向了到语音输入习惯中来。那这些数据背后我觉得有非常大的变化,用户习惯也是我觉得作为一个技术改变用户习惯非常困难,我们可以看到在过去几年中用户习惯在默默发生改变,2014年是变化非常之大的一年,2014年年初有人说2014年是智能硬件的元年,那确实如此我们在2014年在语音合作伙伴出现智能硬件领域智能家居合作伙伴,语音在这些领域相对于手机来说对用户来说更加重要更加自然,在2014年产生更多的合作伙伴,其实我们可以大胆预测一下2015年在讲,是智能机器人的元年,我们在2014年底,这个平台增加机器人开发合作越来越多,这些合作伙伴开发出来非常有趣的应用,最近其实有一些智能陪护类的机器人已经发布了,这些新型的一些应用其实为这个语音和自然交互带来非常重要的一些变化,那我们也期望2015年有更多交互类,以交互为中心这样一些应用甚至硬件产生。其实在四年多我们在语音方面,伴随着网络进步讯飞语音交互也在快速发展,整个交互速度比较慢的,2014年我们做的工作整个交互速度已经降到500毫秒以下,最快在4GWIFI可以做到200毫秒以内,可以形成用户颠覆,我们希望在2015年之后有更多应用,实现非常极致的体验。
那另外一个我们在2014年的变化对云和端实现融合,这个能解决问题在没有网络或者网络不好的环境下也能实现语音更好的交互体验。那我其实之前花一些时间讲语音,我们在全新语音云里面认为非常重要一个变化,我们真正走向自然交互一个阶段,我们可以看到我们现在语音提供能力过去灵敏耳朵语音识别和嘴巴的能力之外,我们发布了人脸识别技术,叫交互一个云我们提供耳朵、嘴巴最主要的交互能力,把刚才能力做一些整合,这些交互能力分为两种,第一种是确认,每一个交互要确认谁在跟我说话是不是准备在说话或者跟我打招呼这是确认技术,我们有语音唤醒系统,声纹,人脸检测,人脸识别,这才语音云非常完整的特性。说到这些能力我大概把这些能力简单分析一遍,我们作为讯飞语音云来说最近几年非常热一个技术就是语音识别技术,我们在语音识别方面一直处于业界最领先的水平,今年比较重要一些改变我们在2014年首次发布这些方言技术,在语音云上面做了14种方言,这些方言标志着语音技术走向非常重要的时代,就是个性化的年代。
我们可以看到在过去新亮点我们除了刚才说的方言之外,在我们3.0里边首次开放三合一的音乐搜索,这个是什么功能我们可以在这个应用里面自己哼唱搜索还能实现语音搜索原声搜索三合一,实现全能力的语音搜索,音乐搜索能力。
另外一个也是讯飞作为语音技术看家本领,语音合成技术,在2014年变化在我们实现多语种多音色,特色音库,个性化音库,我们希望在2015年把这些个性化的能力进一步去发展。能够给合作伙伴带来区别化的支持。还有一个技术非常重要语音唤醒,这个作用就是在于让我们智能硬件或者手机终端随时待命,如果主任有召唤叫它的名字跟我产生一些交互,这个也是非常重要的,也是我们在云开放平台在今年主推的非常重要的方面。
另外我们在语音方面推出声纹识别,一种类似于密码,最经典的密码就是芝麻开门了,然后另外一种能力就是声纹鉴别通过声音鉴别这个人是谁,这两种能力有非常多的不一样的应用场景。那我觉得在2014年非常重要变化从语音交互走向全面自然交互能力,首先要说就是人脸识别能力,那也是得益于人脸算法2014年得到非常大的提升,首次人脸识别技术首次超过自然人眼睛识别能力,通过人脸声纹实现非常高度的身份鉴别这种能力。
还有手也是非常重要的,在交互过程中如果在人跟人交互手是非常交互的能力,在未来很快就会开放出来,实现全面自然交互能力,那最后其实最重要的就是大脑,如果没有一个好的大脑其他能力组合起来也不能表现非常智能,讯飞在2014年启动讯飞超脑计划,能够帮助人类实现智能,另外除了这些能力之外我们有非常基础的能力在开放,我们在2014年10月开放语言云,分词、词性标注、句法分析、语义分析,这是我们一个小的发布。另外我们后天发布一个全新的语音能力,假如我们合作伙伴非常感兴趣可以去现场感受我们技术为未来将带来哪些颠覆,讯飞云作为云计算PVS平台希望最终打造交互生态,我们除了丰富语音交互能力,我们在创新交互式广告希望在广告领域做一些探索,另外我们其实积累非常多的数据,我们现在平台开放大数据能力,希望为开发者开发伙伴提供运营的支撑服务,另外我们也在平台上面推出开发计划,希望开发者创业者在我们平台获得更多支持。那我们整个讯飞作为交互式平台这样一个初衷,希望通过自然交互能力,能够让我们用户体验到自然交互的快乐,能够让我们开发伙伴实现我们共同的梦想。
那我的演讲大概就到这里,谢谢大家。