图片来源:摄图网
6月28日,由上海新沪商联合会主办的“第二届长三角民企发展大会”在上海举行。科大讯飞股份有限公司(以下简称“科大讯飞”)轮值总裁胡郁出席了本次大会,并发表了演讲。在此次大会的间隙,胡郁接受了《每日经济新闻》记者的采访。
人工智能并不遥远,其相关应用已经不知不觉中渗透进人们的生活。例如,在本次长三角民企发展大会现场,会实时将演讲嘉宾的讲话语音转换成文字,并在大会主舞台的屏幕上同步显示。这是采用了科大讯飞所提供的智能语音转写系统“讯飞听见”所生产的大会字幕。不过,虽然准确程度颇高,但也不乏一些专业字词错误。
对此,科大讯飞轮值总裁胡郁接受《每日经济新闻》记者采访时表示,将从识别方言、中英文混读、专业词汇,以及降噪等多个方面进行优化,以期降低错误率。
降低错误率仍有多个难题要攻克
智能语音识别作为人工智能的关键组成部分,从软件开发者的角度来说,如何进一步降低语音识别错误率?
胡郁在回答《每日经济新闻》记者提问时表示,主要还是有几个方面的难题需要攻克,需要研究人员来解决这些问题。一个是口音的问题,有很多人的普通话可能没那么准,存在一些方言夹杂、口齿没有那么清晰的情况。第二个,现场环境是不是足够的安静。因为现场环境有些噪声的话,还需要用一些降噪的方法,才能够不断提高智能语音识别系统的性能。第三个是有一些关于中英文混读的情况,中文和英文混杂的时候,现在处理的还不是特别好,虽然已经比以前要强很多。最后一个,就是一些专业词汇方面,有些词汇只有在特定的场景下,才知道它是什么意思。一些同音词汇是很多的,也有可能会出现一些同音词方面的问题。
胡郁提到,技术肯定是在不停地进行优化的。他举例称,当天大会现场看到的将语音转换成文字同步到大屏字幕的语音转写系统,相比两三年前,准确度已经提高了很多。现在像这种上屏的字幕准确率在95%以上。如果是几年前,可能只有90%左右的水平。
除了发力语音识别这一场景下的智能应用之外,胡郁提到,科大讯飞在教育、医疗、政法、智慧城市等多个方面和场景下都有延伸和覆盖。语音识别只是语音技术中的一个很小的点,科大讯飞现在也不仅仅做语音技术,也做人工智能的认知智能,还有很多其他方面。
人机交互将更多能通过语音实现
5G转瞬即来,谈到在5G的框架之下,如何搭构新一代的人机交互的语音技术时,胡郁表示,在5G时代有非常多的发展机会。
胡郁提到,5G的响应速度会非常快,响应速度延时现在也达到了毫秒级。这对于将来的语音、图像的交互,是非常有机会的一个点。另外,5G会带来内容的大爆发,例如高清视频、游戏这些内容的爆发,也会让人工智能在里面应用的机会增多。比如对于内容的处理,对于内容的自动剪辑,或者要给内容增加一些语音的标注,这些方面都会有新的发展机遇。
对于“万物互联”的构想,从简单的在家庭中的应用来看,胡郁表示,未来万物互联会在家庭里面的很多设备和产品,在它们跟人的交互中间起到一个新的入口的作用。家中的家电、玩具、机器人等彼此间都能够有连接,而且我们和它们,即人和物之间也能建立连接。人和物之间建立连接,原来是通过一些按键、控制面板的方式,用触摸等操作来实现的,将来可能会越来越多地在里面用语音的方式实现,就像我们人和人之间交流一样。胡郁认为这样的连接会越来越普遍而广泛。
胡郁表示,科大讯飞自身的定位是在人工智能领域的一家技术创新型公司。这需要通过一系列的品牌、市尝产品,要能够进入到大家的生活当中去,需要时间来逐步建立大众对科大讯飞的更多认知。
每日经济新闻