2020科大讯飞全球1024开发者节今天正式拉开帷幕,伴随着AI的发展,我们得以更全面和细致地洞察人们的生活习惯,并为人们提供更加智能和便捷的服务。在人工智能的应用场景中,最重要的一个就是语音交互。针对这一点,科大讯飞AI研究院常务副院长刘聪做了细致的讲解,让我们对当前语音交互技术有了更清晰和深入的了解。
科大讯飞AI研究院常务副院长--刘聪
我们知道语音识别是讯飞的传统强项,从早期的呼叫、导航到2010年发布的讯飞超脑语音云和输入法,从而开启了中文语音输入的新时代。通过深度学习等框架持续的迭代效果,我们又陆续推出了方言识别、远场交互、多麦克风阵列等相关的功能。2015年,我们又将人机交互的场景拓展到人人对话的场景。为此我们总结出三点,我们将语音听写从简单场景的可用做到了通用。这种场景的好用,语音转写从原来的不好用,做到了像演讲、会议、庭审等很多复杂场景的好用。像语音控制、命令唤醒,我们也是从简单场景的可用,做到了复杂场景的好用。
随着现在语音识别在更多场景的应用,语音识别的下一步发展方向是什么?又有哪些技术可以从实验室场景走向成熟,还有哪些价值得我们发掘?
首先,我们认为语音识别需要持续的去挑战更加复杂的场景,去实现从语音到声音,从单纯的文字内容识别到音频的全场景解析。例如现在我们在泛娱乐当中,直播、短视频,我们可以看到这里面有很多的更加复杂的声音场景需要我们去解决。例如在直播的过程中,背景可能是复杂多样的,可能有视频声、游戏声或者音乐声。此外直播连麦的时候还会经常出现多人混叠的对话,这些对我们的语音识别都会有很大的影响。除此之外,这些视频当中还会包含像笑声、掌声、各种音效等声音,所以我们需要提出一些新的方案。当前的框架已经难以去解决这样一个复杂的问题。
针对这样一个场景,我们一方面需要降低各种背景的噪声对识别精度的影响。另外一方面,要有针对性的将我们感兴趣的声音提取出来。这里我们也是展示了全场景音频解析的整体方案。首先我们是通过多分辨率特征提取的声音检测方案,再结合我们的序列训练,对一些相似声音进行精细建模,可以实现将笑声、音效等非语音的声音和语音内容分离。针对包含语音的有效内容,我们也使用了语音降噪和分离的方案,综合利用我们的声音、文本、说话等信息,以及在有条件的情况下,还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。以上这些才能保证我们能够持续保持语音合成以及语音识别技术的领先。
与此同时,我们也和合作伙伴一起,不断提升在直播等复杂场景上的语音识别效果,并且准确率从60%提到了85%。未来我们相关的技术也会在我们的开放平台讯飞听见等上线。未来,我们会做得更好,请大家继续期待。
(7548950)