智东西(公众号:zhidxcom)
文 | 韦世玮
近日,搜狗联合西北工业大学音频语音与语言处理研究组(以下简称搜狗西工大联合团队),在近期举办的语音顶级会议InterSpeech2020的DeepNoise Suppression Challenge(深度噪声抑制挑战赛)中获得冠军。
目前,搜狗西工大联合团队在比赛中使用的神经网络模型论文《DCCRN: 用于相位感知语音增强的深度复数卷积循环网络(Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement)》已被InterSpeech 2020接收。
这场极具影响力的赛事亦吸引了亚马逊、索尼、Facebook、字节跳动、中国科学院声学所、卡耐基梅隆大学和首尔大学等全球知名企业及院校参赛。
那么,搜狗究竟是如何一路过关斩将,从竞争激烈的挑战中脱颖而出?智东西特别与搜狗相关负责人聊了聊,在回顾这场精彩竞赛的同时,也进一步了解这项技术背后所带来的行业意义与价值。
一、双赛道复杂语音难度高,实时赛道超亚马逊夺冠
DNS挑战是一项单通道语音增强比赛,参赛者需要使用自己训练的AI模型对微软提供的盲测试集进行降噪处理,并由微软根据语音增强效果做出评测。据悉,微软为各位参赛者提供的数据集约长达500个小时。
此外,DNS挑战共分实时与非实时两条赛道。
实时赛道中,经过模型处理的Tms/帧的语音,在2.4Ghz的Core i5四核处理器上的处理时长不能超过T/2ms,同时使用的未来帧信息不能超过40ms。
非实时赛道中,尽管该赛道对语音的处理时长没有明确的限制,但参赛者使用的未来帧也不能超过40ms。
与此同时,官方提供的测试语音类型包含混响,以及在各种真实环境下录制的语音,大大提升了DNS挑战的难度系数。
尽管如此,搜狗西工大联合团队在复赛中还是以超过亚马逊0.03 MOS分的成绩,取得了实时赛道第一名。
▲DNS挑战复赛结果
二、基于复数卷积模型,降噪精度提高
据了解,DCCRN降噪网络将近年效果较好的卷积循环神经网络拓展成复数卷积形式,并采用复数卷积与复数LSTM,加上跳连有效地提升降噪能力。
▲DCCRN模型结构图
其中,复数卷积由原先的卷积核处理实部与虚部转变而成,两个卷积核分别处理实部与虚部,再通过复数乘法规则将其相连,有效地提升实部和虚部的估计精确度。
▲复数卷积
不难看出,与常规的AI降噪模型相比,DCCRN降噪网络最主要的创新在于采用了复数卷积模型。
“相比于常规的实数神经网络,复数卷积使用了复数乘,利用复数间的相关规则,以及实部和虚部之间的特性,有效地提升实部和虚部建模效果。”搜狗相关研发人员谈到。
但他也提到,对通话等具有低延迟要求的场景而言,DCCRN降噪网络的延迟性能还需进一步优化。
与此同时,除了进一步提升低延迟网络的降噪性能外,搜狗和西工大ASLP的研究人员还需针对低功耗设备,对内存和计算资源占用进行优化。
三、率先落地搜狗AI录音笔,语音主观听觉得分提升30%
实际上,目前国内外的AI降噪技术主要落地在语音通话等简单场景中,在录音笔等复杂场景中的落地仍较少。
基于自身长期构建的搜狗录音笔业务,现阶段搜狗智能录音笔已经应用了自研的AI降噪算法PureVoice,本次评测的新技术未来将会逐步在搜狗各应用落地。
搜狗研究人员谈到,与降噪前相比,使用DCCRN网络降噪后的语音主观听觉得分,提升了近30%,不仅让录音笔在各类复杂的噪声场景中实现更清晰有效的拾音,亦大大提升了用户的听感体验。
例如,基于clairVoice8麦克风阵列算法和pure Voice AI降噪算法,搜狗AI录音笔S1不仅能对汽笛声、风声、键盘声等4万种噪声进行深度智能降噪,同时还可根据用户周围的环境智能识别噪音,进行过滤消除,从而实现对人声的增强。
有趣的是,在今年4月罗永浩的直播首秀中,他利用吹风机和揉糖纸的噪音对工作人员的录音环境进行了肆无忌惮的“骚扰“,但在搜狗S1录音笔开启AI降噪功能后,工作人员的声音亦变得十分清晰。
据了解,除了搜狗AI录音笔之外,未来搜狗还计划进一步将这项AI降噪技术应用到搜狗输入法等语音产品中,并逐步由内而外地赋能行业更多的语音产品。
结语:为语音行业发展提供更广阔想象空间
在语音交互技术越来越日常化的今天,如何能在嘈杂环境中捕捉到人们想要获取的关键信息,亦是AI语音技术不断为之努力的方向,而搜狗AI降噪技术率先落地于AI录音笔,不仅是对更复杂语音场景中的一次挑战,亦为这项技术拓宽了落地路径。
回顾这场全球顶级的语音大会,搜狗西工大联合团队拿下的好成绩,不仅让我们看到了中国企业和院校在国际舞台上强劲的技术实力,同时也让我们对AI降噪技术在未来更广阔的行业应用充满想象。
附:
比赛结果:https://dns-challenge.azurewebsites.net/phase1results
论文地址:https://arxiv.org/abs/2008.00264
Demo地址: https://github.com/huyanxin/DeepComplexCRN