运营商财经网 郭彭琪/文
作为公认的业界语音识别框架的基石,Kaldi已经被广泛用于工业界和学术界,几乎所有的语音团队都在使用Kaldi引擎来开发智能解决方案。而随着Kaldi之父Daniel Povey加入小米公司,担任小米集团首席语音科学家,一场关于语音识别技术的创新就注定将在小米诞生。日前,在小米科技园接受采访的Daniel Povey表示,随着新一代的Kaldi正式发布,其将从根本上改变语音识别的实现方式。
新一代Kaldi三个子项目全部完成
据了解,新一代Kaldi主要分为三部分,分别是 Lhotse(训练数据准备部分)、Icefall(示例脚本集合部分)和k2。其中,k2和Lhotse的核心部分已经在去年开发完成,而Icefall当时尚是一个初步概念。
如今,基于对k2和Lhotse的进一步完善,Icefall 1.0版本也正式完成,这就意味着新一代Kaldi的3个子项目全部完成布局。
对于当时为何将新一代Kaldi分为三个部分,Daniel及团队解释道:“一方面是为了降低耦合性,方便用户使用。更重要的是,Lhotse作为数据准备部分,不仅可以用在Icefall项目里,也可以用在任意其他语音识别库里来处理音频和文本数据。”
而新一代的Kaldi还着重展示了k2是如何从根本上改变人们实现语音识别的方式:实现了多轮解码(mutiple pass decoding)的示例和“双向建模”(bidirectional modeling)的模型。基于这种多层模型的优势,大大提高语音识别模型的建模能力,降低词错误率。高效的解码速度和低WER(词错误率)将为普通老百姓带来更加美好的语音识别产品体验。
新一代Kaldi明年将应用于小米产品
众所周知,在技术社区,Kaldi被认为是一个非常强大的语音识别工具库,Kaldi 集成了多种语音识别的模型,包括隐马尔可夫和最新的深度学习神经网络,被认为是业界语音识别框架的基石。
而作为开源项目,Kaldi已经运用到多个行业领域的产品当中,比如出小爱同学、苹果的Siri、亚马逊的Alexa等产品的语音识别技术都是基于Kaldi作为基础进行开发的。
新一代的Kaldi将继续作为开源项目被广泛应用多个领域。Daniel称接下来将会逐步实现新一代Kaldi的工作融入到小米产品中。以小爱同学为例,自2017年上线至今,小爱同学累计唤醒次数726亿,累计激活设备2.51亿台,月活用户数 达到7840 万。
而这一切的背后,都离不开小米语音团队依托于 Kaldi 之上打造的,适用于各种场景的不同语音模型,如远近场语音唤醒、离在线语音识别、说话人识别等通用模型,以及口语评测、语种识别、语音情绪识别等适用于具体场景的特定模型。并伴随着小米AIoT产品线的扩展,开发出一个又一个的酷炫产品,如MIUI声控拍照、千人千面的内容点播、跨设备的声纹追剧、基于童音识别的内容限制等功能,大大方便了普通用户和家庭的生活。
Daniel表示,新一代 Kaldi或将在今年年底或者明年初应用于小米产品,而现在还得继续进行不断地测试试验,为普通用户带来更加完善的AIoT产品体验。
(责任编辑:杨丹丹)