新一代Kaldi发布将从根本上改变语音识别方式明年将应用于小米产品-语音识别-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

新一代Kaldi发布将从根本上改变语音识别方式明年将应用于小米产品

来源：互联网发布日期：2021-09-03 08:12:44 浏览：17668次

导读：运营商财经网郭彭琪/文作为公认的业界语音识别框架的基石，Kaldi已经被广泛用于工业界和学术界，几乎所有的语音团队都在使用Kaldi引擎来开发智能解决方案。而随着Kaldi之父Daniel Povey加入小米公司，担任小米集团首席语音科学家，一场关于语音识别技术的...

运营商财经网郭彭琪/文

作为公认的业界语音识别框架的基石，Kaldi已经被广泛用于工业界和学术界，几乎所有的语音团队都在使用Kaldi引擎来开发智能解决方案。而随着Kaldi之父Daniel Povey加入小米公司，担任小米集团首席语音科学家，一场关于语音识别技术的创新就注定将在小米诞生。日前，在小米科技园接受采访的Daniel Povey表示，随着新一代的Kaldi正式发布，其将从根本上改变语音识别的实现方式。

新一代Kaldi三个子项目全部完成

据了解，新一代Kaldi主要分为三部分，分别是 Lhotse（训练数据准备部分）、Icefall（示例脚本集合部分）和k2。其中，k2和Lhotse的核心部分已经在去年开发完成，而Icefall当时尚是一个初步概念。

如今，基于对k2和Lhotse的进一步完善，Icefall 1.0版本也正式完成，这就意味着新一代Kaldi的3个子项目全部完成布局。

对于当时为何将新一代Kaldi分为三个部分，Daniel及团队解释道：“一方面是为了降低耦合性，方便用户使用。更重要的是，Lhotse作为数据准备部分，不仅可以用在Icefall项目里，也可以用在任意其他语音识别库里来处理音频和文本数据。”

而新一代的Kaldi还着重展示了k2是如何从根本上改变人们实现语音识别的方式：实现了多轮解码(mutiple pass decoding)的示例和“双向建模”(bidirectional modeling)的模型。基于这种多层模型的优势，大大提高语音识别模型的建模能力，降低词错误率。高效的解码速度和低WER(词错误率)将为普通老百姓带来更加美好的语音识别产品体验。

新一代Kaldi明年将应用于小米产品

众所周知，在技术社区，Kaldi被认为是一个非常强大的语音识别工具库，Kaldi 集成了多种语音识别的模型，包括隐马尔可夫和最新的深度学习神经网络，被认为是业界语音识别框架的基石。

而作为开源项目，Kaldi已经运用到多个行业领域的产品当中，比如出小爱同学、苹果的Siri、亚马逊的Alexa等产品的语音识别技术都是基于Kaldi作为基础进行开发的。

新一代的Kaldi将继续作为开源项目被广泛应用多个领域。Daniel称接下来将会逐步实现新一代Kaldi的工作融入到小米产品中。以小爱同学为例，自2017年上线至今，小爱同学累计唤醒次数726亿，累计激活设备2.51亿台，月活用户数达到7840 万。

而这一切的背后，都离不开小米语音团队依托于 Kaldi 之上打造的，适用于各种场景的不同语音模型，如远近场语音唤醒、离在线语音识别、说话人识别等通用模型，以及口语评测、语种识别、语音情绪识别等适用于具体场景的特定模型。并伴随着小米AIoT产品线的扩展，开发出一个又一个的酷炫产品，如MIUI声控拍照、千人千面的内容点播、跨设备的声纹追剧、基于童音识别的内容限制等功能，大大方便了普通用户和家庭的生活。

Daniel表示，新一代 Kaldi或将在今年年底或者明年初应用于小米产品，而现在还得继续进行不断地测试试验，为普通用户带来更加完善的AIoT产品体验。

（责任编辑：杨丹丹）

相关热词： 新一代 Kaldi 发布从根本上改变语音识别方式

新一代Kaldi发布将从根本上改变语音识别方式明年将应用于小米产品
来源：互联网发布日期：2021-09-03 08:12:44 浏览：17668次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

新一代Kaldi发布将从根本上改变语音识别方式 明年将应用于小米产品 来源：互联网 发布日期：2021-09-03 08:12:44 浏览：17668次