梁家恩曾是云知声CEO,在去年12月底公司管理层架构变动之后,担任CTO一职,中科院自动化所毕业的他和云知声现任COO康恒是多年的好友和同学,也正是他们两人联合创办了现在中国炙手可热的语音技术公司云知声。
跟朋友提起云知声,他们第一反应是,不是一周拿下搜狗的那家公司吗?有人开玩笑说“什么?拿下搜狗?拿下锤子吧?”从今年三月份开始,云知声因为与这些厂商的合作而崭露头角,更是在与乐视TV和联想的合作中引发业界广泛关注,在国内掀起了一阵语音热潮。2013年10月,云知声获得1亿人民币投资。
图:云知声 CTO 梁家恩
2005到2006年,语音行业的迷茫期
其实早在计算机发明之前,就已经有人开始研究语音技术,期间历经起起伏伏但未能引起足够重视。真正引起轰动的是IBM在1998年推出的ViaVoice,可以将用户所说的话转换成文字,但因为当时的技术所限,识别率能达到70%以上就已算相当不错,而语音技术要达到真正可用地步,识别率应该在85%以上。
回头看,ViaVoice本身的实用性远不如它掀起的行业旋风来得有意义。ViaVoice诞生以后,无论科技界还是国家政府,对语音都高度重视,投入加大,研究人员也积极投身这个领域,据说当时中科院自动化所里,研究语音的博士硕士都非常多。但大约在2004年、2005年的时候,大家觉得语音技术并没有进入到完全成熟的状态,做到百分之七八十的程度便无法突破,因为识别率低,用户寥寥无几,所以语音行业在2005年和2006年处于一种非常迷茫的状态,从业者看不到未来,所以那一次热潮中起来的研究人员都转到别的方向。英特尔整个语音小组被裁员;贝尔实验室的研究人才也流入新加坡、加拿大高校教书。
直到2009年、2010年,苹果、Google忽然在语音上发力,确切一点说是Google在网页和Android手机上提供语音功能开始,大家又开始重拾语音技术,认为应该把这项技术实用化。所以对于一直从事语音技术的人来说,听到这些变化之后特别激动。之所以这么说,是因为大家虽然从业多年,但一直没有勇气要去做一套类似的系统,他们不敢做、没资源做,结果发现苹果做了,后来Google也做了Google Now,所以大家觉得语音技术进入一个新的时代,再往后应该更加智能。
中国的语音技术圈
在这种情形下,圈里的人都开始汇集起来,琢磨着做出自己的一套语音系统。
2011年,梁家恩、康恒两人在认真研究过Siri以后,发现凭借自己的技术能力,其实可以做出比Siri和Google Now更好的产品出来,并且在中文方面更具优势,再加上整个行业的需求已经到了一定程度,无论银行、保险还是政府,对语音都存在巨大需求,时机已成熟,遂开始谋划创业这件事。
然而语音技术不是一两个人就能搞定的事情,他们需要一整个团队;语音技术也不是初出茅庐的毕业生能搞定的事情,每个模块都需要精英,谋定之后,两人开始寻找人才。
语音技术这个圈子很小,整个中国语音行业也没多少人,2001年梁家恩进入中科院自动化所那时候,研究语音的大部分人都来自中科院自动化所、中科院声学所、清华、北大,中科大,大家几乎都认识。到2005年暗淡期的时候,这方面人才急剧减少,所以坚持下来的人,大家都相互很熟,到要做的时候,经常在一起聊行业聊工作的,看到这种形式,大家自然而然就觉得要在一起,能互相信赖,因此他们找人也相对顺利。
云知声现在的核心算法团队一共有三四十个人,最初梁家恩是总工程师,康恒更多负责平台方面的事情,平均年龄在30到35岁左右,因为太年轻,刚毕业的人没法解决问题,技术门槛太高,为什么说它高?这就是我们接下来要重要说的技术。
为什么说语音技术是一种搜索技术
总体来说,语音技术一共有三大部分:语音识别、语义理解和语音合成,三部分形成一个完整的闭环。相较而言,语音识别是更为复杂的技术,云知声前期便从语音识别技术出发开始往外扩展。
语音技术可以从两个维度去说,第一个维度的语音技术就是一个搜索技术,在知识库和语音模型之间进行搜索,找到一条词与词之间相匹配的路,找到概率最大的词。
但语音的搜索和通常意义上的搜索引擎的搜索不同,搜索引擎是做关键字的匹配,而语音的搜索是要找一个概率最大的文本,也就是找到与你说出来的声音的信号最匹配的文本信号,这就是为什么说现代语音问题是一个概率统计问题的原因。
搜索过程有一个很大的网络,网络里有各种不同的词,词与词之间是有关系的,比如中文里有40万个词,包括你我他、爱、中国、天安门、毛主席,如果我说一句“我爱天安门”,他要做的就是在预定义的所有句子里边,找出“我爱天安门”这个序列,其他可能的还包括“天安门爱我”、“毛主席爱我”等,这些不同的连接都是网络的状态。如果以每一个词作为节点,每一个词都可能走到其它节点。
因为网络中每一个节点都有通路,所以这是一个呈几何爆炸的计算量,而不是线性爆炸的计算量。这比简单的搜索孤立词要难很多,比如最早的金立语音王,将电话本作为词库,要搜“张三”,它很容易做到。比如词库有500个人名,那么一次就能搜到“张三“,系统只需要跟500个人名做匹配,路径是单一的。如果搜“请把张三的电话发给李四”,这样出现的可能组合就是500x500个,就这么简单的扩展,搜索的量就呈几何翻翻,更何况在通用识别领域,更是复杂,词汇量更大,并且系统无法预知你要说几个词,所以路径有太多的可能性,比如词库有5万个词,你说了10个字,那么他就要搜索50000的10次方那么多。以此类推,可见语音搜索量之庞大。
算法,语音技术的灵魂
从另一个维度来说,语音技术最重要的是语音模型。现在大部分语音技术公司采用的还是李开复的语音技术统计模型,这种技术最核心的部分是隐马尔可夫统计模型,它本质上包括这几个模块:
首先是特征提龋该模块又包含两大核心部分,一个是抽取说话中比较重要的信号和特征,将说出来的声音,通过信号处理手段转换成模块输入,并从各个频段上模拟人耳接收信息的过程,直接将声压信号转换成数字信号,提取出直接能反映说话内容的特征;另一个是处理噪音,使声音能被识别器很好识别。
接下来是最核心的模块解码器。它包括知识库和声学模型,解码器就是将特征提取过程中提取的特征输入系统,在知识库、声学模型里进行搜索,最终输出识别结果。这部分最重要的就是知识库,以及对声学模型识别至关重要的算法。
在知识库上:创业之初,云知声花了大量时间和资金去采集样本,整个团队拉上亲朋好友去录音、做标注,并通过这些数据训练出一个语音识别系统,那时候的识别率在80%左右。在天使投资进入以后,云知声自己搜集数据的工作就交给了第三方数据外包公司,一直到去年九月底,他们通过很多途径搜集了大约几千小时的录音,识别的准确率也提高到了85%以上,并且在发布语音云之后,有更多厂商参与进来,因为用户使用量大增,短时间内公有云的语音系统就搜集了庞大的数据。新的数据进来以后再让外包公司做标注,然后再加入云知声的训练系统,就形成了一个良性循环。
知识库的投入一直是云知声支出的很大一部分,最初占20%左右,后来有所降低,但数据仍旧是非常重要的资产。
在算法上:因为它是语音技术的灵魂,云知声自然在这方面下了很大功夫。在以前,有一万小时的数据,若识别算法不好,识别率只能达到90%,而更好的识别算法用同样的数据跑一遍,识别率可能在95%以上,所以云知声年初的时候在算法上下了很大的功夫。在微软的深度学习算法出现以后,梁家恩第一时间对该算法进行研究,并将最精髓的部分纳入云知声识别系统。让整个识别精度大大提高。
云知声语音模型的演变
神经网络在之前就是一个很火的概念,被用来解决“分类”问题,例如人脸识别等。2006年,加拿大科学家首先提出深度神经网络,但因为它计算量很大、层次很深、节点又很多,非常复杂,所以未能引起广泛关注,后来被微软发现这种模型可以投入科技应用,虽然微软的语音产品不好用,但是深度神经学习的技术应用于大量词汇连续语音识别的先河却是由它开创的。
和大多数语音技术公司一样,云知声最开始也采用高斯混合算法解决声音匹配问题。在微软提出深度神经学习技术以后,云知声算法团队便开始研究这种技术,也将高斯混合算法换成了深度神经网络模型,并发现它在解决声学匹配方面更好,理论上和人脑神经感知的方式相当接近。
但在深度神经网络中,计算量太大,可能比高斯模型计算量要大好几倍。因为人在不停地说话,你需要以很快的速度识别出说话的结果,这才有价值和意义,所以深度神经网络不仅对解码器也提出了很大挑战,对硬件的要求非常高,当时微软做的时候,对外宣称用很强大的电脑用了一个月时间才做出第一套模型,硬件投入可能上百万甚至千万。
云知声在认真研究之后,不是仅仅把微软文章中的公式直接转化为对应的代码,而是深入分析原理,用最高效的方式实现同样的效果,再把计算量最大的部分用汇编语言改写,充分利用最新CPU的特性和处理能力,一层一层优化。这样不仅大幅提升了准确率和速度,还能用云知声自己组装的电脑,在硬件上投入十几万,一个星期算出一套模型,虽然算不上快,但相比之前已经好了很多。
云知声深度神经网络模型最后许多的代码都是拿CPU的汇编语言写成的,所以这就需要极强的工程能力,这就是为什么云知声工程团队普遍高学历高资历的原因。整个团队语音团队核心成员几乎都是博士毕业,且在这个领域有十几年工作经验。他们都是一些真正理解语音技术核心代码的人,因为语音技术是机器学习,有许多参数需要调整,他们需要明白调整哪些参数会往好的方向发展。没有做过语音的人,很难知道如何去调整。
不仅云知声,其他公司的语音技术核心成员也是做语音研究多年的人才,包括百度的、科大讯飞的,科大讯飞创始人刘庆峰甚至就是云知声CTO梁家恩的大学同学。
以快致胜
云知声与搜狗、锤子和乐视的合作也有几分传奇色彩。
与搜狗的合作,从最初商务人员接触到最终帮助搜狗语音助手上线,只有一周多时间。其实在合作之前,早在2011年年底,搜狗就开始投入资金和人力去做语音服务,在2012年9月底云知声推出公有云的时候,搜狗已做出了自己语音助手的雏形,只缺底层部分。最开始搜狗的首选一直是科大讯飞,后来与云知声接触之后,后者一直帮助搜狗优化系统,语音助手的效果也因此越来越好,终于在两个月之后,搜狗完全放弃了与讯飞合作的念头。
2013年5月,云知声与乐视TV达成合作。在搜狗语音助手上,云知声主要提供的是云端语音识别,而在乐视超级电视中,则集成了云知声的本地和云端识别,同时其语义理解实力也开始展露头角。在刚过去的2013年末,云知声还与联想笔记产品乐云记事达成合作。
从目前来看,与之合作的几乎都是互联网公司,做事风格干净利索、雷厉风行,云知声极强的执行力,也许也是它拿下这些互联网公司的重要原因之一。
总结
在不到两年的时间里,云知声已从一个十几人的小团队,发展成了上百人的企业,收入上千万美元,私有云的开发者数量已经增加到了两千多家。对于未来的打算,梁家恩表示,会继续在通用领域以及视频、地图、IVR等专业领域提高识别率,给用户带来更好的体验。