Google正在推出一款新的AI语音合成器,作为其机器学习云工具套件的一部分。名为云文本到语音的服务将适用于任何需要语音合成的开发人员或企业,无论是应用程序,网站还是虚拟助理。有趣的是,Cloud Text-to-Speech由WaveNet提供支持,该公司由谷歌在英国的AI子公司DeepMind创建。
自Google于2014年收购DeepMind以来,一直在探索如何将公司的AI人才变为有形产品。现在,使用DeepMind的算法将Google数据中心的电力成本降低40%,并且DeepMind将投入医疗保健领域。但是,将WaveNet直接整合到其云服务中可能更为重要,特别是谷歌试图从亚马逊和微软手里赢得云业务。
其次,DeepMind的AI语音合成技术是业内最先进和最现实的技术之一。大多数语音合成器(包括苹果的Siri)使用所谓的连接合成,其中程序存储单个音节 - 诸如“ba”,“sht”和“oo”的声音 - 并且将它们一起飞起来形成单词和句子。多年来这种方法已经相当不错了,但它仍然听起来很尴尬。
相比之下,WaveNet使用机器学习从头开始生成音频。它实际上分析了一个巨大的人类语音数据库中的波形,并以每秒24,000个样本的速率重新创建它们。最终的结果包括唇音和口音等微妙的声音。WaveNet于去年10月首次被整合到Google智能助理中(尽管只有日语和英语版本),现在可用于Cloud Text-To-Speech中的精选语音。谷歌表示,这项新服务提供32种不同的语音,可以说12种语言,用户可以自定义音调和速度等因素。