微软昨天发布了一段很有意思的视频,视频中,微软首席研究官瑞克•拉希德(Rick Rashid)解释并演示了一些关于计算机语音识别方面的重大进展,这些进展有助于机器更好地理解他用英语说的话,这些话同时被计算机自动转录下来。接着,他演示了如何将这些英语立即翻译成普通话,同时保持了自己的语音语调,听起来像自己说的一样。
有趣之处在于,微软公司表示通过对大量数据的深入分析,已经有能力将英文转换成普通话的发音说出来,当视频中的瑞克对该系统讲了大约1小时左右的英语以后,系统就可以用他的语音语调说普通话了。
微软介绍说,实现这项技术的工作流程大概是:首先程序需要识别说话者所使用的语言;然后将这些语言转换;最后再一次性的翻译,并使用另一种语言输出,同时可以保留个人声音的特点,这样就使得输出的声音不再是自动合成的效果。
虽然这项技术的细节令人难以理解,不过作为微软研究院负责人的瑞克透漏了一些信息,他说道:“大概在两年前,微软研究院和多伦多大学的研究人员们取得了一项突破,利用模拟人脑行为的‘深度神经网络(Deep Neural Networks)’技术,能让语音识别器更具辨别能力,其性能优于以往的方法。通过这种技术,我们让语音识别的错词率比以往的方法降低了30%,也就是说以前每4到5个词里面便有一个是错误的,而现在每7到8个词里才错1个。”
现阶段,用户使用前大概需要1个小时的语音输入时间,以让系统辨别每个人声音中的细微差别,同时建立相应的模型。此外,该项目已经能够支持包括普通话在内的26种语言,相信该技术在实时口译工具,语言学习工具等方面会有广阔的应用前景。