文|百晓
11月21日,搜狗对外发布了语音实时翻译技术。当然,这并非搜狗语言实时翻译技术的首次亮相,在刚刚结束的第三届世界互联网大会上,搜狗CEO王小川就曾在现场演讲中演示该技术,每当王小川讲完一句话之后,其身后屏幕便实时完成了语音和文字转换,延迟只有2秒。
这项技术是基于大数据和深度学习,结合了搜狗自主研发的语音识别、机器翻译两项重要技术,从无到有的研发过程仅历时3个月。“之所以语音团队会去做翻译,是因为随着技术的慢慢交叠和融合,我们发现语音识别和机器翻译都是一个序列到另一个序列学习过程,因此,语音的积累也就可以转到翻译上去做。”搜狗语音交互技术负责人陈伟表示。
对于机器翻译来说,终极的梦想就是输入一个语音,直接出对应的结果,中间所有的事情都交给模型去做,但传统机器翻译却未能有关键突破,这要从实现方式上讲起。
传统机器翻译所采用的主流方式叫“统计翻译”,从语料库大量的翻译实例中自动学习翻译知识,然后利用这些翻译知识自动翻译其他句子。这就需要把整个建模流程分成对齐模型、分层模型等多个模型,每个模型完成特定的很小的功能,最后串起来完成复杂的机器翻译系统。在这个过程中,每个模型的错误也会不断叠加。
这次搜狗推出的实时语音翻译,在实现路径上不同于传统机器翻译,而是融合端到端神经机器翻译技术以及基于实例的翻译技术,使用的端到端神经网络翻译模型通过编码端获取源端句子的分布式表示,利用注意力模型聚焦源端,使用循环神经网络生成翻译结果,准确率可以提升30%-40%。
在翻译领域,神经网络俨然是个“香饽饽”。
今年9月,谷歌正式导入神经机器翻译系统(Neural Machine Translation),它能让翻译系统不再像以前一样逐字逐句的翻译,而是根据整篇文章的大意来对句子进行分析。而短短三个月后,谷歌翻译再次更新,除了让神经机器翻译系统支持更多语系外,也让谷歌翻译结果更加自然,更符合人类惯用的语法。
机器学习和训练首先需要大量样本,谷歌翻译过去10年积累的海量翻译数据正好提供了这样一个学习的土壤。“深度学习的技术对各家来说没有太强的隐私可言,真正的壁垒还是在数据上,你的数据决定了你最后的效果。”搜狗语音交互技术负责人陈伟表示,搜狗的语音输入日频次达到1.9亿次,每日搜集的用户语音语料从三个月前发布语音交互引擎知音时的12万小时,增加到16万小时。
不过,“翻译官们”暂时也没必要担心自己的饭碗。尽管机器翻译取得了新一阶段的突破,但由于语言和环境的复杂性,想要完全依靠人工智能和语义理解还有很长的路要走。
“搜狗的使命是让表达和获取信息更简单。未来,搜狗会通过自然交互和知识计算,促进更多人工智能产品的落地。”对于输入法的终极设想,王小川说,输入法的极致,是能够开始寻找信息,帮你思考。