Google更新云计算语音转文本(Speech-to-Text)API,添加支持的语言以及增强对方言的识别能力,以扩展支持的市场范围。新支持的语言为缅甸语、爱沙尼亚语、乌兹别克斯坦语、旁遮普语、阿尔巴尼亚语、马其顿语和蒙古语等,训练资源相对于主流语言不足的7种语言,使整体云计算语音转文本API支持的语言,从64种上升为71种,把方言也算进去的话,从120种来到了127种。
Google语音转文本功能以API的形式提供,让用户对各种长度的语音,或是流媒体音频,将语音转成文本,而企业也可以自定义功能,配置转录的过程。这次的更新,Google还强化了其三项功能,语音适应(Speech Adaptation)、电话通话模型(Telephony Model)以及说话者自动分段标记(Speaker Diarization)对方言的识别能力。
语音适应可以让企业调整服务产生的文本,零售商可以训练语音转文本功能,强化识别客户服务来电中难以翻译的产品名称,甚至是转换各种时间表达方法成为数字格式(下图),另外,用户也能配置API,控制其回传信息的方式,以大幅改进特定使用案例的语音识别品质。现在语音适应功能新提供68种语言和方言,包括国语(Mandarin)、日语和西班牙语等。
说话者自动分段标记是一种可区分一段语音中不同说话者的技术,将音频文件中的单词和语句分配给不同说话者,让用户不仅可以理解语音内容,还能知道是由谁说的。而这项技术可以让用户更简单地为视频增加字幕。这次的更新加入了对10种方言的支持,包括英国英文、西班牙文和国语。
另外,正确的标点符号也是转录品质的重点,Google的自动标点符号功能,会试图模仿用户他们写下所说话语的方式,这将有助于提升文本的可读性。这次更新Google添加了对德语、法语和日语等18种方言的支持。
Google提到,这次的更新扩展了语音转文本可服务的对象,添加超过2亿人,而功能强化也可为原本的服务对象,提供品质更好的转录功能。