微软公司(Microsoft)和福特汽车公司(Ford)希望人们能向汽车发出口头指令,虽然短时间内实现这点的可能性不大。但实际上,人们早已和晶片进行口头交流了,只是大家并没有意识到而已。不仅如此,今后人们和晶片的交流还会越来越多。
自电脑问世以来,科学家们就一直致力于让电脑能理解人们的讲话。几年前,除了实验室内的演示之外,这方面还没什么进展。不过现在,电脑的语音识别功能已经相当先进,并被广泛运用到各个领域,如汽车上。
不久前,在拉斯维加斯(Las Vegas)举行的国际电子消费品展览会上,比尔•盖茨(Bill Gates)和福特汽车公司的高管们展示了微软公司的Sync软件是如何让驾车者们通过口头指令在车内播放音乐和拨打电话的。但是,通过口头指令驾驶汽车还难以被广泛运用,至少目前还不行。
新版的Windows操作系统Vista具有相当先进的内置语音识别软件,但微软公司在推销Vista的时候并没有大肆宣扬这一点。那些希望了解该软件功能的用户也许要在难以得到微软大力帮助的情况下进行了。
目前,世面上最先进的电脑语音识别软件是Naturally Speaking。该产品的来历有点复杂:它出自于Nuance Communications,该公司的前身是ScanSoft。ScanSoft通过一系列的收购,如收购Dictaphone等,试图将公司打造为全美最主要的语音识别技术供应商。
Naturally Speaking的大多数用户认为该软件运行效果不错,尽管你的发音要比平时说话更清楚。用户对着麦克风说话,屏幕上就显示出说话的内容,很容易纠正识别错误。这样一来,该软件就会逐步适应用户的说话风格,当然用户也相应地调整了自己的说话风格,因此语音识别的正确率就会提高。
虽然通过口头指令来控制电脑在科幻小说里屡见不鲜,但事实上大多数人觉得通过键盘和鼠标来控制电脑也很方便。比尔•迈森(Bill Meisel)对语音识别软件市场很有研究,他指出,目前该软件主要用于法律和医学等特定领域。例如,放射线学者们越来越多地通过语音识别软件口授诊断报告和结果,而不再由录音机录下口头报告,再加以转录。
语音识别软件是利用非常复杂的统计方法来把人们的讲话与单词相对应起来的。电脑功能的日益强大意味着这类电脑软件如今能在交货前被“训练”数千个小时,而十年前只能“训练”几十个小时。
语音识别技术的主要应用领域之一就是呼叫中心。许多电脑查询服务采用了这项技术,通常是Nuance公司的技术,来处理客户的需求,而无需人工服务了。此外,较为复杂的销售及支持工作也日益自动化了。如今,人们可以通过向航空公司的电脑发出口头指令来购买或查询机票。(虽然我对语音识别技术很感兴趣,我个人还是喜欢与人交流。如果这些工作今后都由电脑取代,那真是太令人遗憾了。)
迈森还预计说,接下来,语音识别技术将被用于网络搜索。预计在不久的将来,谷歌(Google)和雅虎(Yahoo)将推出面向手机用户的语音搜索服务,用户只要说出自己想找什么,就可以听到电脑的自动答复。这两家公司都已聘请了语音识别技术专家。Nuance还在与雅虎对簿公堂,因为雅虎挖走了Nuance的13名工程师。
在语音识别技术研究方面一直颇为领先的国际商业机器公司(IBM)也有宏伟计划,例如研制一种软件能监听四到五个人参加的小型会议,然后提供准确的书面记录。由于大多数此类软件目前只能识别单个说话者,IBM的计划显然有点超前。
不过,负责IBM的语音识别技术开发的戴维•那哈莫(David Nahamoo)表示,该公司已经开发出了其他一些应用软件。其中一项是能自动翻译外语广播,如阿拉伯语广播。该软件首先通过语音识别技术记录下说话者所说的话,然后通过翻译软件把外语翻译成英语。
这个软件目前还非常不成熟,但也足以翻译出说话者的要点。对于缺乏阿拉伯语人才、但又想深入掌握阿拉伯世界动态的美国政府而言,该软件不失为一个很好的选择。
除了情报服务领域之外,该软件的应用领域还不少呢。例如,各电视台目前承受很大压力,公众要求它们为听觉有障碍的观众提供字幕服务,但电视台没有人手。随着时间的推移,采用软件进行自动处理也许是个好方法。当然,这对于大学教授的讲座也同样适用:设想一下学生们可以在课堂上打瞌睡,同时又不会漏掉老师讲的每个词。
Lee Gomes