从今年看,语音将成为科技界的“重头戏”。亚马逊可能已经售出了1000万部智能音箱Echo。在CES上,Alexa的合作伙伴几乎随处可见。谷歌也已经有了自己的类似产品,而且看起来,它正成为一个新的平台。语音领域的爆炸式增长有几个不同的原因,还有几个问题。
首先,让我们看看原因。第一,语音是非常重要的领域,因为语音输入的工作方式直到最近才开始取得突破。在过去的几年里,机器学习的进步意味着计算机在识别人们的话语方面正变得越来越好。从技术上讲,这里有两个不同的领域:语音识别和自然语言处理。
语音识别是把音频转换成文本,而自然语言处理则是接受这样的文本,并找出其中的指令。自2012年以来,这些任务的错误率已经从33%降低到不足5%。换句话说,大多数情况下,语音输入过去并不好用。即使现在,它依然不够完美,正常使用下,5%的错误率可能是你每天都会遇到的事情,Twitter上到处都是语音助理根本无法理解语句的例子。但这种情况正在持续改善。
第二,智能手机的供应链意味着,制造带有麦克风、快速CPU和无线芯片的盒子要容易得多。2016年共销售出15亿部智能手机,市面上有越来越多、越来越便宜的零部件,它们都是为这个市场大规模生产的,但它们也可以被用于其他方面。与此同时,以深圳为中心的智能手机和消费电子产品的专家和代工制造商的生态系统,不仅意味着你能得到这些零件,还能让别人帮你把它们组合起来。硬件仍然很困难,但其实并不像想象中的那么难。所以,如果你想要一个神奇的声音盒,并打算借助智能手机供应链,你就可以制造一个。
第三,主要的互联网平台公司(谷歌、苹果、Facebook、亚马逊或者GAFA)的收入可能是20世纪90年代Wintel(微软+英特尔)的10倍,后两者也曾是改变世界的公司。因此,它们有更多的钱(以及人员和分配)可以用于投资有趣的项目。
第四,智能手机并不是桌面网络浏览器那样的中立平台,苹果和谷歌几乎已经控制了移动互联网,而微软从来没有在桌面互联网上做到这一点。这让互联网公司感到不安,它让谷歌对苹果感到紧张(这也是它收购Android的原因之一),而亚马逊和Facebook都对这两者都感到紧张。他们想要自己的消费平台,但直到现在依然还没有。这也是Kindle Fire、Alexa、Facebook Messenger聊天机器人和其他各种项目背后的重要驱动因素。
所有这些都增加了动机和机遇,然而这并不一定意味着语音“有效”,或者更确切地说,我们需要更具体地说明“有效”的含义。所以,当我说语音输入“有效”的时候,这意味着你现在可以使用音波形式来填充对话框,你可以把声音变成文本(从音频、聊天机器人等),并将文本变成结构化的查询,你还可以找到发送那个查询的地方。
问题是,你可能没有任何地方可以发送它。你可以用语音来填充对话框,但是对话框必须存在,你需要首先把它建立起来。你必须开发出航班订票系统、餐馆预订系统、排班系统、音乐会预订系统以及用户可能想要做的任何事情的系统,然后才能把语音与它们联系起来。否则,如果用户要求提出要求时,你可能准确地将他们的声音转化为文本,但却不能用它做任何事情,你所拥有的只是一个转录系统。
问题在于,你能构建多少这样的查询?你需要多少?你能把它们直接扔到网上搜索,或者你需要(更多)吗?机器学习意味着我们能够使用大量的数据来生成可理解语音和自然语言模型,而不用依赖手工编写语音和书写规则的老方法。但我们没有相应的方法使用数据来构建所有你想要连接的查询,所有的对话框,你还是要用手来做。你已经用机器学习来做一个专家系统的前端,但是专家系统仍然是一个预先数据、手工制作的模型。
虽然你可以用API和开发者生态系统来回答0.1%的问题,回答1%的问题(夸张的说),但仍然有99%的错误率。这是不可能的。从根本上说,你不可能对所有可能的问题做出回答。任何人类可能会问的问题,我们也没有办法通过机器来解决。如果我们这样做了,我们就会有人工智能,基本上是按照定义,那是几十年后的事了。换句话说,许多语音用户界面陷入的陷阱是,你假装用户在与HAL 9000进行对话,但实际上,你刚刚建立了更好的IVR,而且不知道如何从IVR变成HAL 9000。
鉴于你无法回答任何问题,还有第二个问题,用户知道他们能问什么吗?我怀疑语音用户界面的理想功能实际上遵循着U型曲线:一个指令很好,回答10个问题可能是可以的,但50或100个就会很糟糕,不是你不能问任何问题,而是你自己可能都不记得自己问了些什么。当你越来越接近一个能够回答任何问题的系统时,曲线的另一端就会出现,不过这也会产生人工智能。
有趣的是,尽管有足够的资金和足够的开发人员,你或许可以建立一个系统,能够回答成百上千个不同的问题,但这实际上可能会适得其反。对此有人进行反驳称,一些大型平台公司(比如谷歌、亚马逊,或许还有Facebook)已经拥有大量用户,他们在搜索请求时输入自然语言进行查询。如今,他们通过返回搜索结果页面来回答这些问题,但他们可以利用这条曲线的头部,为前100或500种最常见的请求类型构建结构化的响应这就是谷歌的知识图谱。所以,这并不是说用户必须知道他们能问的50件事,但是对于前50种(或500种)类型的问题,他们现在能得到更好的回答,远比仅仅一页链接更好。
显然,这在屏幕上可以很好地工作,但在音频设备上却失败了。不过从更广泛的角度来看,这种做法如何在实践中发挥效果实际上属于分配问题可能有半数问题属于谷歌已经构建了结构化响应的前500种类型,但我每天问Google Home的问题中,有多少包含在这500种类型中,又有多少我无法得到答案?这往往让许多大多数公司得出结论:为了让声音工作得很好,你需要一个狭窄的、可预测的领域。你需要知道用户可能会问什么,用户也需要知道他们能问什么。
这是Siri的结构性问题,无论语音识别部分的效果如何,你都能问出20个问题,但苹果却给了人们一种印象,即你可以问任何问题,所以当你问某些不在列表上的东西时,电脑往往无法给出答案。相反,亚马逊的Alexa似乎在沟通你能做什么和不能问的问题上做得更好。其他狭窄的领域(酒店房间、音乐、地图)似乎也很有效,因为你知道你可以问些什么。你必须选择一个你无法衡量的领域。
与此同时,对于某些任务来说,语音不一定是正确的界面,即使我们确实拥有HAL 9000这样的系统,而且所有扩展性问题都得到了解决。即使是一个真正的人,通过电话预订航班或预订酒店,也会遇到错误的用户界面。在一个IVR上买衣服也会是很糟糕的经历。所以,也许语音面临的问题不只是人工智能还不够好,还因为人类的声音也太有限了。
你可以通过添加屏幕来解决这个问题,就像亚马逊的Echo那样。但是,你也可以添加一个触摸屏,以及一些不同服务的图标。你可以把它叫做“图形用户界面”,或者让声音成为可选的部分。当我围绕这个问题进行讨论时,我发现将Alexa和苹果手表Apple Watch进行比较是很有用的。它们都不会做你在在手机上无法做到的事情,但他们会把它移到另一个不同的环境中,他们会用更少的摩擦来做,只要你还记得。
比如,当你站在厨房里的时候,使用Alexa或智能手表做事或定时时,你就会遇到更少的摩擦。你必须改变自己的思维模式,告诉自己如何实现某件事,而某件事是简单的、几乎是反射性的任务,你已经有了肌肉记忆来把你的手机拿出来,那么这个新设备能打破这个习惯,形成新的习惯吗?一旦习惯或意识出现,在某些事情上,语音助理或手表比掏出手机要好得多,但这个习惯必须先被创造出来。
通过扩展,可能存在更适合语音用户界面的行为,不是因为它们更容易构建,也不是因为这个命令在统计上更有可能被使用,而是因为心智模型更有效,打开灯光、音乐(Echo的一个关键用例),或者是一个比处理预约更重要的计时器。也就是说,一种设备可以做一件事,并且有一个指令,这可能是最适合语音的,尽管理论上它是完全没有限制的。
我认为,这里存在一种矛盾。从概念上讲,语音用户界面看起来是比智能手机更不受限制、更通用的界面,但实际上它们更狭窄、更单一。他们的摩擦比掏出手机、打开手机、下载应用等等都要小,而且只有当你改变了你的思维模式时,它们才会这么做。它们看起来就像智能手机的未来,但在它们(必然)封闭、锁定的本质上,它们看起来也很像功能手机或航母甲板。
它们是一个平台,但可能会让开发者生态系统变得更糟。这一点从电脑动画的“恐怖谷(uncanny valley)”概念中得到了很好的体现:当一个人从“卡通”变成“真人”时,现实主义的增加会让它看起来不那么真实,更好的技术却产生更糟糕的用户体验。所有这些都让我回到了文章开始时的观点人们想要让语音成为新事物的原因很有多。
还有一件事我没有提,那就是既然移动已经不再是高速增长的领域,科技行业正在寻找“下一件大事”。我知道语音是个重要的领域,但要等到下一个平台发生转变,可能还需要很长时间。
(英文来源/ben-evans,编译/机器小易,校对/小小)