问:我们看到讯飞语音识别的技术已经非常成熟,那么你认为“应用”的空间在哪里,未来语音识别技术还有什么挑战?
李开复:云端识别技术,讯飞已经解决了。“应用”在哪里?这并不是一些专家在实验室里拍脑袋就能想到的。大家可以来试,可以在讯飞的云平台上试一试,可能成功的会比较少,但能够摸索到成功的应用的概率也会增加。
语音技术方面,主要挑战还有三方面:
- 一、语音识别相对容易,但语义理解相对困难。让软件听懂容易,但理解会比较难。
- 二、如果能在一定程度上做到语义理解,那么怎么样让开发者介入不用太花时间?
- 三、用户体验的期望值。语音是人类最自然交流的方式——与多点触摸不同,一旦人们开始使用语音交互,会有比较大的心理预期:我爱怎么说就怎么说,你应该能理解,这是一个比较长久的挑战。这中间,应该有巧妙方式来降低这种感受。
问:语音技术里面,是不是使用的人越多,语音技术也会愈加成熟?
李开复:当然了,更多人参与,获得更多自动回馈,可以实现一个良性的正向循环方。一个人能力有限,一亿用户,每人使用 3 秒钟,就是 3 亿秒,这个数据量是庞大的。实际应用中,正确的输入可以被视作是“一次正确训练和学习”,吸收改进;一个错误的结果,比如订餐时识别错误取消订单,可以视作“不正确的学习”,同样吸收改进。
但这个比“听写”更困难:错了,是语音错了还是语义错了,或者其中一个正确、一个错误;对了,是语音对了语义对了,或者其中一个正确、一个错误。当回馈量大于累计量和使用量,可以让我们迈出一大步。
问:什么样的语音应用是用户期待和接受的?
李开复:我认为有三个方向。1,相对是语音识别,而非深度语义理解的应用,或者说“浅语义,深语音”。比如听写(Demo 中有提到教育领域的听写测试、KTV 评分、发短信、日程提醒),——输入法也很重要,这个比较保险。
2,娱乐性应用,比如 Siri 这样的调侃调戏类应用。这种识别错了也无伤大雅,很爱使用。苹果很聪明,用调侃 Siri 录了很多语音,然后慢慢把真正的应用做好。
3,在一些“眼忙手忙”的场景,这个时候语音需求就会很大,比如驾车的时候,这时候是不能多点触控的,这算一个“刚性需求”的场所。
在这里我建议开发者:想把语音放进来的时候,不是那么容易,因为语音的 API 和语音的用户体验,比一般的 API 要难很多,比如百科全书类、地图、本地商家,O2O,线上模式拉来线下消费,因为有语义部分在里面,要花很多时间去把它调好,不能用简单的 API 随便联接起来。