据余丹妮介绍,会话式
UI 是一种不同于 Siri 这种你问我答的语音交互方式,不是人适应机器,而是机器适应人,是一种人机交互的新方式。在她看来,会话式 UI
有很大的商用前景,不仅可以提供平台上的一站式服务,包括打车、订餐等,而且在 IOT 领域也大有可为。
余丹妮,ThoughtWorks高级咨询师
以下为演讲全文,雷锋网做了不改变原意的编辑:
跟大家聊一下会话式 UI 的话题,这是技术雷达里一个比较新的主题。
聊之前我想分享一下个人的经历。大家记不记得
2012 年美国东部有一场飓风,那个时候我正好周末从旧金山出差到纽约,我的航班是 6 点 10 分,但是从 6
点开始所有航班都取消了,所以我当时困在机常当时想叫出租车的时候已经没有了,所有的旅店也订不到。我就打电话给我朋友说要去她家。所以就租了辆车从机场开去她家。我当时是很恐慌的心情,怎么办?一边查地图
APP,一边查天气预报,还要跟踪纽约的道路情况和各种各样的新闻播报,所以整个路途上非常非常的惊险,好在最后还是安全到了我朋友家,渡过了飓风时期。
这个事情给我怎样的反思?那个时候其实智能手机用的很多了,如果有一种服务在智能手机上,我在开车的时候直接跟它对话现在天气情况怎么样,现在这条路通不通,飓风到哪里了?这样就更加安心和安全的到我朋友家。现在这样的技术存不存在呢?已经存在。就是会话式
UI。它在最近崛起了。刚才王健和徐昊演讲中我们知道智能即服务和平台大量的崛起,这两种技术的崛起,可以说是促进了会话式UI 的到来。
今天从四个方面讨论一下会话式 UI,我们先讲一下它是什么。第二个,它可以有哪些应用的商业场景,有些公司已经使用它了,怎么使用它的。第三个,看一下技术雷达里跟它相关的技术。最后,作为企业人员怎么运用它,来帮助你实现企业的目标。
什么是会话式 UI?
什么是会话式
UI?首先 UI 是用户界面,所以会话式 UI
是人机交互方式。说到会话就包括了语言,所以它其实是支持语言的人机交互。语言交互分两种:一个是语音上的交互,一种是文字消息上的交互。那为什么叫会话呢,为什么不叫语言
UI?因为就像刚刚徐昊谈到说,它跟 Siri
的常用模式不一样,不是我们命令它,要这个怎么样,它帮你回答。而是一来一往,有一段上下文的交互形式。很多媒体在形容它的时候,说,会话式 UI
是人机交互的一种新范式。
为什么说是一种新范式呢?我们可以先来看一看人机交互的演进。我们都知道第一次人机交互是
1832
年,当时是用一个打孔卡,计算机科学家用它在机器上记录下一些信息。然后出现了键盘、鼠标等等,其中有一大段时间我们都在跟命令行交互,计算机有一套特定的指令和习惯,根据这个来告诉它做什么。接着是
GUI,这个时候仍然需要根据页面的架构来找到你想要找到的东西。后来又出现了触摸屏等。看一下这个演进,几乎提到的全部是人适应机器的交流方式。然而现在会话式
UI 是机器适应人类的交流方式。 就是和你跟我讲话一样的自然沟通的方式,机器通过学习人类说话方式来适应我们的交互方式。
适应这样的方式需要哪几个特性呢?除了大家都比较熟悉的语音识别的技术,语音合成的技术,和一句话讲出来,能理解这句话的技术,它还需要一些新的特性。
首先,会话场景的认知。刚刚也说了它不仅仅是命令回答式。比如我说我要吃三明治,它可以知道你想要一个三明治,Ok,接下来它得会问你,你想点餐吗?然后点餐的时候它已经知道,我想吃三明治(就可以去找提供三明治的餐厅)。
第二个,认知会话的起始。刚刚说了有上下文,有这个还不够,我得知道上下文什么时候开始,什么时候结束。
最后一个,就是会话的动机。大多数时候人跟机器交流还是有一个目的的,像刚刚说的要点餐还是怎么样,或者开车的时候知道什么路是安全的。它要推理用户的意图是什么,然后根据意图来提供后端的服务。
会话式 UI 有哪些好处?
它给我们带来了哪些好处呢?
首先从用户的角度来说,它可以给我们提供即时性。像我开车的时候需要一种服务可以立刻跟我交互,立刻给我一个答案,那会话式 UI 就可以在后端做一些 cross referenece 的信息查询,然后整合过来告诉我。
接着是普适性,这个是说并不选择它的设备或者环境,这个会话式 UI 可以使用在 Web 上,移动上,或者任何的设备上。
第三个,真实性。这个回到刚刚所说的,它是来适应人类交流的方式,产生一种自然的交互体验。
最后,个性化。既然说跟它一直交流,就像你跟你朋友很熟,他知道你想吃什么,下次点餐的时候就会给你说是不是还想吃三明治。这个给商家带来什么好处呢?首先可以带来顾客的满意度,如果用户体验做的好的话。还可以给商家带来忠实度,以及提高服务效率。
会话式 UI 有哪些商用场景?
我们再来看一看对商业来说有什么样的场景来使用它?
第一个,商家本身就有一种服务。比如你本身是某个服务提供商,会话式
UI
可以提升用户的体验和你的服务质量。我们看一个例子,快餐点餐机器人。这个是一个跟脸书集成的聊天机器人。用户说我想吃东西,这个机器人说,你想吃什么?用户接着说自己想吃什么。然后当时是这个聊天机器人是属于一个汉堡包的连锁餐厅,机器人说你想去哪家,然后用户选离家里最近的,然后通过线上支付,最后就线下送到他家了。这还有一个最近新闻报道比较多的,就是美国的运通卡,它在
Alexa 的平台上提供了支付服务。你现在已经可以用 Alexa
支付美国运通卡的账单或者查询账单,根据用户使用越来越多,越来越多的银行服务会通过 Alexa 提供。
第二个场景,提供平台上的一站式服务。我这里的平台指的是商业平台,所以比如说微信平台,或者亚马逊平台,或者其他提供很多商业服务功能的平台。会话式
UI 可以作为这个平台和用户的交互方式来给用户推荐更好的服务和功能。我们看一下 VIV
的例子,现在这个应该被三星收购了,它可以为三星提供集成所有 APP 的会话式 UI。在 demo
的时候他们举几个例子,像明天是母亲节,用户说要给妈妈订花,VIV 就能上淘宝帮你把花订好。用户要用车,说我要 6 个人的车去球场,它就知道 6
个人的车要叫 SUV,然后用 UBER 把车订好。
第三个,我们提到会话式
UI 不能不提 IOT,因为会话式 UI 可以作为 IOT 非常实用的一种用户界面。不知道大家有没有听说,最近在 ACM CHI
上展示了一个非常酷的科技,它是一个非常小的集成片的模板,这个模板现在已经可以通过机器学习感知到到室内所有设备和活动。这给会话式 UI
带来什么机会呢?我们想一下如果把这个模板和 Alexa 或者 Google Home
结合在一起的话,它可以把室内所有的设备联系起来,然后和用户产生交互。这个地方我们来看一下智能厨房的案例。这是 ThoughtWorks
做的一个项目。在智能厨房里比如说电冰箱、微波炉等等全部跟智能服务集成在一起,然后提供一个会话式
UI。用户跑到冰箱说周末有一群朋友过来聚会,我想给他们做一顿聚会上吃的。它会根据冰箱里有的和你本身有的调料,以及厨房的条件,给你推荐说,你可以做这几道菜,这是几道菜的菜谱,还缺几个调料,你可以去这些商店订这些调料。所以说这就是会话式
UI 在 IOT 里比较好的应用。
第四个,基于会话式
UI 的服务。既然它是用户的新交互形式,不可避免会出现一些新的产品和服务。这里举一个 Poncho 的例子,Poncho 本身是一个天气
APP,它会告诉你今天天气很好,可以出行,等等。但是它还会加上其他的东西,像查天气的时候会在手机上无聊的看,它可以取悦用户,给你讲笑话,陪你玩游戏,等等。这个时候可以把它当做智能的朋友在一起交互。所以这可能是以前
GUI 等等不会提供的一个服务。
会话式 UI 涉及到哪些技术?
刚刚讲完了这几个场景,我们看看有哪些技术可以帮助我们实现这样的商业场景?这次技术雷达里提到了四种跟会话式 UI 相关的技术:会话感知 API,Nuance Mix,Wit.ai 和API.ai。注意的是它们全部都在技术雷达的评估阶段。
我们首先看一下会话感知 API 是什么?
技术雷达上说:“诸如 Amazon Alexa, Google 语音服务和 Siri 这样的技术已经大大降低了基于语音的软件交互的门槛。然而, 想要在许多现有的 API 之上构建更多的会话式输入(语音或文本)还很困难。 ”
那为什么说还很困难呢?刚才说到会话式
UI 需要上下文,回到一开始点餐的例子中,聊天机器人知道说我想吃
pizza,下面就问你去哪个商店,然后它知道这个订单是多少钱,你家离它多远,这些都是基于上下文的会话交互,涉及到交互场景,每次后续交互需要知道前面交互的上下文。然而现在我们常用的
HTTP 请求和 Restful 式样的 API 是没有状态的。服务端需要知道上下文的话就需要客户端提供额外的信息。会话式 UI
就是一种解决这个问题的方法。它可以管理会话的上下文和状态,代表前端的语言输入呼叫底层的服务,它是后端为前端服务的范式。
Nuance Mix 不但可以识别用户的意图和实现交互,它还提供支持不同编程语言的 SDK。它的定位也更多的为 IoT 设备和机器人等等提供自然语言的处理平台。
如何利用会话式 UI 获取商业价值?
听了场景和技术,如何结合它们来获得商业价值呢?首先明确你要解决的问题。很多时候有一种新的时髦的技术或者体验方式出现,企业就非常急切的希望使用它,怕被竞争对手抢先。但是不管你用什么技术和做什么样的产品,要先定位你本身希望给用户解决的问题和痛点。根据这个问题和痛点来考虑如何使用会话式
UI,而不是为了使用它而使用它。所以要先有一个问题,才能把解决问题的方式对应上去。第二个,使用演进化的架构。我们现在知道技术演进非常快,你都不知道下一步会怎么样。今天需要会话式
UI,明天可能需要另外一种体验方式,这样就需要能演进的架构来支撑。我们推荐 BFF
模式,也就是根据不同的用户体验,为用户体验建造不同的后端服务,来支持跟核心底层服务的交互。这也就决定了我们需要一个领域层来提供底层的核心服务。
接下来讲一下数据策略,前面讲到说会话式
UI
可以带来一大好处,就是个性化。怎么样可以让它给用户提供个性化需要,通过大数据来学习顾客的爱好。前面徐昊提到说你有什么样的数据最终你会产生什么样的学习的结果。这个话说的一点都没错儿。不知道在座的有没有来自微软的,我这里要举一个微软去年的反例。
微软去年在推特上搞了一个
TayTweets,就是聊天机器人,可以随时跟用户交互。它希望通过跟用户的聊天训练变成非常有趣,casual,能陪人聊天的对象。实际上发生了事情呢?很多用户调戏它,讲了很多反人类,反女性,反种族等等的言论。
24
小时后微软不得不立刻把它撤下推特,因为它开始说希特勒没有做过任何错误的事情,讲很多诽谤女性的恶毒言论。所以这个例子告诉我们要正确的教育你的会话式
UI,就像小孩上学一样要给他一些基本的原则,不让后期地用户数据把整个的 UI 交互形式和话语带偏。
那然后说,我们用会话式 UI 是为了良好的用户体验。关于用户体验我们要注意下面几个方面:
第一,刚刚我们说到它是机器来适应人类,你就要真正跟人类一样讲话。比如刚开始讲话的时候你会说 Hello,跟真人一样的交流方式来交流,而不仅仅是像一个命令式或者任务式的完成一样的形式来应对用户。
第二个,有自己的个性化。这个涉及到任何 UI 的宗旨,比如说我现在是为了乐高设计的,那么这个语言是适合儿童的,它不会很复杂,而且更加有趣。如果是为一个银行或者医疗机构设计的,那这个语言会不会更加的严肃。
第三个,提供
escape hatch,这就是说即使提供了会话式
UI,但是这个服务最后是有界限的,它并不能做到所有的事情,尤其在现在的技术条件下面,可能跟它沟通到某个情况下,它就不知道下一步该怎么办了,这个时候要给客户提供
escape hatch。比如说会话式 UI 不知道怎么办的时候就接入人工服务,或者这个时候让你退出去,说你想用的 APP 等等。
最后一点是提供可靠的服务和信息。我们都知道一个不可靠、不受人信赖的交互,不管是人与人的交互也好,还是人与机器的交互,你都会减少跟这个东西交流。如果你的会话经常提供虚假信息或者信息不准确的话,会降低用户对它的信任,最终会导致用户更少使用你的服务。
应对会话式
UI 的最后一方面是会话式 UI 既然出现了,它可能会代替很多我们本身跟一线服务人员的交流,那么一线服务人员会不会被会话式 UI
代替呢?我们认为暂时还不会,但是从人员的结构上可能还是需要一些调整。企业可能会需要更多的数据科学家,更多的工程师,而更少的前台人员。还有智能服务和人工服务如何划分。比如说年纪大的或者特别有身份的人可能还是希望有一个专门为他服务的人员,这个时候就要划分清楚会话式
UI 到底覆盖哪些服务和人群。
讲了那么多,那么会话式 UI
的未来到底是什么?我们刚刚聊了它有什么样的商业场景,它的技术是怎么样的,怎么样去用它。那么说到未来,我们可能第一个想到 2013 年有一个电影叫
《HER》,说的是一个科学家用了一个会话式 UI 平台叫
Samantha,他们在各种各样的交流中间,产生了精神上的共鸣,而这个人甚至爱上了他的会话式 UI。那这个会不会成为会话式
UI的未来呢?这个不好说,至少在短时间内我们看不到这样的未来。但是我们从刚刚看到的各种场景和应用中间,知道说它已经可以给你提供实实在在的非常便捷的服务、更好的用户体验等等。所以我们会继续关注它的发展和会话式
UI 相关的技术发展。也希望大家能够跟着我们一起来探索和应用会话式 UI 这样的人机交互方式。