从有了Siri作为先例,拟人化已经成为了自然语言交互工具的必备能力。不论是服务于个人用户的AI语音助手,还是企业提供的智能客服,甚至是各种有语音功能的家用电器,都要做IP、造人设,几乎有了成精之势。
在大多数时候,我们认为自然语言交互的工具的拟人化可以降低用户的“恐怖谷效应”,让用户更喜欢与其交流。但最新的研究结果却表明,事实或许并非如此。
成为人类的千重套路
首先我们可以来看看,自然语言交互工具拟人化的“千重套路”。
第一步,给自己起一个人畜无害的名字。
我们常说,当你捡到一只小动物后,如果给它起了名字,那么它十有八九会成为你的宠物。AI也是一样,当自然语言交互工具拥有姓名,基本就注定了它会在成精的道路上越走越远。自然语言交互工具的名字通常是“小”字辈,既显得弱小无害又无关性别足够政治正确。
第二步,利用语音生成技术模仿人类语气。
拥有了名字之后,肯定就不能再用冷冰冰的电子音了,甚至以往语音生成技术管用的真人录音+规则匹配的模式也略显死板。这时便出现了以谷歌WaveNet为代表的神经网络语音生成,通过对真人说话方式多种特征的抓取,对语义、词性、语法包括上下文等等参数综合考虑,最终生成谷歌助手那样像真人一样说话会停顿、有思考的语气。
第三步,让对话内容更加人性化。
在自然语言交互的过程中,语音生成需要建立在文本内容之上。满足了“说话语气”的拟人化,同样也要让“说话内容”更加人性化。这时语义理解、多轮对话、自然语言生成等等技术的成熟度就变得非常重要。例如微软在微软小冰上应用的全双工自然语言交互,就能实现“边听边想”和“节奏控制”通过整个对话过程对用户意图进行理解,减少用户的等待时间,并且能够主动引发新话题打破沉默,自行调节回答的内容和时机。这样的对话内容通过语音生成技术“展现”出来,就可以以假乱真,让人以为自己真的在和人类对话。
最后一步,披上“人皮”。
除了技术之外,还要以一些外围模式让自然语言交互工具更加拟人化。比如为它们设计一个可爱的卡通形象,增加几条指令让它们学会一些撒娇卖萌的口头语,在交互界面上增加一些细节让人们意识不到他们在与机器对话等等。
有了这几步套路,基本就能塑造出一个“化作人形”的自然语言交互工具了。
越人性越可爱?自然语言交互工具的期望值管理
可我们从未想过的一个问题是,在实际应用时,自然语言交互工具真的越拟人化越好吗?最近宾州州立大学媒体效果研究实验室就进行了这样一项实验。
研究人员们告知志愿者,他们将在电商平台中选购数码相机,并需要和在线客服交谈咨询。这些客服背后都是智能自然语言交互系统,但研究人员对其进行人性化和响应程度上的区分。不同组的志愿者们分别会接触不同的在线客服系统,有在对话时直接告知对方自己是机器客服的,有的只展示出对话框内容,有的会通过真人头像和名字“伪装”成人类。
同时这些拟人程度不同的智能客服,又分别有着不同的响应程度。有些可以迅速精准的回答用户问题,有的却听不懂人话顾左右而言他。
在交互过后调查实验者的满意程度时,结果却令人意外。
在一般的逻辑中,我们会认为智能客服在交互时响应程度越高,人们的满意度自然也会越高。可实际情况是,在同样的响应程度下,使用者的满意程度是与智能客服的人性化程度相关的。比如同样的交互内容,明确知道对方是机器客服的实验者就会给出80分的满意度评价,而那些伪装成人类的机器客服却只能获得60分的满意度评价。原因是当机器客服表现出较高的人性化特征时,用户对他们的期望程度也会随着上升,盼望着他们能和人类一样帮助自己解决问题,如果得不到想要的答案,则会放大失望感。
其实在我们自己应用自然语言交互时也有同样的感受,当语音助手、智能客服等等产品不能解决问题还要强行卖萌讲笑话时,我们的暴躁指数往往会呈直线上升。
说到底,自然语言交互的人性化与否是一个“用户期望值管理”问题,有时过度提升用户期望值反而会弄巧成拙。
做人容易,做工具难
但目前我们能看到一个重要的趋势是,自然语言交互人性和工具性的发展程度是不均衡的。
从技术发展的难易程度来看,让自然语言交互工具更加接近人类,远远要比让自然语言交互工具更加有效容易得多。
不管是谷歌的WaveNet还是微软的全双工自然语言交互,都足以让自然语言交互的发音模式、对话节奏等等细节无限接近人类。未来结合上计算机视觉层面,甚至机器人制作工艺层面的能力,我们可以打造出一个与人类无异的对话者。
其实在今天,我们就能看到诸如AI主播或harmony推出的索菲亚等等在视觉上极致人性化的“AI演说者”。
可这些自然语言交互解决问题的能力却没有因此提高。具体表现为:对于人类语料的理解还存在一定隔阂,尤其是小语种、老年人、儿童等等相对冷门的语料库;对于不同领域词汇的认知还不够全面,很多时候涉及到一些垂直产业时,AI往往会进入知识盲区。
如此以来,帮助自然语言交互的“工具性”追赶“人性”或许将成为未来很长一段时间内的产业热潮。例如建立各个细分产业领域的知识图谱、累积词汇库,或收集不同人群不同方言语种的语料库用于AI训练。
在技术的不断追赶之下,人们对自然语言交互工具的期望值不断提高已经是一种必然,为了避免出现“短板效应”,我们或许应该投入更多精力去追求“人性”以外的东西。