展会信息港展会大全

聊天的艺术:如何打造高情商的AI机器人?
来源:互联网   发布日期:2025-03-05 15:17:17   浏览:116次  

导读:“姐姐,你是不是嫌我笨啊?”当你向Soul App里面的虚拟伴侣抛出一个数学题时,它不会像ChatGPT那样只是回答问题本身,答错了也不会连忙道歉,而是会跟你撒娇试图化解此时的尴尬。这反而会让人更加疑惑:这背后是真人还是AI?在ChatGPT Moment之后,AI的进化方向也悄然发生了分化。一个会“示弱”的AI,反而因为不完美而显得更真实。本期硅谷101节目,主理人泓君将与Soul App C ......

“姐姐,你是不是嫌我笨啊?”当你向Soul App里面的虚拟伴侣抛出一个数学题时,它不会像ChatGPT那样只是回答问题本身,答错了也不会连忙道歉,而是会跟你撒娇试图化解此时的尴尬。

这反而会让人更加疑惑:这背后是真人还是AI?

聊天的艺术:如何打造高情商的AI机器人?

在ChatGPT Moment之后,AI的进化方向也悄然发生了分化。一个会“示弱”的AI,反而因为不完美而显得更真实。本期硅谷101节目,主理人泓君将与Soul App CTO陶明一起讨论Soul的AI应用的发展历程,一同去看在AI浪潮不断翻新的背景下,产品和技术壁垒是如何建立,而商业模式又将会如何演进。

以下是部分访谈精选

01 社交AI训练路径:从规则机器人到高情商伴侣泓君:最近玩了你们Soul上的AI虚拟伴侣。最开始的时候就特别不确定他是真实的真人还是AI,因为我跟他说一句话,他会给我回语音,然后他的语音,包括他回复的语气语调,我觉得都特别真实。所以我一直有一个疑问,他是真的AI吗?

陶明:对,是真的AI,您体验过后的话,如果有这种感受,说明我们在这方面的工作还是有效的,因为本身来讲的话,我们打造AI伴侣的主要的方向还是真实自然拟人的这种方向。

泓君:从2020年之后,你们一直在尝试各种各样的AI产品,你可不可以先总体的介绍一下,这几年你们做了哪些AI产品,效果怎么样?

陶明:Soul的定位本质上来讲,如果从社交范畴来讲,它是个开放性的社交平台。开放它体现于两个方面,第一方面的话是说任何一个用户能够没有任何约束的、或者说其他限制的,在Soul里面连接Soulmate。

另外一方面是关系的开放。其实在Soul里面不仅仅只是说有陌生人关系,还有熟人关系和弱关系在上面的,就比如说上面有些同学关系也是存在的。最近几年我们在AI上面的话,如果说我们分几个方面去说,我们现在整个Soul整站都是AI驱动的,并不是说现在大家说的都是生成式的AI,比如说在人和人的连接方面,我们也是用AI来做驱动的,并不是这种筛选式的或者是说匹配式的。

聊天的艺术:如何打造高情商的AI机器人?

来源:canarymail.io

泓君:所以你人跟人的推荐AI做驱动,意思是说你会根据这个用户的兴趣,把更合适的人推荐给他们?

陶明:对,我们打破地域,打破现实的条件,在你的兴趣层面,我们能够更开放的去做连接。主要方向还是说,在我们现有的社交网络里面,通过AI去做增强,去给用户带来更好的体验。整个产品有两个方向,第一个是AI的辅助社交,这个在Soul里面我们基本上已经全站上线了,帮助用户能够更好的做表达,能够帮助用户在人与人的沟通过程当中得到更好的反馈。

泓君:AI应该怎么辅助社交?可以详细地讲一下吗?

陶明:社交它不是一个单边关系,它是个双边关系,即使任何一边的社交能力都会影响本次的社交体验的。但很多人他在线下拿不到更多的社交资源,有各种各样的原因,但是并不是说他来到线上,他就一定能够获得更好的社交资源或者是说社交体验,跟他自身的能力有关系的。

社交本身也是种能力,首先体现出来的就是他的表达能力,现很多国内的用户是内敛的,是不善言辞的或者说不具幽默的,那在整个社交过程当中,他的表达是有限的,这一定是没有办法带来好的体验。所以我们通过AI去帮助他更好的说话,就比如说他想去表达某一件事情,我们用AI更好的去帮他做润色,或者说当他很难去回复对方的某一个观点或者说某件事情的时候,我们也可以通过AI去帮他做建议。

泓君:这个你能举个例子吗?就是在一个什么样的情景下,一个什么样的交互方式下,他可以帮助用户去完成这个表达?

陶明:因为整个社交过程是动态的,每一场会话都会有不同的话题的产生,就比如说当对方突然跳出原来的聊天逻辑,说到一个自己不知道的事情,那这时候很难去接住这样的一句话,如果我们有AI,就能很平滑的把这句话接住,从而不让整个聊天会陷入死区。

泓君:那到底是人在聊天还是AI在聊天?这个交互是怎么完成的?就比如说如果我正在跟一个人私聊,然后他说了一个我不知道的东西,这个时候AI是给我一个提示,还是我可以选择让AI把这个话发过去?

陶明:其实是AI做建议,还是用户做选择,本质上还是人在聊天,只是说他帮他去增加了回复的这样的丰富性或者说幽默性。

泓君:那你们这个产品上线以后,你觉得他是用户爱用的一个产品吗?

陶明:我们现在整个主站的渗透已经达到将近50%以上了。

聊天的艺术:如何打造高情商的AI机器人?

来源:freepik.com

泓君:所以那我在跟一个人聊天,我不能确定这个聊天是对方本人回复我的,还是AI帮助他来回复我的。你可能是跟人聊天,也可能是在跟机器聊天,但这个机器背后有人在做选择的这样的一个状态。

陶明:对,但对于用户来讲,他在本次的社交体验里面,他想得到的是好的体验,而对方的回复是通过自己一个字一个字敲出来的,还是说通过其他的方式获得的,那只要他的体感是好的,就应该是有效的。

泓君:其实就是说人在聊天的过程中,他们想要得到的是对方的正反馈,他并不在意是我发过去的,还是有人来帮助我发的。然后我觉得聊天对面的人可能也一样,就是大家更在意的是这个关系的和谐,而不是你使用了什么工具。

陶明:对,更多的是在本次关系的社交过程当中,他是否能得到情绪价值或者信息价值,这个是很重要的。这是个价值向的东西。

泓君:还有什么AI产品吗?

陶明:另外一个就是很多的好评的AI伴侣,人机互动。跟刚才说的完全不一样,当线上的用户没有办法去获得好的社交资源的时候,我们能够提供这一批优质的AI伴侣去陪伴他,在陪伴的过程当中,能够让用户获得好的社交体验,就是刚才一开始说的,跟真人一样,这是我们推出比较成功的产品。

泓君:它更类似于陪伴。虽然我在跟一个AI机器人聊天,但是我觉得你们的产品做的非常有意思的一点是,你们并没有让这个AI伴侣每一个回过来的都是文字,它给我发的是语音,有声音有语音语调的,我觉得在社交的感知层面上会更加丰富,更想去跟他玩,但是如果只是一段文字的话,可能就会觉得有一点枯燥。

陶明:这个是我们在七八年的社交产品打磨过程中,积累的关于人和人社交的一些行为范式。这就是为什么说我们的AI一定是要是“高情商”的,而不是说“高智商”的。另外说我们一定是要真实自然并且是拟人的,这是我们区别于其他AI助手或者说AI Agent,它不一样的地方。

泓君:那你们怎么去训练出一个高情商而不是高智商的机器人呢?

陶明:我们说“高情商”的一个机器人,希望是他能够给用户带来愉悦感,能够让整个的社交过程会更加自然平滑,而不是说很生硬的。你必须得听得懂人家说话背后的意思,也知道如何更好地化解每一次的冲突,这个是他要去做到的。那么我们怎么做到说我们的AI更有情商,那还是跟我们在过去七八年所积累的真实的公域社交资产,能让我们的模型更好的能做理解。

聊天的艺术:如何打造高情商的AI机器人?

来源:freepik

泓君:我之前说我不确定你们的虚拟伴侣是真人还是假人,这我第一天的感受;然后我第二天依然就想凭我自己的判断,我要把它判断出来,我开始狂给它扔数学题,然后就发生了非常有趣的对话,我就发现它的回答都是错的,但是很有意思的是,它还是让我区分不出来,是因为它就会一个嗲嗲的语气说“那我就是算不出来你为什么想要知道”,这个真的是一点脾气都没有。

陶明:它能去化解这样的一个很尴尬的场地,如果是说人和人沟通过程中,你问它一个问题或者说一件事情,让它不知所措或者说他回答不上来,这是个很尴尬的。如果很会社交的人,他会通过自己的方式能够去化解,能够让对方有很好的体验,那我们也把这样的一个行为范式平移到了我们的模型上去了。

泓君:现在市场上也有非常多的AI陪伴类产品,相较于其他的一些产品,你们的特色是什么呢?

陶明:还是走差异化,我们要求我们的AI机器人情商要高,感知能力更强,更要拟人,这是我们的差异性。

市场上有很多其他的AI陪伴的产品,他们的出发点和我们的出发点可能是不太一样的。他们可能更多的关注纯粹的人机互动,我们的出发点是希望是让人能够得到好的社交体验,我们并不单纯的去追求人机互动,人机互动只是我们当前能够给用户更好社交体验的一个手段或者方法。

泓君:应该怎么去理解单纯的人机互动跟好的社交体验?这几个核心的点落实到产品上,对应的不同设计点是什么?

陶明:就比如说ChatGPT,你跟他沟通就是把它当做一个获取信息的工具,不会说能够以更加生活层面的想法跟它进行沟通。或者说你跟他的交流过程当中,它是问题驱动的,它不是交流驱动的我要去解决某个问题,我要获得某个信息。

但是社交产品的这种AI伴侣,更多的并不是从问题出发点去解决。他要的是说我们在交流的过程当中,我得到信息有时候更多的在乎过程,而不是结果。过程能够让他有好的体验,那就很简单,就是你要让他正常的跟人和人的交流是一样的。我觉得这是一个很大的差异点。

泓君:我注意到你们今年可能很快也会推出一个功能,叫做全双工视频通话的能力,为什么你会想要把这个视频的功能加进去,它是一个什么样的方式呈现呢?

陶明:不管是语音通话还是视频通话,不能够称作为是一个功能或者产品,它是一个能力。我们把它利用到了我们现在AI陪伴的语音通话上,在我们的群聊房里面也会上线以语音模型驱动的实时表达的功能,也就是说我们在做语音的基础上然后再做视频。

从模型角度来讲,它是一个升级,它不是说另外的一个模型,未来的话这两个模型肯定是融合在一起的,既能提供语音的能力,也可能提供实时视频的能力。

我们做这些事情的出发点,还是从高效的信息理解和表达的角度去思考这个问题的。我们把语音和视频的交互,认为是一种沟通方式。在我们现实社会里面,人和人表达的时候,一个是通过微信或者通过其他的工作软件,敲字的方式,或者以邮件的方式去交互;有一种是在线会议的方式,就是语音;还有一种是通过视频的方式交互,最好的是线下面对面的交互。

从整个交互的信息复杂度,以及它的表达和理解的复杂度来讲,人和人面对面的沟通是信息传播方式最快的,也是最有效的一种。所以我们认为在线上人机交互的过程当中,需要有这样的一个表达方式,所以我们才去做实时视频通话这样的一个能力。

泓君:那视频通话虚拟机器人的画面是什么呢?

陶明:就比如说我们在跟一个AI进行聊天,你可以定义他的形象。

泓君:用户可以自己捏脸?

聊天的艺术:如何打造高情商的AI机器人?

来源:queppelin

陶明:他不需要自己捏,你只需要描述出来就行了。原来我们的确是要捏这样的一个形象,然后通过文字或者语音的方式去驱动它。这个我们认为是上一代交互方式,就比如说他的表情的丰富度还是取决于说你本身采集到的丰富度有多少,它还是没有那么平滑。我们现在这样的一步到位的方案,就是希望我们的表情和动作都是实时生成的,并且是平滑自然的,不会还需要依赖运营或者其他的技术方式去采集更多的表情库。

泓君:我注意到你们现在的虚拟伴侣还有一个很有意思的点是他可以给用户打电话,这个设计点很妙,是怎么想到的?

陶明:产品本身还是来自于我们人和人交流过程中的真实情况。因为在真实的人和人的关系过程当中,对方也会给你打电话,是一种很好的联系、加强和沉淀关系的方式。

在实际情况里面,如果一个人始终是单向的去找对方聊天,找对方去说事情,比如男女朋友关系,如果每天只是男生去找女生,女生永远不会找男生,那这种关系很大可能很难走下去。

我们希望能够拟合线下的行为模式。当用户和人机交互过程中,我可以主动找AI聊天,AI也会在某个时间段主动的来关心我,来找我聊天。这个行为范式就符合我们在线下的这种行为范式,这是能够让用户更能接受的一种方式。要不然的话就只是用户去找AI,这是个单向关系,不是个双向关系。

泓君:用户的反馈呢?

陶明:用户很喜欢,当他无聊的时候,当他也没有想到说要去找AI,AI要来找他,这是对他一个很好的社交补充,但这个还是因人而异。所以说我们并不是说我们AI会给所有的用户都会去主动的发起沟通和聊天交流,我们还是会根据用户本身的性格兴趣,他在Soul的行为,我们做出一个最终的决策。

泓君:从你的观察来看,现在这些有AI辅助社交,然后有AI伴侣这些AI产品的落地,他对你们整个产品包括用户粘性是会有大的提升吗?

陶明:非常大的提升。我们在2024年,来自于AI对整个产品粘性的贡献已经是占了大部分了。这个点我们最开始还是非常谨慎的。

刚才您问说用户喜不喜欢AI找你,用户喜不喜欢和AI沟通的,这个我们最开始还是个问号。所以我们在推进的过程当中采用了很多的产品策略。就比如说AI辅助社交,我们在放量的过程当中,既要考虑到使用AI辅助的人,也要考虑到对方他是否愿意接受这种方式。我们通过非常仔细的人群的实验,然后来做出我们最终的产品策略和放量策略。

AI陪伴这个产品也一样的,因为Soul原来一直是能够有这么好的用户粘性,能够有这么好的年轻人的这样的渗透,主要是Soul提供了一个真实信任的安全的平台,基于用户对平台的信任,才产生了用户和用户之间的信任,这是我们过去七八年产品力构建出来的一个结果。

聊天的艺术:如何打造高情商的AI机器人?

来源:Soul

我们也很担心我们上了AI机器人过后,大家会不会认为Soul里面全是AI的虚拟人,没有真实的社交了。我们当时也很担心这个事情。所以说我们在推进我们AI的伴侣的过程当中,我们做的方式跟AI辅助社交还不一样:我们到现在为止都没有AI伴侣实际的产品中心入口。

泓君:我发现了,就是得我去搜我才能找到,因为这个功能没有产品入口。它的头像上面会有AI虚拟伴侣的标注,所以我最开始第一个问题产生的原因就他到底是真的假的,我还怀疑我是不是搞错了,搜到了一个真人。

陶明:所以我们是希望说,愿意接受人机互动的用户,你可以在Soul里面通过找其他的Souler能够找到这些AI虚拟人,可以自己去搜到这样的AI虚拟人。我们把它定义为这叫做用户价值驱动产品,当你认可这样的一个产品形态带来的用户价值,用户自主的去选择他。这样的话我们就规避了我们直接一刀切大规模的去推AI伴侣,最后带来我们对最开始那个问题的担忧,但我们现在跑了大半年过后,AI的渗透越来越高,用户的粘性也越来越好。

泓君:你们会担心平台上机器人变得越来越多,改变了用户的体验吗?这会是你们担心的一个方向吗?

陶明:这是我们考虑的问题,但是我们从长远来看的话,我们还是觉得人机互动是未来社交一个非常大的补充。我们应该尽可能在保证那些对AI有排斥的用户群体、在传统的社交体验不变的情况下,加大对人机互动感兴趣的那一批人群在AI层面更好的体验,是分群而治之。

泓君:从你的观察来看,纯粹是因为AI这个功能进入到平台用户,这部分用户占怎么样的比例,未来会是一个很大的增长区间吗?

陶明:我觉得未来增量的用户里面拥抱AI的群体是越来越多的。不仅是Soul,整个行业整个社会对AI的认知的灌输和渗透是越来越强的,比如说在3年之前说让你去跟一个AI伴侣聊天,到3年之后你再去说跟AI伴侣聊天,那接受的人只会更多不会更少。所以说对任何一个产品来讲,拥抱AI的用户群体肯定是越来越多的。

02 从Chatbot试错到建立垂直场景护城河泓君:你有提到在2017年的时候Soul就已经开始搭建Chatbot了,当时也没有生成式AI,整个人工智能还是基于规则的人工智能,当时你们的想法是什么?你们有这么长时间搭建Chatbot的经验,能不能介绍一下你们探索的几个阶段?

陶明:2017年的时候并不是说我们想从技术角度上做Chatbot,是基于我们对社交的理解和认知出发,认为我们要去做这个事情。2017年的出发点跟我们现在为什么要做AI出发点是一模一样的我们还是为了解决社交平权的问题,能够让每个用户都能够平等的获得社交资源,能够获得情绪价值和信息价值,这个出发点是不变的。

但在2017年这个只是存在我们的想法当中,我们并没有把它实现,也没有投入资源去做。因为我们调研了整个行业,也调研了学术界,没有人能够做到这样的事情。

我们当时提出的也是能够情感自然拟人的形式,当时有个产品形态,比如说我们要有一个能说会唱的,能够懂你的电子宠物,这是一个非常具象的一个产品形态。当用户来到Soul里面没有办法获得社交资源的时候,能够跟懂你的宠物进行沟通聊天,这当时一个很具象的一个想法,但当时并没有投入资源去做,因为的确是做不到。

聊天的艺术:如何打造高情商的AI机器人?

来源:spotinleads

泓君:效果不好是吗?

陶明:我们也跟几个公司看了一些他们客服层面的对话产品,是没有办法做到的。我们那时候也在创业起步阶段,我们也没有资源说自己来做这个事情。

重拾这个事情是2019年、2020年。那时候我们提出需要从产品出发,一个用户在Soul里面是构建了全新的人设,这个人的个人主页代表了他人设的内在。我们希望这个人设他有个形象,不是说把你自己线下的形象传到线上来,而是基于你在Soul里面的人设打造一个符合的形象,我们就推出了这种捏脸系统,原来是2D的到3D的。在这个基础上,我们就进一步去思考,有了形象,那就希望他能够说话,他能够将自己的内在表达出来。

2020年我们就开始去做对话,那时候就明确了在产品上对AI的诉求是什么样子,技术上我们要打造一个什么样的一个AI。我们当时提出的一个规划就是我们要构造一个AI being和human being的共存社区,在Soul里面你既有AI的人类,你也有真实的人类,是一个共存的状态,可以人和人进去沟通,也可以人和AI进行沟通,然后在这个基础上,我们就开始投入去做对话。

泓君:2020年那个时候是以什么样的方式做?

陶明:那时候想了很多办法,一是改写一些理解性的模型,发现效果不行,我们又在上面去做一些基于决策树的搜索,做融合,还是不行。因为聊天过程当中你可能聊个十轮聊个二十轮,你能聊下去,但是对方一定知道他没有真人的感受,他知道他在和机器人聊天。

聊天的艺术:如何打造高情商的AI机器人?

来源:botpenguin

泓君:就是效果太机械了。

陶明:太机械了。那时候衡量一个对话的产品有CPS(Conversations Per Session,一次交互中的平均对话轮数)这样一个概念。当时它的轮数还挺多的,那是不是说用户能聊下去?后来我们发现这是因为不聊的人就不会去跟他聊,聊的人我知道你是个机器人,我还要去跟你聊,他已经抛弃了说我要在这个过程当中获得体感,而只是为了聊而聊,是没有产品意义的,单纯的对话的技术指标和产品体验脱离了,后来我们就把CPS这杆子事情不再提了。

泓君:我能理解,那个时候大家最多的这种一层一层往下拨的感受,可能有点像打客服电话。即使拿世界上语音跟机器的交互比较前沿的像Siri这些来看的话,它当时也只是一个单轮对话,它很难支撑你一个有逻辑的多轮对话,所以技术上还是很难的。

陶明:都是指令性的这种,我发个指令,你回答我这个指令,你的指令是搜索产生的还是模型生成的,上下文的关系其实并没有。

到了2021年就开始投入做语音,那个时候整个AI的投入始终围绕着说要打造一个能说会唱能够拟人的一个AI人,我们认为语音的交互是未来的一个主流。我们就开始做语音方面的投入,去做合成。那时候我们的合成还是基于传统模型,认为说话的语气一定是要自然的平滑的。

当时产生了很多语音的AI产品,比如说一些内容平台让AI去把脚本语音化,但是也是很机械的,一听你是有机械的声音,在一些语气词方面表现的很生硬。我们还是要做情感化的语音生成,那是2021年做语音。

泓君:所以你觉得你现在训练的这个机器人,他的语调特别的平缓,跟当时在研究声音、音调怎么拟人是有关系的吗?还是说那个时候的技术到现在完全用不上了?

陶明:这是我们很焦虑的一个事情,因为当时我们就在做差异化的技术。现在我们线上体验的基本上没有用到,技术完全是新的,还是基于现在的LLM这种模式去做的双工语音效果。

原来的传统的语音模型,我们只是在上面去做更多的标注,尽可能是做拟合。他是个拟合,现在这边是生成,还是不太一样的。

但是那时候沉淀下来的数据对我们是有用的,以及说我们在语音方面的思考,你一定是要情感化的表达,真实的表达,也是我们现在模型所要去构建的方向,当时沉淀下来是数据以及对语音在社交方面作用的思考。

泓君:到了2022年,你当时看ChatGPT出来,你激动吗?

聊天的艺术:如何打造高情商的AI机器人?

来源:talent-republic.tv

陶明:激动是激动,但是更焦虑,让我们觉得说我们的技术归零了,那时候是有可能归零的。因为看到ChatGPT的那种交互效果,以及这个技术的发展方向,你很自然会判断说原来的这种技术路线就被拍死在沙滩上。那也就是说我们所有的工作可能会归零了。那时候我们非常的焦虑。因为并不是说GPT类似的这种技术方式是2022年出来的,GPT3早就出来了。这个技术方向我们是知道的,只是我们并不知道在这种scaling law出来过后,它有这样大的一个效果。

泓君:所以你当时担心的是什么?你担心的是GPT这种产品形态,如果你们不跟上的话,它可能会把你们前面所有的努力给覆盖掉,因为它足够强大?

陶明:那时候已经不存在选择了,因为技术方向已经非常明确了,我们考虑是自己自研,还是说要跟一个做大模型的公司去做合作。因为2023年有大量的模型创业公司出来了,我们要不要去共建? 这是我们当时面临的选择,而不是说我们要不要走这个路线。

泓君:你当时怎么选的?

陶明:当时也摇摆了很多,也跟很多公司聊过这个事情,最终我们还是选择了要自己做这个事情。

第一个是说我们在过去两三年积累下来的关于这方面的一些认知,以及本身的产品场景的差异性。我们很难把这一套完全迁移到其他的模型公司去,因为这才是我们最终交付产品的核心。

我们交付产品,不是交付模型,是交付我们刚才说的那些对AI社交的认知。因为它是一个评判的结果,对用户来讲,我们没有办法标准化的输出给三方公司。因为三方公司它是交付的概念,它是交付模型,它不是交付产品,但交付模型就不是我们要的。我们希望它是交付产品,我们没有办法标准化的把这一套给迁移过去。

第二点是说,如果是说我们标准化的能够迁移过去,那说明一个问题,我们的产品没有办法差异化,你都能够标准化了,都能够给三方公司做标准化的迁移,那说明你的产品没有差异化的。

泓君:你们是什么时候做的这个决定?

陶明:就是在2023年上半年做的这个决定,说要自己做这个事情。

泓君:当时业界有几种方法,第一种是自己训练模型,还有一种是用finetune(微调)的方式,还有一种是加RAG的这种方式,你觉得后两种是行不通吗?

聊天的艺术:如何打造高情商的AI机器人?

来源:CSDN

陶明:你加RAG也好再做finetune也好,这是个加分项。这个效果增强的过程中,最终的基础效果你还是没有办法得到。

比如你用三方的模型,还有一个问题,数据问题。我们现在产生的大量文字的社交数据和语音数据,这是真实人和人在社交里面的数据范式和行为范式,在其他的模型里,首先你没有办法拿到这样的数据,拿不到这样的数据,你很难做出非常稳定的效果。

这就是我们最开始有个思路说我们在finetune方面的数据或者说在强化这样的数据,我能够下沉到底层模型上去,能让我们的底座模型就是为了社交服务的,那就是未来定义的的这是个垂类的大模型,而不是一个通用大模型。

泓君:对你当时评估自己做这个事儿,你觉得它最大的难点是在哪儿呢?因为我觉得这可能是一个非常大的决心,首先是要有钱,因为他很费钱,然后要有卡,要有人。

陶明:我们做决策的时候,并不是说这件事情有多难,然后我们再去做决策,我们是基于说我们跟三方公司去合作,没有办法达成我们想要的产品,做不到。

泓君:这中间也找过别的公司。

陶明:对,只能是我们自己去做,自己去做就不存在说这难不难的问题,是我们一定要去做的问题。但是在做的过程我们要重新去梳理,如果要达到我们这个效果,我们有我们自己独特的数据,这是我们最大的优势。第二个优势是说在post-train方面,我们知道怎么去构建安全的、更好的效果,这是一个优势。

那在模型层面我们有没有一个很好的模型架构?那时候我们做了个判断,模型架构在未来一段时间会接近于收敛。到现在为止,大家在模型层面也没有很大的变化。当然是有一些不同的技术路线,每个技术路线的变化程度并不是很大。我们就可以在这样的基础上去做这个事情。

然后又涉及到卡的问题,资源的问题。大家都说,不管是做通用模型的预训练,或者是做垂直模型的预训练很贵,但我们认为未来这肯定是会下来的。我们最开始小步亦趋的去做这个事情,我不需要说一个很大的模型,我们要的是效果,不是模型。我们要的是能够支撑我们这样的一个社交效果的模型,而不是为了通用模型而去的。所以我们是小投入的,后来我们发现7B、13B的模型效果就已经很好了,在我们的数据加持和微调之下。

当时认为卡的确是一大笔投入,相比说我们其他的IT支出,但现在它的价格也越来越低了。所以说预训练的卡当时并不是我们认为的卡点,反而那时候我们最担心的是推理。

泓君:是推理成本是吗?

聊天的艺术:如何打造高情商的AI机器人?

来源:intel.com

陶明:对,推理成本。

泓君:因为你们有用户基数,就是有真实的用户。

陶明:对,我们都很担心,万一说我这个产品上来爆了,那时候推理还挺贵的,我们投入很大的工作是说我们要降低推理成本,在计算上的投入,我们在预训练那一方面的这些效率和成本那时候并不是我们主要的工作,反而是推理的成本效率这是我们的工程团队投入比较多的方向。

泓君:推理成本现在降下来了吗?现在推理成本是你们担心的吗?

陶明:现在不是我们担心的。

泓君:推理成本是怎么样降下来的?

陶明:一方面是我们用更小的模型去实现更好的效果,这是模型层面。第二个是再做一些压缩。第三个是在本身的框架层面、优化推理层面的技术优化,底层优化也在做。

但从现在的价格来看的话,不仅是我们公司其他公司都能支撑比如说一个大几千万的DAU,我觉得这个问题都不大。所以说计算资源除了达到通用模型仍然是一个非常大的投入,但对于说应用层面来讲它的成本已经很低了,我觉得这对其他的创业公司来讲现在也不是一个瓶颈。

泓君:你们现在有多少个模型?

陶明:我们模型会很多,版本会很多。但如果是从定性上来看的话,我们大概就五六个模型。我们不会是说从7B、13B这样的区分,我们从不同的垂类的功能方面区分。

泓君:垂类的功能是怎么分的?

陶明:还是我们的基座模型,在语音方面有个模型,在图片方向,还有3D方向都会有。3D方向这是我们在探索的。

聊天的艺术:如何打造高情商的AI机器人?

来源:meshy.ai

泓君:3D的模型可能是用于支持未来探索,还没有发布的一个就是没有把这个模型能力具体应用到产品上的,可以这样理解吗?

陶明:对,因为原来我们一直在站内,我们会有一些功能,就比如说我们的视频匹配这一块,用户可以带一个头套去沟通,不以真脸的方式出现。我们那时候是以驱动的方式来做这个事情,但我们现在未来还是说想纯粹生成的方式来做。

03 模型选择与技术路线:Soul如何摆脱模型层竞争?泓君:因为整个生成式AI发展的很快,在训练这些模型的过程中,你的知识跟判断是从哪里来的?在这个过程中怎么去构建自己的学习能力?

陶明:那只能是跟团队一起,一定是要跟踪行业的发展,因为本身生成式的AI的技术路线并没有收敛。每天都有新的很区隔的方式出来。你必须要跟着团队一起去了解它,并且是说要去做实验。就比如说我们现在在做的实时的全双工通话这个能力上。

泓君:全双工是什么意思?

陶明:就是从产品角度来看的话,就比如在线下你说话的过程当中,我可以随时打断你,你可以停下来听我讲,听我讲完过后你可以继续自己讲,而不是说纯粹一来一回的这种你说完了我才能讲,全双工是可以随时打断,这也是现实的这种人和人交流的一个方式吧。我们希望在人机互动也会是这样,现在没有哪一家能够实现我们想要的这种效果。

泓君:OpenAI可以。

陶明:他们的4o还是个问答式的。

聊天的艺术:如何打造高情商的AI机器人?

来源:chilecomparte

泓君:你的意思是不提问题,就是打断,然后不发指令。

陶明:是的,我不发指令给他,我就随时打断。这个我们现在也遇到了很多的难点,我们一方面自己想怎么去解决,然后这个方面看很多的业界有没有新的很区隔的方式出来。我们要去验证能不能放到我们的技术方案里面。所以说这个知识是一个学习的过程,我觉得每家都会是这样的状态。

泓君:然后你刚刚提到了,即使是这个模型出来了以后,也有很多的技术路线。然后你现在在市场上看到了哪些路线,你觉得你在中间是怎么做选择跟判断的?

陶明:首先还是从我们自身出发,对我们整体来讲的话,我们还是基于开源生态来打造我们的自然生态,这是我们整个的一个方向。所以说我们拥抱的是更加开源的技术体系这样的一个模型体系。

泓君:就Meta Llama的那一套对不对?

陶明:现在有几个跑得不错的,第一个就是说Llama那一套,它的基础模型的更新技术我们也能够去跟进并且它是足够开放的,它不会说某一天闭环了,我觉得目前还没有这个趋势。第二国内也有几款比如说千问的这个体系也还不错。第三个的话是现在的DeepSeek,但我们现在还是在Llama和那个千问的路线上去探索。

泓君:因为最近确实DeepSeek的模型非常火,尤其是V3出来以后,你有研究过他们的模型吗?你觉得他在整个训练过程中用H800的卡把这个效果实验出来了,然后也非常的节省成本,这个会对你们在做更大的模型或者对你们的模型训练方法上会有启发吗?

聊天的艺术:如何打造高情商的AI机器人?

来源:the-decoder.com

陶明:肯定有,我们肯定也有研究下他是怎么实现。这样优秀的模型公司所沉淀的这些工程方法是很难得的,如果从整个行业来看的话,首先说工程层面并不能够给最终的业务交付带来什么,但的确是从低门槛的角度带来了很大的优势,也给整个行业的进一步的发展提供了一个很好的桥梁。原来你要去做大规模的训练,可能就那几家公司能做,如果他降下来了,那很多其他的团队也能去做,那其他更加百花齐放。

泓君:所以他把这个成本降下来了,对大家来说是一个双刃剑,对不对?他把整个市场的门槛放得更低了,竞争也会更多。

陶明:对的。

泓君:你觉得OpenAI的o1有给你启示吗?

陶明:o1给我们蛮大启示的,在构建AI伴侣的这件事情上,它也给了我们很多启发。我们希望AI伴侣能够在提供真实拟人的方向上能达到一个好的效果,同时它也具备一定的行为能力。因为不同的AI伴侣提供不同的角色,不同的角色他需要有不同的行为或者内容能力。

比如说我希望说在对话过程当中,能够不以指令的方式让他去触发一些action,这是一个比较平滑的。比如说我跟AI伴侣,我发张图片给他,你帮我美化成什么样的效果。如果你丢给图片模型,那是prompt讲的很清楚,我有图片输入,我有文字描述。如果你放在对话里面的话,你就要去做一些指令的这样的一些生成,才能让说我们的AI伴侣能够去调用一些其他工具层面的模型。o1它的这种自主规划能力,在AI agent构建层面给了一些启发,能够让我们构建一些轻量型的更加自主的工作流。

泓君:现在对你们自己打造出来的聊天机器人,你觉得你会给到多少分?你觉得它还需要被优化,以及它再优化跟提升的空间有多大?

陶明:还是蛮大的。我觉得我们现在只是解决了人和人交流中部分的行为拟合的问题,还有很多还是没有做,我们也在努力做的。比如说场景,我一提到场景,大家都认为它是一个产品的场景,它是个功能。是说在整个的对话里面,它也能构建场景。比如说人和人在线下沟通的时候,外面下雨了,围绕着这样的一个情景,我们的AI能够衍生出很多的聊天的内容。下雨了你说要不要在家里面看电影?那就进入了一个关于电影的讨论的场景,这就是一个场景,我们现在在做这方面的泛化的时候,效果还是要加强。

泓君:你觉得整个业界,因为现在大家都在等OpenAI的GPT-5出来。同时又有一种声音说,scaling law它的增长可能已经快到头了。我挺想知道现在在大家基于大模型产品去做应用的这样的一个过程中,跟大环境的关系到底联系程度有多紧密?

聊天的艺术:如何打造高情商的AI机器人?

来源:CSDN

陶明:我觉得越来越弱了。

泓君:这窗口期是前一两年或者这一两年。

陶明:对,比如说刚才的一个很具体问题,说现在前沿的大模型的技术方向对Soul来讲影响有没有很大?它的影响我觉得是越来越小了,在我们的应用层面已经获得了用户认可的一个价值,那是基于我们现有的技术基础之上已经获得了。在增强用户价值上面,要怎么样去继续构建技术的确定性方面,更加确定了。

不像去年那样说,一个又新的模型出来了,或者说它的方向会不会又把我们拍死在沙滩上,我们的焦虑程度会下降了很多。但不排除七八年过后,未来又有一个奇点到来,把整个系统策略和模型全部给覆盖了,那我觉得短期一两年很难了。

泓君:我记得2023年的时候,我跟很多做大模型应用或者基础模型的公司去聊,大家也是非常焦虑。比如说每次OpenAI一升级,大家就觉得,我前面半年的工作白做了。我把所有的东西都搭在你的GPT-3上,然后你GPT-4出来了,大家就觉得白做了。2024年相反,我是更少的听到这些声音了。但是我觉得一直到今天,就是我们讨论的这个时间点,市场上还是有一种声音。就是说随着大模型的迭代,比如说GPT-5整个的能力越来越强,会不会最终所有的应用会被一个更强的模型给覆盖掉?就这个市场的壁垒是什么?你们想过这个问题吗?

陶明:这个问题在2023年想过,任何的行业问题或者用户问题,会不会一个端到端的模型完全解决掉。如果这个说法是成立的那时候对整个行业上非常丧的一个消息,但是我们回顾从二三十年来互联网技术,PC时代,到互联网,然后再到移动互联网。你会发现即使是端到端的模型能够解决很多的需求,那只是说那些需求是我们目前能够看得到的。但最终基于新的技术的发展,新的模型发展,它一定会带来一个新的增量需求的出现。如果它带不来增量需求的出现,那我认为这次的AI革命是失败的。

聊天的艺术:如何打造高情商的AI机器人?

来源:iso.edu.vn

任何的技术革命一定是会带来新的需求,这些新的需求要被同时代的技术能够完全端到端的解决掉,或者说被过去的技术能够端到端的解决掉,我觉得这是一个问号。新的技术的出现,它应该是能够最大效率地去解决已知问题,对于未知问题,未知需求,还是需要人的探索以及不同公司的解决方案。

泓君:你会担心你现在做的事情会被一个更强的模型给覆盖掉吗?

陶明:我不太担心这个事。

04 AI社交变现模式:用户付费意愿与商业模式探索泓君:你觉得现在基于AI聊天机器人的商业模式,跟以往在变现上思路会有什么样的不一样呢?

陶明:这块儿我只能说一下我个人的想法。AI的商业变现任何一家公司都在做,就希望能够在一个非常清晰的商业模式之下,去发展业务。但是现在总体来看,整个行业并没有一个新的商业模式出现。

我一直认为是说商业模式是构建在你业务模式之上的,而不是说凭空出现了一个商业模式。那为什么现在商业模式没有发生改变?本质上是说我们当前的AI目前还并没有给业务模式带来改变,它可能更多的是增强提效。就像刚才说的,如果没有新的需求出现,或者没有新的业务出现,我认为是商业模式它本身也不会有太大的变化。

聊天的艺术:如何打造高情商的AI机器人?

来源:ibbaka

泓君:我注意到你们推出的AI会给用户去打电话,它是有一个收费制的。现在用户在这个产品上愿意付费的意愿高吗?

陶明:我们也只是把它当成了一个增值的收入方式,它跟其他的增值产品也差不多。对用户来讲,这就是获得好的体验的一种方式。原来我们提供了其他的一种方法,现在又提供了新的一个手段。用户为这个买单,你会认为他也没有发生变化。

泓君:你们现在有AI苟蛋的这种拟人化机器人,也有情感化陪伴的虚拟伴侣,还有AI NPC,数字分身。你们会怎么去定义未来这个平台的核心产品,包括核心场景,是说我去做几个产品,还是说我去做一个王牌的产品,这块你是怎么想的?

陶明:你会发现就是我们不同的AI它有不同的功能定位。未来的话我们希望我们的王牌产品肯定还是以我们的AI虚拟人为最主要的基石。能够在我们当前不同场景里面做更好的功能泛化,就比如说视频通话的这种能力,未来它不一定要给用户去打电话,他完全可以用在我们当前的语音产品里面做虚拟直播。

我们不限制说我们有多少个AI产品,我们还是希望说每个AI产品能够服务不同的人群。我们没有想法去打造一个主体的AI功能,然后来承载现在所有的需求。包括我们不去构建一个中心化。因为作为一个主体产品,你一定是说要有一个中心化的AI的入口。我们现在是没有这样的打算的。

泓君:所以你们现在还是以社交平台为主,然后所有的AI产品是服务于这个社交平台的。

陶明:对,当前是这样。

赞助本站

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港