自2014年起,成都晓多科技有限公司(以下简称:晓多科技)在电商智能客服这个垂直领域,进行了持续10余年的人工智能深耕和落地。
2023年5月,晓多科技推出了“电商专家大模型”,将人工智能技术在客服领域实现了产品化和商业化;今年5月,其行业大模型“晓模型XPT”也成功通过国家生成式人工智能服务备案。
在大模型应用元年,大模型的发展还有哪些迫切挑战?垂类大模型又有怎样的发展机遇?
晓多科技CTO向海在接受红星资本局专访时谈到大模型现在最大的挑战,他认为不在于技术和成本,还是场景突破,“目前看上半年场景问题还是比较焦灼,如果有应用跑出来,大家的信心就会更强。”
晓多科技CTO向海
替代人工客服大模型已做到7成,尚欠缺“情绪价值”提供
红星资本局:我们的大模型可以做到什么程度的智能化服务?是如何像人一样理解并回答问题的呢?最终可以实现“人工智能替代人工”吗?
向海:如果客户的问题,是非常具体的,跟商品知识、店铺政策相关的,那么我们自己包括市面上这类大模型,它就能做到跟人一样。在知识类的这种问答过程中大模型大概能做到95%以上的正确率。
但如果真的“像人一样”去跟消费者沟通,目前大模型还做不到,比如说消费者会过来问打折送东西、价格协商这类场景,大模型现在的回复可能会被消费者“牵着走”,比如有消费者想要多点赠品,那大模型的判断可能会都给消费者,这种情况会造成一些不可控的风险。
我们的设计是在大模型前面有一个小型的模型作为分类器,知识类的问答、涉及到钱和赠品的分别是不同类型的大模型去回答。但是它还不能完全“替代”人工。在图文理解还有局限性,沟通上也还是偏客观的表述,还不能给消费者更精准的判断。
简单类目的店铺,比如服装这种,大模型替代人工客服已经可以做到7、80%了,为什么还剩20%,主要就是在“人与人情绪价值”上的提供,大模型还无法准确达成。
目前我们还是想在一些简单场景上,尽可能让大模型全部做到“全自主”。但是对一些复杂类目,想做到完全替代人,还要随着技术的发展来突破。
红星资本局:垂类大模型是基于通用大模型的调整而来吗?它的能力有何不同?
向海:以我们自己为例,技术线路分两种,一是在别人的开源基础模型上去二次预训练微调,主要是解决预训练成本太高的问题。经过这种微调之后,它会强化在电商领域的一些专业性的知识,能力上也有侧重,商品的问答这一块比较专业,但其他能力还是受损的。
第二种是我们自己从头到尾训练的模型,那就是把我们的商品知识和一些高质量的对话数据都预训练进去了,它应该是一个比较优秀的专家客服的角色,可以完整记住一些电商场景客服的会话技巧,会话风格,在这方面的预训练会更强一些。
垂类模型能力更“专”
红星资本局:业内都在说大模型的应用落地是很难的,垂类模型是否意味着解决了场景、落地这些问题?
向海:首先垂类模型肯定是为场景而生的,所以不存在场景上的“选择困难”。不像通用模型,什么都可以用,但到底在哪个地方最强,大家其实是拿不准的。虽然没有场景落地的难题,但垂类模型有一个技术落地的问题。
这跟大模型技术原理有关,必然存在幻觉和生成不可控制的情况。所以落地我们认为要有一套衡量标准,比如说应答,我们测它是在商品问答上比较强,还是商品对比上比较强,还是商品推荐上比较强?针对不同需求会有不同测试集,大模型还要经过不断迭代再上线。解决落地问题就是解决“幻觉”、解决准确性的问题。最难的是,大模型即便回答问题能够达到70%的正确,但剩下30%是人也很难判断答案的好坏。这也是业内大家共同要攻克的难题。
红星资本局:您如何看待垂类模型的趋势,垂类大模型的挑战是什么?
向海:训练大模型,主要看数据和语料,通用模型的能力越来越强,一旦它也掌握了垂类的这些数据语料,那垂类模型相较于通用模型的优势就不一定存在了。而且垂类模型,并不是做垂直领域应用的一个必要前提,所以业内也是在观望,看GPT5的智慧程度。
在垂直领域,也要看大模型的实力。比如招聘一个客服,上岗之前都要进行训练对抗和压力测试,在这个场景里大模型模仿消费者,我们测试过GPT4、豆包等模型,是具备模拟消费的能力,达到个7、80分是没问题的,也就是说通用大模型可以实现这个产品功能,垂直行业的场景依然可以通过通用大模型来解决。
但是有些场景需要大模型达到95分以上才可用,这个时候通用大模型在精准问答上的能力就不如垂类模型。从我们的业务场景出发,如果GPT4或者最好的模型都达不到需要的效果,我们认为垂类模型还是有空间的。
垂类模型也是更“专科”的。比如最近“9.9和9.11谁大”,很多大模型都答错了,因为大模型“文科强理科弱”。而在电商领域,有大量的数学场景,我们就要去训练垂类模型调用工具。识别到数学问题,是不让它去算的,比如说推荐尺码,是通过调用尺码计算器,再结合商品信息适配,给出结论。
垂类模型的优势是尺寸更小,训练成本和推理成本都更低。比如训练10亿的模型,我们大概花费了2、300万每次,如果训一个百亿级的话,预计要到三四千万左右这个水平。这相较通用大模型的成本还是成本低不少。
国产芯片挑战除了人才还有生态
红星资本局:您认为国产芯片还有什么挑战?
向海:难点就在于生态和人才。毕竟大家都习惯了英伟达的调试技巧,比如同样的代码,在国产芯片上的确还需要很多适配工作。会做适配工作的人才又少,这就会影响模型的验证和创新速度。国产芯片目前还需要所有供应商通力配合,比如哪个地方跑不动了,哪个性能上不去了,这些都需要芯片厂商、生态供应商和大模型企业一起去“磨”,不磨这个生态就起不来。
红星资本局:对于大模型的算力供应方面,您认为业内现在还有哪些瓶颈和制约?现在大模型发展面临的问题,更紧迫的是这种技术突破还是这种成本的问题?
向海:目前我们看到的很大概率可能是推理这个板块的算力会受限。大家现在都在想当下怎么落地,业内也预判杀手级的应用会在近两年内爆发,随后带来的就是大量的推理诉求。国产芯片是否能够补位,这里就会出现“卡点”。
现在应用没起来,在推理方面的投资比较弱,等到应用爆发时,生态的“卡点”没解决,大家可能到时还是要依赖英伟达。
我认为现在大模型最大的挑战,不在于技术和成本,最终还是场景突破,它到底给我们带来了哪些用处?如果它非常有用,成本不是问题,推理算力也都不是问题。有价值就有商机,有商机就有办法解决性能和成本问题,但看上半年场景问题还是比较焦灼,如果有应用跑出来,大家的信心就会更强。
就像前阵大模型价格战也是为了这个目的,我认为价格战短期还会持续,直到杀手级应用的出现,大家可能会转战去卷场景。目前我也注意到一些小团队做应用比较好的是在教育领域,比如写论文这种,在教育领域的应用我认为会先行火起来。
红星新闻记者 王田
编辑 肖子琦