中国行业龙头和大用户,对大模型创新和它带来的新技术范式高度关注,甚至已经开始倒逼国内互联网大公司和人工智能企业加速行动。
文|黄幸怡
编|石兆
这两天,大模型风头实在强劲。
3月15日,OpenAI刚带着新出炉的GPT-4在全网刷屏,狂吸了一大波眼球,第二天,百度就带着第一个中国版ChatGPT文心一言亮相,又掀起一波热潮。
虽然在朋友圈中,关于文心一言有不少吐槽,但不少业界人士也对数智前线表示,要对中国自己的大模型追赶者宽容一点,这其中不乏来自百度的竞争对手。
而数智前线获悉,中国行业龙头和大用户,对大模型创新和它带来的新技术范式高度关注,甚至已经开始倒逼国内互联网大公司和人工智能企业加速行动。
发布会上,李彦宏也称,文心一言还不能算完美,但为什么现在发布?是因为无论是百度内部产品还是合作伙伴对大语言模型的需求都非常强烈,“大家都在催”。
01
文心一言谨慎发布
"千呼万唤"中,文心一言终于亮相。3月16日下午两点,百度创始人李彦宏带着五个Demo(视频短片)登台展示,宣告了百度新一代大语言模型、生成式AI产品文心一言的正式发布。
百度对于文心一言的预热足足进行了几个月,却在临门一脚之际,碰上大洋彼岸的OpenAI 突然“插队”发布多模态预训练大模型GPT-4 ,被抢了不少风头的同时,还难免被用来对比。
就比如,功能展示环节,百度使用提前录好的Demo,就被不少人拿来和前一天OpenAI发布GPT-4 时的实时演示对比,被认为“缺少了现场感”和“不太自信”。
GPT-4是ChatGPT之前使用的大模型GPT-3.5的升级版,与前代相比,文本输入上限提升至2.5万字,回复的准确性提高,更重要的是,可以读图了,且很会“做题”,包括之前被吐槽的数学题。在SAT考试中,它拿下700分,GRE几乎满分,在律师模拟考试中能考到前10%,而GPT-3.5只考到倒数10%。而这些,很多其实也并不为文心一言所有。
“大家的期望值是要对标 ChatGPT,甚至要对标GPT-4,这个门槛还是很高的。全球大厂还没有一个做出来的,百度是第一个。”发布会上,李彦宏如是表示。
围绕文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五个使用场景,他在现场演示了文心一言的一些能力:
帮刘慈欣续写《三体》,分析推理于和伟和张鲁一谁更高,给公司起名、写slogan、写新闻稿;解决了此前难倒过ChatGPT的“鸡兔同笼”问题,也能理解“洛阳纸贵”,并以此写一首藏头诗;帮2023世界智能交通大会生成海报和宣传视频,还以一口四川话回答问题……
文心一言虽然在一些方面还比不上OpenAI的GPT产品,但业内认为,它在中文理解、一些多模态生成场景上将有一定优势。在多模态生成方面,文心一言目前的版本,能生成文字、图片和语音,而生成视频是世界级难题,包括谷歌在内的企业,实现的效果还差强人意,百度也未对所有用户开放。
文心一言并未对全部用户开放,采用了申请制,这是比较谨慎的做法。在新闻发布会后一小时内,百度透露,排队申请文心一言企业版API调用服务测试的企业用户已达3万多家,申请产品测试网页多次被挤爆。
李彦宏称,大语言模型一旦发布出来,就会获得真实的反溃有了用户反馈之后,迭代速度、能力提升会加快。
02
中国客户倒逼AI公司加快行动
ChatGPT的爆火,最初引起国内一众人工智能企业和从业者的紧迫感,而现在,这种紧迫感,已经传导到了更广阔的范围,AI公司已经开始被他们的客户倒逼着开展一些行动。
数智前线获悉,国内几家大型互联网公司和人工智能企业,最近几乎都遇到过这样的场景:来自各行各业的客户纷纷找来,向他们咨询和了解ChatGPT和大模型相关的内容。
“而且几乎所有人都是被老板逼着来问的。”知情人士透露,尤其是行业龙头企业和大型央国企,都有一种焦虑感。
大家普遍关注和担心的点在于:这些人工智能企业和互联网公司的大模型进展情况如何?他们的技术是否跟上了潮流?客户如果在业务中采用了这些公司做的人工智能技术,业务和创新能不能处于前沿?
这使得一些一开始并不打算“追风”的人工智能企业,也在不得不在最近出来发声,向外界和大客户分享和介绍他们的大模型相关进展。
实际上,如果单从大模型的数量和研发时间来看,中美并没有不可逾越的距离。有数据显示,自2020年起,中国的大模型数量骤增,仅2020年到2021年,中国大模型数量就从2个增至21个,和美国量级同等,大幅领先于其他国家。
具体到目前业界具有代表性的AI大模型上,国外的OpenAI在2021年发布120亿参数的多模态大模型CLIP、DALL-E,同年谷歌发布ALIGN 、VIT-G/14时,国内的百度已经有了文心大模型,阿里也推出了国内首个千亿参数多模态大模型M6,华为和商汤纷纷在这年推出自己的大模型盘古和书生(INTERN),腾讯则在2022年对外官宣了混元大模型。
参数规模上,国内目前也已经有不少能比肩ChatGPT的大模型,如百度的文心大模型参数量2600亿,阿里的多模态大模型M6参数规模突破10万亿,据称已经远超谷歌、微软的大模型参数规模,成为全球最大的AI预训练模型。
不过,不可否认的是,从效果来看,国内厂商的大模型距离领先的OpenAI仍然还有距离,需要国内企业提速追赶。
旷视科技联合创始人、CEO印奇认为,国内目前已经公布的大模型,跟GPT-3.5还有较大差距。李开复也在最近表示,自己尝试过一些所谓的中国ChatGPT,发现他们的确不如ChatGPT。
”这种差异归咎于英语服务比中国竞争者提供的数据更多、质量更高。但在技术方面,有几家公司给我留下了相当深刻的印象“。李开复认为,中国公司可能需要一年时间才能获得同等或可能更大的数据量。
实际上,由于GPT-3之后,OpenAI的所有模型就没有再开源,GPT-3.5、甚至GPT-4的运行机制是什么,如何达成这种效果,仍需国内企业进一步去跑通。印奇认为,中国攻坚 AI 大模型目前最重要的是要先能把GPT-3.5复现出来,"这是所有事情的起点"。
但这个过程并没有想象的那么容易。相对于美国在基础技术上的创新投入,中国 AI 公司还是要面临相对短周期商业化的压力,而不可能像OpenAI和DeepMind一样,“我们没有那么奢侈的条件。”在印奇看来,中美在 AI 领域差距并没有那么大,国内只要迎头赶上还是有优势的,但也“要有极强的危机感。”
03
大量小模型企业将要转型
大模型出来之前,各行各业的小模型已经运行了一段时间。相比于大模型展现出的强大能力,做小模型的企业又将何去何从?
“咱们不能拿着锤子,看什么都是钉子,有些场景小模型已经能满足需求,就没必要用大模型去解决它。”忻舟百度AI中台总监告诉数智前线,像门口闸机系统,基本上靠人脸识别就已经用得很好了,就没必要再用一个大模型去迭代。
但同时,忻舟和不少资深人士都认为,大模型的确给碎片化场景和原来用小模型解决不好的场景,带来改变。
在忻舟看来,大模型导致了AI产业应用新范式的出现。"原来的范式是每个场景都有一个模型,需要专家做设计、标注数据,新的范式却是通用大模型加行业数据变成行业大模型,再针对不同场景使用少量数据就能得到场景的模型,场景的模型还可以做数据回流来增强行业大模型的能力。”
在他看来,这种新范式的出现,会给整个人工智能企业的服务生态带来很大变化。例如,原来在一些单点为客户提供服务,满足他们某个领域如金融行业需求的创业公司,在大模型技术到来后,优势将大幅降低,这些企业如果想继续活下去,就必须想办法拥抱有大模型的企业,合作去做相关工作。
与此同时,大模型技术使得人工智能的门槛进一步降低后,由于不需要每家企业从头训练NLP或CV能力,会有更多的企业进来,加剧整个行业的竞争。这时,服务好、成本控制好、在大模型的基础上有更多创新的企业,将被市场筛选出来,也会使原来乱报价的现象得到控制。
“我认为他会给整个人工智能企业服务行业带来一个正向结果。”忻舟表示。这是一个大的趋势,尤其是创业企业,谁能最先拥抱这样的趋势来对自己的服务模式和商业模式做一定的改变,谁就更能够在新AI时代活下来。
大模型的热潮还将长期持续。在大模型的落地部署上,此前一些问题正在出现一些新的解决方向。
比如大模型通常需要更大的算力消耗,尤其是昂贵的GPU,从而导致的高部署成本问题。数智前线获悉,不少人工智能企业目前已经可以通过一些方法探索如何更合理地控制成本。比如,推理时对模型进行压缩和蒸馏,使一个大的模型压缩成一个小的模型,同时确保其效果不降或只降一点点,也能大幅节约成本。
事实上,据业内人士透露,如何将模型做“小”正在成为大模型产业落地的一个重要课题。实在智能CEO孙林君此前就曾表示,大模型生态里,除了专用高质量数据外,最重要的工作是基于预训练大模型跑出来的参数底座,去微调压缩训练垂直领域内的新的专用小模型,这可以降低算力和成本,同时提高自身产品的用户体验。
又比如一些人担心的大模型是否能私有化部署的问题。几位业界人士告诉数智前线,大模型是可以支持私有云的。李彦宏也表示,围绕文心一言,百度既有公有云服务,也可以做私有化部署。对于中国客户青睐的私有化部署,国内的企业都将提供和实践性价比越来越高的方法。