大模型六小龙:在大厂夹缝中求生存。图片来源:视觉中国
文丨墨行
编辑丨叶锦言
出品丨深网科技新闻小满工作室
编者按:未来已来,《深网》在岁末年初对于热门赛道做了一些复盘和展望,这是第一篇主角是AI独角兽们。
AI大模型有先发优势还是后发优势?这是一家早期投资机构合伙人一直在思考的问题。
“大家都在追赶国外先进大模型,对于AI六小龙主要是看谁的造血能力强,可以等到技术平权以后再去抄,但是如果这样的话,他们的先发优势也就没有了。”该合伙人表示。
如果说AI大模型无法持续跟上最新模型进度,或者落后于开源模型,那么这些AI大模型该如何生存下去,转型还是被并购,是不是后发优势的创业公司反而更能够摸着石头过河?
谷歌研究员就曾在博客中提出,当免费的、不受限制的开源模型与闭源模型质量相当时,人们不会为受限制的模型付费,而开源模型和闭源模型的差距正在快速缩小。
曾经以为在生成式AI领域存在的飞轮效应的认知开始有所动摇。此前红杉美国David Cahn就在其发表的文章中指出,希望能够通过更多用户使用获取更多数据的大模型公司发现这并未证明有效。
对于AI大模型独角兽创始人而言,如何生存,这个话题将从2024年持续到2025年,这是大模型独角兽的创始人始终需要面对的一个问题。进入2025年,大模型独角兽的淘汰赛开启了。
1月6日,一则有关“01万物散伙了 卡和预训练团队卖给阿里了”的传闻开始出现在社交媒体。随即,零一万物创始人兼CEO李开复,对此进行了辟谣:
而据《智能涌现》:零一万物与部分地方政府和国资的融资进展并不顺利,“账上的钱撑不到一年”。
成本开支何时转为资产项
之前红杉美国合伙人David Cahn曾在《AI的6000亿美元问题》文章中算过一笔账,AI公司在训练大模型投入和产生收入之间仍然有6000亿的缺口。AI何时才能将成本项转化为资产项是投资人一直疑虑的问题。
若想追赶下一代GPT模型且预训练Scaling Law 持续奏效的情况下,有分析师此前预测单个十万卡集群需要40亿美元资本开支,这还是没有将电源等其他投入考虑进去。
百度2023年净利润为203.15亿元,想要参与下一个模型的竞争很难,更何况是还没有核心现金牛业务的其他AI大模型创业公司,很难投入到这场资源密集的竞争。
此前不久市场上一直有传AI六小龙已经在今年上半年开始不做预训练了,继而转为后训练。不过据作者多方求证,实际上AI六小龙仍然在做预训练,不过侧重上或许不同。
据一位早期投资人私下表示,实际上Kimi 更侧重Post-training(Post-training是指在预训练模型的基础上,通过进一步的训练来优化模型性能的过程),因为后者效果更好,只要工程化后产品好用就可以。王小川此前也曾私下表示认可Post-training的做法。
海外媒体information 就曾发表文章称GPT提升减速,AI 产业界正将重心转向在初始训练后再对模型进行提升。
GPT 01 的出现给大家打开了另一种Scaling Law的可能。通过在后训练环节进行RL 来实现模型在推理、数学方面能力提升。GPT 01在post training 算力方面的需求可能仅为预训练的1%-10%,推理算力是GPT 40的十倍。
对于AI大模型创业公司来说侧重后训练也是出于算力限制和成本方面的考虑。
据接近中芯国际相关人士透露,2024年国内在芯片上的需求量反而下降了。“2024年只有少量像腾讯、字节这样的大厂在正常采购,以前很多中型客户今年都没有采购,AI六小龙其实采购量不大,租用比较多。”