今年5月的一场发布会上,火山引擎总裁谭待表示,“豆包比行业价格低了99.3%,大模型从此以厘计价”。
对于人工智能产业而言,这实际上释放了一个明显信号随着基础设施成本下降,应用爆发期即将来临。
深度学习泰斗吴恩达曾在一次公开演讲中表示,AI是一系列工具的集合。这些工具包括了监督学习、非监督学习、强化学习,以及现在的生成式人工智能它们都是通用技术,意味着AI与电力、互联网等其他通用技术,并没有什么区别。
电力本身并没有创造价值,但它驱动了电灯、冰箱和空调,后者诞生的基础是低廉的电力成本。与之对应,把大模型看作电力,它的繁荣取决于能够带动多少下游的应用,组成一个生机勃勃的生态。
如果一定要用一个指标衡量生态的繁荣程度,那显然不是模型本身的参数和性能,而是什么样的人在调用它,有多少人正在使用它。
在8月21日举办的火山引擎AI创新巡展上公布的数据显示,最新版豆包大语言模型的综合能力相比三个月前首次发布时提升了20.3%,同时日均Tokens使用量超过5000亿,发布2个月以来,平均每家企业客户日均Tokens使用量增长了22倍,是国内使用量最大的大模型之一。
每一次API调用,都是在为技术大厦添砖加瓦,逐步搭建出丰富多样的应用楼宇。
应用之辩
金沙江创投朱啸虎曾在朋友圈吐槽:“当年看不起(互联网的)商业模式创新,觉得没有壁垒:百团大战、百车大战、百播大战;没想到硬科技大模型创业,依然是百模大战...”
这种对商业化有着执着信仰的投资人被称作是“市场派”,而在他的另一边,则是高举scaling law大旗的技术派,其信条是人工智能的市场会随着模型能力的飞跃而自然形成,更应该不计成本的投入模型的训练。
这场争论背后的分歧,也在谷歌和国内大模型的更新频率中体现。
今年2月,谷歌推出了Gemini1.0、Gemini Advanced、Gemini 1.5 pro、Gemma、Genie一系列模型,还有一堆Ultra、Pro、Nano这种不同参数量的版本,不光看的用户眼花缭乱,谷歌员工看着既熟悉又陌生的大模型军团,也难免迷惑。
中国公司自然也不遑多让,各家大模型在参数和排名上轮番打破纪录,聊天绘画和吟诗作对无所不能。但高频更新的模型能力,和大规模商业化应用场景之间的落差,就构成了红杉研报中一连串的数据:
全球的科技公司每年预计将花费2000亿美元,用于大模型基础设施建设,相比之下,大模型每年最多只能产生750亿美元的收入,中间存在着至少1250亿美元的缺口。
国联证券统计A股上市公司2023年财报显示,AIGC整体渗透率不足20%,在超过一半的一级行业渗透率不到10%[1],由此带来了诸多类似“朱啸虎之问”的争论与质疑。
种种争论与质疑往往会被引向对大模型价值的怀疑,但事实上,对模型性能的追逐,与应用和商业化的成长并不矛盾。
举例来说,iPhone并非第一台触屏手机,苹果真正的开创性是基于“触摸”这个场景,开发了一系列交互方式。而触摸屏的分辨率、感应精度等指标,与触控操作并不矛盾,反而相辅相成。
与之对应,模型本身的能力与应用的落地也不是非黑即白。横空出世的ChatGPT既是GPT模型性能的体现,也是OpenAI的产品团队基于“聊天”这个场景的产品化能力。
只不过,面对各行各业细分又复杂的需求,大模型的应用很难用代码推导出来,只能躬身入局,深入具体的业务场景。
有了这个背景,便不难理解火山引擎牵头搭建包括零售、汽车、智能终端等行业大模型生态联盟的用意。其核心思路在于,让一部分企业先将大模型嵌入业务场景,在这个过程中,探索各行各业融入AI的参考教材。
换句话说,豆包把握企业需求的方式,尝试和企业用户一起去探索未来更新方向。
从零售开始,到千行百业去
零售行业最显著的特点是非标。相比高度标准化的生产环节,零售存在大量的非标环节,比如商品组合设计、直播数据复盘、售后服务响应等等。同时,零售行业虽然信息化/数字化底子不俗,但智能化空间依然很大。
真实的销售场景中,促成消费者“购买”动作的核心要素很多时候是“说不清道不明”的,单纯的数字化工具,很难学会用“唠家常”、“唤起共情”来卖产品。但这恰恰是大模型与智能化能够渗透的业务空间。
一套经典培训话术
零售大模型生态联盟成立的背景,一方面是零售业借助AI提升经营效率,在存量中创造增量;另一方面对豆包和火山引擎来说,这也是与行业伙伴协同探索业内真实需求,以进一步完善豆包服务能力的机会。
截至目前,零售大模型生态联盟发布了七种核心解决方案,基本覆盖零售行业“人、尝货”三大核心要素。
“人”指消费者需求,解决方案包括:VOC,多维度挖掘消费者需求,洞察流失原因;零售客服质检,实现全量智能质检和实时预警,统一服务标准,对所有会话进行智能监控,一旦发现异常,立即标记并告警。
“场”指渠道以及销售场景(比如直播),解决方案包括:零售客服陪练,模拟买家与客服的对话,加快客服水平提升速度;练播房,教-学-练-考-评全面融入豆包大模型,提升主播带货水平;直播洞察,结合抖店授权精准数据,辅以豆包大模型及抖音同源的技术复盘归因,提升抖音直播间表现。
“货”指产品及服务,也被认为是三大要素中,AI附加值最高的环节。
以豆包大模型为基础的商城导购助手,可以实现会籍知识问答、大模型推荐商品信息列表、基于购物偏好购买清单、基于购物清单给出商品链接、智能回复等核心场景,提高顾客的体验和满意度。
在一系列解决方案中,不难看出火山引擎在其中扮演的角色:
一是将一些非标的环节尽可能标准化。比如售后服务和直播复盘归因,大量数据归集、指标筛选的“Excel式”工作可以交由大模型完成,将人的决策能力释放出来。二是在数字化的基础上智能化,比如直播洞察、企业商品知识库这类应用,本质上利用的是大模型对非标数据的处理能力。
在与零售行业的合作中,豆包扮演的其实是一个“修铁路”的角色即针对行业的需求,针对性开发一系列作为基础设施的应用,并在实际的行业应用过程中逐渐去粗取精。
在零售之外,火山引擎的工具箱正在一个又一个行业中复制。
今年5月,火山引擎正式发布“汽车大模型生态联盟”,成员除了吉利、长城、一汽红旗、东风本田、智己等车企外,还包括中国电动汽车百人会等行业组织,同时最新入会成员包括领克、吉利银河、上汽荣威、上汽名爵等。
在本月火山引擎与梅赛德斯-奔驰的合作中,可以窥见前者扮演的角色提升智舱信息检索能力、提升智舱系统反应速度、扩展智能应用场景等。
在与领克汽车的合作中,在豆包大模型帮助下,领克实现了智慧邀约坐席、AI 对练&内训、AI 销售助手、智慧经营报表以及 AI 用车说明书等多项基于模型能力的功能。
除此之外,在教育、金融、游戏、智能终端等行业,大模型应用也取得积极进展。
比如在教育领域,据浙江大学求是特聘教授、信息技术中心主任陈文智介绍,在自研 OpenBuddy 模型,以及豆包大模型等极具性价比的商业模型及智能体的共同赋能下,浙大创建了“浙大先生”智能体应用开发平台,并搭建了AI科学家、慧学外语、AI百事通、数字教师等多个大模型校园应用场景。
在大模型的参数指标不断突破极限的同时,它的应用案例,也在一个又一个常被忽视的业务场景中不断积累。
从科学到商业
SuperCLUE在今年4月发布的《中文大模型基准测评报告》中,将豆包大模型划入了“实用主义者”象限[3],点出了豆包大模型区别于国内许多大模型的特质:更加重视实用性。
大模型的性能和参数,更多是一种学术意义的指标,但让各行各业用上大模型,则是一个有关成本、效率和价值的商业问题。
从学术角度看,生成式AI的终极目标是一个超级模型解决所有问题。但放在具体的商业应用中,显然更看重模型与业务的适配,这也是火山引擎在通用模型之外,针对细分场景开发专用模型的核心因素。
今年的春季火山引擎FORCE原动力大会上,字节跳动发布了豆包模型家族,包含大语言模型、语音模型、视觉模型等九大模型,到今年7月,家族又迎来新成员豆包图生图模型,为更细分的需求进行了针对性开发。
在8月21日的创新巡展上,豆包再次宣布重磅更新,性能方面,豆包大模型在角色扮演、语言理解、长文任务、数学等维度,综合能力提升20.3%。
在垂类模型方面,比如语音识别模型,在识别率上,与国内公开发布的语音识别大模型相比,错误率降低了 10%-40%;在上下文感知上,带来超过15%的召回率提升;同时在保持高准确率后,豆包语音识别支持包括上海话、粤语、四川话、陕西话、闽南语等方言识别。
语音合成模型重点升级了流式语音合成能力,实时生成语音,让大模型“边想边说”,接近人类语音交互方式,大模型理解文本语义和情感的能力的升级,实现精准断句,同时有26种超自然音色可供选择。
FlagEval6月发布的评测榜单显示,在闭源大模型的“客观评测”中,豆包大模型以综合评分75.96分排名国产大模型第一。
在模型落地环节,火山引擎推出了火山方舟、扣子专业版、HiAgent等一系列平台和工具。以火山方舟为例,企业可以通过火山方舟进行模型精调、推理、评测等,也可以通过丰富的插件生态,进行AI原生应用开发。
扣子是“工具箱”诸多应用中非常出圈的,其本质是“低代码”构建AI Bot,用户不懂编程知识也可以构建各种AI Bot,并发布到应用商店,还能分享到豆包、微信、飞书等平台。
扣子专业版主要面向企业需求,在原版基础上提供了企业级SLA和多种高级特性,使AI应用更易落地,驱动业务增长。
HiAgent则是企业专属的AI应用创新平台,高度适配企业个性化需求,企业业务人员可以像搭积木一样低代码搭建智能体,让业务创新不受生产技能的限制。
一系列高强度开发的目的,就是从价格到易用性等多个方面,全面降低模型的使用调度成本。
在承载力方面,豆包提供了业内最高标准的初始TPM(每分钟Tokens)和RPM(每分钟请求数),每分钟处理Tokens限额最高可达同梯队模型数倍。
而在价格上,在各家大模型最强版本价格对比中,豆包比行业价格低98%以上。
在解决了成本问题后,大模型落地到行业内的难题,就只剩下大模型与企业的协同。换句话说,就是模型要“懂”行业。
何为“懂”?法律条文教育出的大模型会在法考中拿高分或是提供法律条文注释,但更多案件实例的投喂和专业律师不断反馈的意见,才能“培养”出一个AI律师。在更多行业,一些“只可意会不可言传”的know-how,需要大模型公司与行业更多的协作和磨合。
对大模型企业来说,这就不仅要求其本身有足够强的“技术能力”,更依赖在无数行业实践中积累的“工程能力”。火山引擎大神云集的研发团队常被舆论提及,但其多年的成功实践中,不断完善的“工程能力”,同样举足轻重。
从零售大模型生态联盟到汽车大模型生态联盟,再到火山引擎与多家头部智能终端厂商一同成立的智能终端大模型联盟,一个个行业的智能化重塑和人工智能真正的革命性,正在这些行业落地中一点点展露。
尾声
AIGC产业的评价体系向来和数字强相关,去年是各大参数性能,今年则是各大公司的盈亏额。
上个月,行业媒体the Information发表长文《How does OpenAI Survive》,估算OpenAI今年的运营亏损将到50亿美元。这意味着奥特曼的化缘之路尚且漫漫,短时间内看不到尽头。
OpenAI的最大竞争对手Anthropic情况也不好。今年早些时候,公司高管曾预测,2024年的年化收入在与亚马逊分成后在4亿美元到6亿美元之间,但同时全年耗费资金将达到27亿美元。
这似乎进一步验证了一个历史规律:技术革命的最大受益者,通常不是率先做出突破的开拓者,而是那些率先将技术扩散出去的一方。
中国有句老话叫“要想富先修路”,AI时代,技术与实际生产生活的融合迎来全新的高度,也给“修路”带来了新的挑战。
超级工程向来不是拔地而起,技术的变革总是厚积薄发。今天,火山引擎通车了高速公路的一条快车道。
参考资料
[1] 千家公司年报,看AI在A股的“渗透率”,国联证券
[2] Andrew Ng: Opportunities in AI - 2023,Stanford Online
[3] 中文大模型基准测评2024年度4月报告,SuperCLUE
作者:何律衡
编辑:张泽一
视觉设计:疏睿
责任编辑:张泽一