当前位置：人工智能实验室> 人工智能动态 > 从模仿到思考：生成式AI的进化之路

从模仿到思考：生成式AI的进化之路
来源：互联网发布日期：2024-10-14 09:20:16 浏览：308次

导读：这是一篇投资公司 Sequoia 刚刚发布的关于生成式 AI 的年度报告，很值得一读，里面提出几个有意思的点：新扩展定律: o1代表通过推理时计算在一般推理能力上的重大进展。这是生成式AI的AlphaGo时刻,标志着大模型扩展定律的重要转折点。更多推理时间计算导致...

这是一篇投资公司 Sequoia 刚刚发布的关于生成式 AI 的年度报告，很值得一读，里面提出几个有意思的点：

新扩展定律: o1代表通过"推理时计算"在一般推理能力上的重大进展。这是生成式AI的"AlphaGo时刻",标志着大模型扩展定律的重要转折点。更多推理时间计算导致显著更好的推理,这将推动应用层的可用性。

SaaS重新定义: SaaS从"Software as a Service"转向"Service as Software"。从销售席位转变为销售最终交付结果,体现了"sell work, not software"的理念。

领域专知重要性: 认知架构代表行业专知(know-how)。将专知与模型能力结合是构建数据闭环、从副驾驶到自动驾驶的关键。

大模型进入下一阶段技术突破,同时产品经理的机会窗口已经到来。文章包含更多细节,值得仔细阅读和思考。

在生成式AI革命的两年里,研究正在将该领域从"快速思考"快速的预训练响应推进到"慢速思考"在推理时进行推理。这种演变正在开启一批新的主动应用。

在我们发表《生成式AI:一个创新的新世界》一文两周年之际,AI生态系统看起来已经大不相同,我们对未来有一些预测。

生成式AI市场的基础层正在稳定到一个均衡状态,其中包括一些关键的规模化参与者和联盟,包括微软/OpenAI、AWS/Anthropic、Meta和谷歌/DeepMind。只有那些拥有经济引擎和获取大量资本的规模化参与者仍在竞争。虽然这场战斗远未结束(并且在博弈论式的方式中不断升级),但市场结构本身正在稳固,很明显我们将获得越来越便宜和丰富的下一个词预测。

随着LLM市场结构的稳定,下一个前沿正在出现。焦点正在转向推理层的发展和扩展,在这里"系统2"思维占主导地位。受到像AlphaGo这样的模型的启发,这一层旨在赋予AI系统以推理时的深思熟虑的推理、问题解决和认知操作能力,超越快速模式匹配。新的认知架构和用户界面正在塑造这些推理能力如何传递给用户并与之互动。

这对AI市场的创始人意味着什么?这对现有的软件公司意味着什么?作为投资者,我们在生成式AI技术栈中看到哪一层最有前景的回报?

在我们最新关于生成式AI市场状况的文章中,我们将探讨基础LLM层的整合如何为竞相扩展这些高阶推理和主动能力奠定基础,并讨论具有新型认知架构和用户界面的新一代"杀手级应用"。

永远的草莓田

2024年最重要的模型更新要归功于OpenAI的o1,之前被称为Q*,也被称为Strawberry。这不仅是OpenAI在模型质量排行榜上重新确立其应有地位,还是对现有架构的显著改进。更具体地说,这是第一个具有真正通用推理能力的模型示例,他们通过推理时计算实现了这一点。

这意味着什么?预训练模型是在大量数据上进行下一个词的预测。它们依赖于"训练时计算"。规模的一个新兴特性是基本推理,但这种推理非常有限。如果你能直接教会模型推理呢?这基本上就是Strawberry正在做的事情。当我们说"推理时计算"时,我们指的是要求模型在给出回应之前停下来思考,这需要在推理时进行更多计算(因此称为"推理时计算")。"停下来思考"的部分就是推理。

AlphaGo x LLMs那么,当模型停下来思考时,它在做什么?

让我们先简单回顾一下2016年3月在首尔发生的事情。深度学习历史上最具里程碑意义的时刻之一发生在这里:AlphaGo与传奇围棋大师李世石的比赛。这不仅仅是任何AI对人类的比赛这是世界看到AI不仅仅是模仿模式的时刻。它在思考。

是什么让AlphaGo与之前的游戏AI系统(如深蓝)不同?像LLMs一样,AlphaGo首先从大约3000万个来自以前比赛的动作数据库和更多自我对弈中预训练,以模仿人类专家。但是,AlphaGo并不是提供来自预训练模型的本能反应,而是花时间停下来思考。在推理时,模型会对广泛的潜在未来场景进行搜索或模拟,对这些场景进行评分,然后以具有最高期望值的场景(或答案)做出响应。给予AlphaGo的时间越多,它的表现就越好。如果没有推理时计算,模型就无法击败最优秀的人类选手。但随着推理时间的增加,AlphaGo变得越来越好直到它超越了最优秀的人类。

让我们回到LLM世界。在这里复制AlphaGo的难点在于构建价值函数,即对响应进行评分的函数。如果你在下围棋,这相对直接:你可以模拟整个游戏直到结束,看谁赢了,然后计算下一步棋的期望值。如果你在编码,这也相对直接:你可以测试代码,看它是否有效。但是你如何为一篇文章的初稿打分?或者一个旅行计划?或者一份长文档中关键术语的摘要?这就是为什么用当前方法进行推理很困难,也是为什么Strawberry在接近逻辑的领域(例如编码、数学、科学)相对强大,而在更开放和非结构化的领域(例如写作)则不那么强大。

虽然Strawberry的实际实现是一个严格保守的秘密,但关键思想涉及围绕模型生成的思维链进行强化学习。审查模型的思维链表明,正在发生一些基本而令人兴奋的事情,这实际上类似于人类思考和推理的方式。例如,o1显示了一种能力,即在遇到困难时能够回溯,这是扩展推理时间的一个新兴特性。它还显示了像人类一样思考问题的能力(例如,visualize球体上的点来解决几何问题)以及以新方式思考问题的能力(例如,以人类不会的方式解决编程竞赛中的问题)。

而且,研究团队正在努力推进推理时计算的新想法(例如,计算奖励函数的新方法,缩小生成器/验证器差距的新方法),以此来提高模型的推理能力。换句话说,深度强化学习再次变得很酷,它正在实现个全新的推理层。

System1 vs System2 思考

从预训练的本能反应("系统1")到更深层次的、深思熟虑的推理("系统2")的飞跃是AI的下一个前沿。模型仅仅知道事物是不够的它们需要停下来,评估并在实时中推理决策。

将预训练视为系统1层。无论模型是在围棋的数百万步棋(AlphaGo)还是在互联网规模的PB级文本(LLMs)上预训练,它的工作都是模仿模式无论是人类的游戏方式还是语言。但是模仿,尽管强大,却不是真正的推理。它无法正确地思考复杂的新情况,特别是那些样本外的情况。

这就是系统2思考的用武之地,也是最新一波AI研究的重点。当一个模型"停下来思考"时,它不仅仅是生成学习到的模式或根据过去的数据吐出预测。它正在生成一系列可能性,考虑潜在的结果,并基于推理做出决定。

对于许多任务来说,系统1已经足够了。正如Noam Brown在我们最新一期的Training Data节目中指出的那样,花更长时间思考不丹的首都是什么并没有帮助你要么知道,要么不知道。这里快速的、基于模式的回忆完全奏效。

但当我们看到更复杂的问题时比如数学或生物学的突破性进展快速、本能的反应就不够用了。这些进展需要深度思考、创造性的问题解决,最重要的是,需要时间。对AI来说也是如此。要解决最具挑战性、最有意义的问题,AI需要超越快速的样本内响应,花时间进行那种深思熟虑的推理,这种推理定义了人类的进步。

如何比较

思考模式计算财务模型成熟度

推理层

系统2思考: 缓慢、深思熟虑

推理时间

COGS (销售成本)

新兴

预训练层

系统1思考: 快速

预训练

Opex/Capex (运营支出/资本支出)

趋于成熟

示例

AlphaGoLLMs（大语言模型）机器人学

推理层

蒙特卡洛树搜索

思维链

模拟

预训练层

3000万

互联网规模的文本

互联网规模的视频

新的扩展定律:推理竞赛已经开始

o1论文中最重要的洞见是出现了一个新的扩展定律。

预训练LLMs遵循一个被充分理解的扩展定律:你在预训练模型上花费的计算和数据越多,它的表现就越好。

o1论文为扩展计算开辟了一个全新的平面:你给模型的推理时间(或"测试时间")计算越多,它的推理就越好。

[图片: 来源:OpenAI o1技术报告]

当模型可以思考数小时、数天、数十年时会发生什么?我们会解决黎曼猜想吗?我们会回答阿西莫夫的最后一个问题吗?

这种转变将把我们从大规模预训练集群的世界转向推理云可以根据任务的复杂性动态扩展计算的环境。

一个模型统治一切?当OpenAI、Anthropic、Google和Meta扩展他们的推理层并开发越来越强大的推理机器时会发生什么?我们会有一个统治一切的模型吗?

生成式AI市场最初的一个假设是,单一的模型公司将变得如此强大和全面,以至于它会吞并所有其他应用。到目前为止,这个预测在两个方面是错误的。

首先,在模型层面有大量的竞争,不断有人在SOTA能力上超越对手。有可能有人会在广泛领域的自我对弈中实现持续的自我改进并实现起飞,但目前我们还没有看到这方面的证据。恰恰相反,模型层是一场刀光剑影的战斗,自上次开发者日以来,GPT-4的每个token的价格下降了98%。

其次,除了ChatGPT这个显著的例外,模型基本上未能作为突破性产品进入应用层。现实世界是混乱的。伟大的研究人员没有兴趣去了解每个可能的垂直领域中每个可能功能的细节端到端工作流程。对他们来说,停留在API层面既有吸引力又在经济上合理,让开发者群体去处理现实世界的混乱。这对应用层来说是个好消息。

混乱的现实世界:定制认知架构

作为一名科学家,你计划和执行行动以达到目标的方式,与作为一名软件工程师的方式有很大的不同。而且,即使是在不同公司的软件工程师,这种方式也是不同的。

随着研究实验室进一步推动横向通用推理的边界,我们仍然需要特定应用或领域的推理来提供有用的AI代理。混乱的现实世界需要大量的领域和应用特定的推理,这些推理无法高效地编码到一个通用模型中。

进入认知架构,或者说你的系统如何思考:代码流和模型交互的流程,它接收用户输入并执行行动或生成响应。

例如,在Factory的案例中,他们的每个"机器人"产品都有一个定制的认知架构,模仿人类思考解决特定任务的方式,比如审查拉取请求或编写并执行将服务从一个后端更新到另一个后端的迁移计划。Factory的机器人将分解所有依赖关系,提出相关的代码更改,添加单元测试,并让人类进行审查。然后在批准后,在开发环境中运行所有文件的更改,如果所有测试都通过,就合并代码。就像人类可能做的那样在一系列离散的任务中,而不是一个通用的黑盒答案。

应用程序发生了什么?

想象一下你想在AI领域创业。你瞄准技术栈的哪一层?你想在基础设施上竞争吗?祝你好运击败NVIDIA和超大规模云服务提供商。你想在模型上竞争吗?祝你好运击败OpenAI和Mark Zuckerberg。你想在应用程序上竞争吗?祝你好运击败企业IT和全球系统集成商。哦,等等。这听起来实际上是可行的!

基础模型是神奇的,但它们也是混乱的。主流企业无法应对黑盒、幻觉和笨拙的工作流程。消费者盯着空白的提示符不知道问什么。这些都是应用层的机会。

两年前,许多应用层公司被嘲笑为"只是GPT-3的包装"。今天,这些包装器被证明是构建持久价值的唯一可靠方法之一。最初的"包装器"已经演变成"认知架构"。

应用层AI公司不仅仅是基础模型之上的UI。远非如此。它们有复杂的认知架构,通常包括多个基础模型,顶部有某种路由机制,用于RAG的向量和/或图形数据库,确保合规性的护栏,以及模仿人类可能思考工作流程的方式的应用逻辑。

服务即软件

云转型是软件即服务。软件公司成为云服务提供商。这是一个3500亿美元的机会。得益于主动推理,AI转型是服务即软件。软件公司将劳动力转化为软件。这意味着可寻址市场不是软件市场,而是以万亿美元计的服务市常

销售工作意味着什么?Sierra是一个很好的例子。B2C公司将Sierra放在他们的网站上与客户交谈。要完成的工作是解决客户问题。Sierra按解决问题的数量获得报酬。没有所谓的"席位"。你有一个要完成的工作。Sierra完成它。他们相应地得到报酬。

这是许多AI公司的真正北极星。Sierra受益于有一个优雅的失败模式(升级到人工代理)。并非所有公司都如此幸运。一个新兴的模式是先部署为副驾驶(人在循环中),并利用这些重复来赢得部署为自动驾驶(无人在循环中)的机会。GitHub Copilot就是一个很好的例子。

一批新的主动应用

随着生成式AI的推理能力正在萌芽,一类新的主动应用正在开始出现。

这些应用层公司呈现什么样的形态?有趣的是,这些公司看起来与它们云前辈不同:

云公司瞄准软件利润池。AI公司瞄准服务利润池。

云公司销售软件($ / 席位)。AI公司销售工作($ / 结果)

云公司喜欢自下而上,有无摩擦的分发。AI公司越来越多地自上而下,采用高接触、高信任的交付模式。

我们正在看到这些主动应用在知识经济的所有部门中涌现出一批新的应用。以下是一些例子。

Harvey: AI律师

Glean: AI工作助手

Factory: AI软件工程师

Abridge: AI医疗抄写员

XBOW: AI渗透测试员

Sierra: AI客户支持代理

通过将这些服务的边际成本降低与不断下降的推理成本一致这些主动应用正在扩展和创造新的市常

以XBOW为例。XBOW正在构建一个AI"渗透测试员"。"渗透测试"或penetration test是对计算机系统进行的模拟网络攻击,公司进行这种测试是为了评估自己的安全系统。在生成式AI之前,公司只在有限的情况下雇用渗透测试员(例如,当合规性要求时),因为人工渗透测试很昂贵:这是由高技能人类执行的手动任务。然而,XBOW现在正在展示基于最新推理LLMs构建的自动化渗透测试,其性能与最高技能的人类渗透测试员相匹配。这扩大了渗透测试市场,为各种规模的公司开启了持续渗透测试的可能性。

这对SaaS领域意味着什么?

今年早些时候,我们与我们的有限合伙人会面。他们的首要问题是"AI转型会摧毁你现有的云公司吗?"

我们开始时默认回答是"不会"。初创公司和现有公司之间的经典战斗是初创公司建立分销渠道和现有公司开发产品之间的竞赛。拥有酷炫产品的年轻公司能否在拥有客户的现有公司开发出酷炫产品之前获得大量客户?鉴于AI中的大部分魔力来自基础模型,我们的默认假设是不会现有公司会做得很好,因为这些基础模型对它们和创业公司一样容易获取,而且它们还有预先存在的数据和分销优势。初创公司的主要机会不是取代现有软件公司而是瞄准可自动化的工作池。

话虽如此,我们现在不那么确定了。请参见上文关于认知架构的内容。将模型的原始能力转化为引人注目的、可靠的端到端业务解决方案需要大量的工程工作。如果我们只是大大低估了"AI原生"的意义呢?

二十年前,本地软件公司嘲笑SaaS的想法。"有什么大不了的?我们也可以运行自己的服务器并通过互联网提供这些东西!"当然,从概念上讲这很简单。但随之而来的是对业务的全面重塑。EPD从瀑布式开发和PRD转向敏捷开发和AB测试。GTM从自上而下的企业销售和牛排晚宴转向自下而上的PLG和产品分析。商业模式从高ASP和维护收入转向高NDR和基于使用的定价。很少有本地公司完成了这个转变。

如果AI是一个类似的转变呢?AI的机会是否既可以销售工作又可以替代软件?

通过Day.ai,我们看到了未来的一瞥。Day是一个AI原生CRM。系统集成商通过配置Salesforce来满足您的需求而赚取数十亿美元。只需访问您的电子邮件和日历,并回答一页问卷,Day就会自动生成一个完全适合您业务的CRM。它还没有所有的铃铛和口哨(暂时),但自动生成的CRM的魔力,无需人工输入即可保持新鲜,已经让人们开始转向它。

投资领域

作为投资者,我们在哪里投入精力?资金在哪里部署?以下是我们的快速看法。

基础设施

这是超大规模云服务提供商的领域。它受博弈论行为驱动,而非微观经济学。这是风险投资家不该涉足的糟糕领域。

模型

这是超大规模云服务提供商和金融投资者的领域。超大规模云服务提供商正在用资产负债表换取利润表,投资的资金最终会以计算收入的形式回流到他们的云业务。金融投资者受到"被科学震撼"偏见的影响。这些模型超级酷,这些团队令人难以置信地令人印象深刻。管他的微观经济学呢!

开发者工具和基础设施软件

对战略投资者来说不太有趣,对风险投资家来说更有趣。在云转型期间,在这一层创建了约15家收入超过10亿美元的公司,我们怀疑在AI领域也可能如此。

应用

对风险投资最有趣的层。在云转型期间创建了约20家收入超过10亿美元的应用层公司,在移动转型期间又创建了约20家,我们怀疑在这里也会如此。

结束语

在生成式AI的下一幕中,我们预计将看到推理研发的影响波及到应用层。这些涟漪既快又深。到目前为止,大多数认知架构都包含巧妙的"解除限制"技术;现在这些能力正在更深入地融入模型本身,我们预计主动应用将变得更加复杂和稳健,而且速度很快。

回到研究实验室,推理和推理时计算在可预见的未来将继续成为一个强烈的主题。现在我们有了一个新的扩展定律,下一场竞赛已经开始。但对于任何给定的领域,收集真实世界的数据并编码特定领域和应用的认知架构仍然很困难。这再次是最后一英里应用提供商可能在解决现实世界中多样化问题方面具有优势的地方。

展望未来,像Factory的机器人这样的多代理系统可能会开始激增,作为建模推理和社会学习过程的方式。一旦我们能够完成工作,我们就可以有一队工人完成更多的事情。

我们都急切地等待着生成式AI的"第37步",就像在AlphaGo与李世石的第二局比赛中那样 - 一个通用AI系统以某种超人的方式让我们感到惊讶,感觉像是独立思考。这并不意味着AI"醒来"(AlphaGo并没有),而是我们模拟了感知、推理和行动的过程,AI可以以真正新颖和有用的方式探索这些过程。这实际上可能是AGI,如果是这样的话,它不会是一个单一的事件,它只会是技术的下一个阶段。