在温哥华举行的神经信息处理系统大会(NeurIPS)上,OpenAI 前首席科学家 Ilya Sutskever 发表公开演讲。Ilya 指出,当前 AI 模型预训练方式将不可避免地走向终结。他还将 AI 训练数据比作「化石燃料」,认为互联网上的人类生成内容是有限的,业界已经达到了数据峰值,「我们只有一个互联网,必须适应现有的数据资源」。根据他的预测,下一代 AI 系统将突破当前局限,具备真正的主动性和类人推理能力,但他也警告,随着 AI 推理能力的提升,其行为将变得愈发难以预测,就如同即便是顶尖棋手也无法准确预判高级象棋 AI 的走法。
演讲中,他将 AI 的发展规模与生物进化过程进行了对照。通过引用数据,他指出在对数坐标下,虽然绝大多数哺乳动物的脑重与体重比例都遵循着相似的规律,但人类祖先却展现出一条截然不同的发展曲线。基于此,他推测正如进化在人类大脑发展过程中找到了新的路径,AI 可能也会突破当前预训练模式的局限,发现全新的发展路径。演讲结束后,Ilya 也接受了与会者的提问,以下为 Ilya 演讲和提问环节全文,要点概括如下,Enjoy it~Ilya 认为,互联网数据资源就像化石燃料般正在逐渐枯竭,虽然计算能力不断提升,但数据增长速度已见顶,「我们只有一个互联网」这个物理限制无法突破。预训练时代(GPT-2/3)带来重大突破但也暴露局限,而下一个阶段可能出现智能体、合成数据等新方向。Ilya 通过图表数据发现哺乳动物大脑和体重的关系遵循一定规律,但人科动物展现出不同的发展曲线,这暗示 AI 也可能找到全新的进化路径。当前 AI 系统仍主要赖模仿人类直觉,未来 AI 将具备真正的推理能力,而越具备推理能力的系统行为越难预测(如国际象棋 AI)。AI 终将具备自我意识,这是理解世界的必要部分,但未来 AI 系统的本质将与现在完全不同,以及 AI 可能会寻求权利和与人类共存。附上演讲视频原地址:https://www.youtube.com/watch?v=WQQdd6qGxNs演讲全文我非常荣幸地感谢主办方选择这篇论文获奖。同时,我也要感谢我的杰出同事和合作者,Oriel Vinyls 和 Quoc V. Le,他们刚才就在大家面前站着。在这里大家可以看到一张图片,是十年前在新加坡国立大学(NUS)2014年蒙特利尔一场类似演讲的截图。那是一个更加纯真的年代。照片中展示了当时的我们。这是「上次」,顺带一提,这是「这次」。
现在,我们变得更有经验,也希望更有洞见。在这里,我想稍微谈谈这个工作的本身,或许也可以对过去十年进行一些回顾。因为在这个研究中,有许多地方是正确的,但也有一些不完全正确。我们可以回顾一下,看看它们是如何发展的,又是如何逐步流向了今天的方向。那么,让我们从讨论我们当时所做的事情开始吧。我们会通过展示 10 年前同一场演讲中的幻灯片来说明。我们研究工作的总结可以归纳为以下三个要点:一个基于文本训练的自回归模型;一个大型神经网络;一个大型数据集;
就是这样。现在让我们更深入地探讨一下细节。这是 10 年前的一张幻灯片,效果还算不错「深度学习假说」。我们在这里提出的是:如果有一个具有 10 层的大型神经网络,那么它就可以完成任何人类在短时间内能够完成的事情。为什么我们会特别强调人类能够在短时间内完成的任务呢?为什么是这个?如果你相信深度学习的教条,也就是说,人工神经元和生物神经元相似,或者至少不太不同,并且你认为生物神经元的处理速度比人类能快速完成的任务慢,那你就会认为一个 10 层的神经网络也能在短时间内完成任何人类能够做到的任务,对吧?这就是推理的过程。你只需将神经元之间的连接关系嵌入到人工神经网络中。所以,这就是我们的动机。任何人类能在短时间内完成的任务,10 层的大型神经网络也能做到。
我们当时专注于 10 层神经网络,因为那时我们知道如何训练 10 层神经网络。如果能增加更多层数,就能做得更多。但那时我们只能训练 10 层网络,这就是我们特别强调人类能够在短时间内完成的任务的原因。这是演讲中的另一张幻灯片,展示了我们的核心思路。你们可能能识别出其中的一些要点,或者至少能识别出自回归模型在起作用。
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
那么,这张幻灯片究竟要传达什么呢?它的意思是,如果你有一个自回归模型,并且它能够足够准确地预测下一个 Token,那么它实际上会抓住并捕捉到接下来序列的正确分布。这个想法相对较新,它不是第一个自回归神经网络,但我认为它是第一个我们真正相信的自回归神经网络。我们认为,如果将其训练得足够好,那么它能达到我们想要的效果机器翻译。在今天看来,这确实显得保守,但那时却极其大胆。
现在我要向大家展示一些古老的历史,许多人可能从未见过,那就是 LSTM。对于不熟悉的人来说,LSTM 是深度学习研究人员在 Transformer 出现之前的技术。它基本上是一个 ResNet,只不过旋转了 90 度。所以,那就是 LSTM,它比 Resnet 稍微复杂一点。你可以看到 integrator,它现在被称为 residual stream。不过,你会看到一些乘法运算,它稍微复杂一些,但这就是我们当时做的事情一个旋转了 90 度的 Resnet。另一个我想强调的来自旧演讲的重点是,我们使用了并行化,但不仅仅是普通的并行化,我们用了流水线并行化,正如这张图所示,每个 GPU 只处理一层。
我们被建议使用流水线并行化。虽然现在我们知道流水线并行化并不总是明智的选择,但当时我们没有其他选择,所以我们采用了这种方法,并通过使用 8 个 GPU 获得了 3.5 倍的速度提升。从某种意义上说,正是那次演讲的结论幻灯片是最重要的,因为它阐明了 Scaling Laws 的开始。换句话说,如果你拥有一个非常大的数据集,并且训练一个非常大的神经网络,那么成功是可以保证的?如果要慷慨一些看待这个问题,可以说,这的确是发生了的事情。我想提到另一个观点,我认为这是经得起时间考验的真正想法。它是深度学习的核心思想联结主义(connectionism)思想。
这是一个观点:如果你相信人工神经元在某种程度上像生物神经元一样。你认为它们在某些方面是相似的,那么你就会有信心相信非常大的神经网络不需要达到人脑的规模。它们可以稍微小一点,但你可以配置它们去完成几乎所有人类能做的事情。尽管如此,人类大脑仍然存在差异,或者我忘了补充这一点,确实存在差异,因为人类大脑能够重新配置自身,而我们只能使用现有的最佳学习算法,这些算法需要的数据点数量和网络参数数量相当,正是这一点使得人类在这一方面仍然更具优势。按我所见,这一切可以说是引领了预训练时代,而预训练时代正是我们所说的 GPT-2 模型、GPT-3 模型和 Scaling Law 的时代。
我想特别提到我的前合作者 Alec Radford、Jared Kaplan 和 Dario Amodei,正是他们让这一切成为可能。但这也引领了预训练时代。而这一切推动了我们今天所见的所有进展,包括超大规模神经网络,以及在海量数据集上训练的极其庞大的神经网络。但正如我们所知,预训练时代无疑会结束。那么,为什么预训练会结束呢?因为虽然计算机通过更好的硬件、更好的算法和更大的集群持续发展,所有这些因素都在提升计算能力,但数据并没有同步增长,因为我们只有一个互联网。实际上,我们只有一个互联网,你甚至可以说,数据是人工智能的化石燃料。它某种程度上被创造出来,现在我们用它,达到了数据的巅峰,之后将不会再有更多数据。我们只能处理现有的数据。我依然认为,尽管如此,这已经可以走得很远,但我们只有一个互联网系统。所以在这里,我稍微放开一些,来猜测一下接下来会发生什么。实际上,我并不需要完全猜测,因为很多人也在猜测,我会提到他们的猜测。你可能听过「智能体」这个词,这个词现在很常见,我相信最终会有一些东西发生,但人们觉得智能体是未来的方向。更具体地说,虽然也有点模糊,就是合成数据。那么,合成数据究竟是什么意思呢?弄明白这一点是一个巨大的挑战,我相信不同的人在这方面都有各种各样有趣的进展。还有推理时间计算,或者最近最生动的例子之一o1 模型,这些都是人们在尝试弄明白预训练之后该做什么的例子。这些都是非常值得做的事。我想提到另一个来自生物学的例子,我觉得它真的很酷,这个例子是这样的:很多年以前,在这个会议上我也看到过一个演讲,演讲者展示了一张图表,这张图表显示了哺乳动物体型与大脑体积之间的关系。这里面是体重的关系。在那次演讲中,我记得很清楚,他们说,在生物学中,很多事情都非常混乱,但在这里你可以看到一个非常特殊的例子,动物体型与大脑体积之间有着非常紧密的关系。完全是偶然的,我对这张图表产生了兴趣。这是早期的一个例子,我去 Google 搜索图表时,找到了这个图片。
所有不同的哺乳动物,然后你会看到非灵长类的灵长类动物,基本上是一样的,但接下来是人科动物。据我所知,人科动物是与人类进化关系最为接近的物种,比如尼安德特人。这里有很多种类,比如 Homo habilis(能人),还有一大堆物种,它们都在这里。有趣的是,它们的大脑与身体的比例增长呈现不同的斜率。这个点非常酷。这意味着在生物学中,存在先例表明不同的比例尺度是可能存在的。显然有所不同。我认为这很酷。顺便提一下,我要强调的是,X 轴是对数尺度。你看到这个是 100,这个是 1000,10000,100000,同样在克的单位下,1 克,10 克,100 克,1000 克。所以事物是可能有所不同的。我们所做的、到目前为止我们所扩展的东西,实际上是我们首先学会如何扩展的东西。毫无疑问,这个领域中的每一个工作者都会弄清楚该做什么。但我想在这里花几分钟,来猜测一下更长远的未来,我们到底要去哪里?我们正在取得巨大的进展,这真是令人震惊的进展。事实上,我的意思是,那些十年前就在这个领域的人,如果你记得那时一切是多么无能为力的话,真的,虽然你可能会说,当然,深度学习仍然很有潜力,但现在的情况简直难以置信。如果你在过去两年才加入这个领域,当然,你和计算机对话,它们会回应你并表达不同意见。那就是计算机的样子,但事情一直不是这样的。但我想稍微谈一下超级智能,因为显然这是这个领域的发展方向。显然,这就是我们在构建的东西,而关于超级智能的事情是,它将从根本上与我们现在拥有的不同。接下来的一分钟里,我的目标是尽量为你提供一些具体的直觉,来帮助你理解它将如何不同,以便你自己能够推理出它的差异。现在我们拥有强大的语言模型和令人难以置信的聊天机器人,它们甚至能够完成一些任务,但它们也奇怪地不可靠,它们会感到困惑,但在评估中却表现出极具超人的能力。所以,如何调和这一点仍然不清楚。但最终,迟早,以下的情形将会实现。这些系统实际上将以一种真正的方式变成智能体,而现在的系统在任何有意义的层面上都还不是智能体,或许说它们是非常、非常微弱的智能体,仅仅是刚刚开始。它们将真正开始推理。顺便说一句,我想提一下关于推理的事情:一个进行推理的系统,它进行推理的次数越多,结果就越难以预测。所有我们习惯的深度学习,都是非常可预测的,因为如果你一直在努力复制人类的直觉,实际上这就像是直觉反应。回到 0.1 秒的反应时间,我们的大脑处理这些信息时是什么?那就是我们的直觉。因此,我们赋予了我们的人工智能一些直觉。然而,推理,你现在看到的一些早期迹象表明,推理是不可预测的。一个可以看到的原因是,因为国际象棋的人工智能,最强的那些对于顶级的人类棋手来说是不可预测的。因此,我们将不得不应对那些极其不可预测的人工智能系统。它们将能够从有限的数据中理解事物,它们不会感到困惑,这些正是目前人工智能面临的巨大限制。我并不是在说具体怎么做,也不是在说什么时候会发生,我只是说,这一定会发生,并且当这些事情,和自我意识一起发生时,又会发生什么呢?因为为什么不呢?自我意识是有用的,它是我们自己世界模型的一部分。当这一切聚集在一起时,我们将拥有今天完全不同性质的系统,当然它们会有令人难以置信和惊人的能力,但与这些系统相关的问题,我只能留给大家自己想象。毕竟,它们将与我们所熟悉的系统非常不同。我想说的是,预测未来肯定是不可行的。未来可能会发生各种各样的事情。但在这样一个激励人心的话题上,我将结束我的发言,非常感谢大家。
提问环节提问:谢谢你,现在在 2024 年,是否有其他生物结构是人类认知的一部分,你认为值得以类似方式探索的,或者你有兴趣去探索的?Ilya:我回答这个问题的方式是,如果你是一个拥有特定洞察力的人,认为「嘿,我们都在做极其愚蠢的事情,因为显然大脑在做一些事情,而我们却没有」,那么这个可以做的事情,他们应该去追求。我个人并不这样看,嗯,这取决于你所关注的阻碍层次。也许我会这样回答。就像曾经有很多人渴望创造生物学启发的人工智能。你可以从某种角度说,生物学启发的人工智能是非常成功的,毕竟深度学习本身就是生物学启发的人工智能。但另一方面,生物学的启发是非常、非常、非常有限的。就是说,我们用神经元,这就是生物学启发的全部。更详细的生物学启发一直很难获得,但我并不排除这种可能性。我认为如果有人有特殊的洞察力,他们可能会看到某些东西,而这些东西会很有用。
提问:我想提问一个关于自动纠正的问题。问题是这样的。你提到推理可能是未来模型的核心方面之一,甚至可能是一个区分因素。我们在一些海报展示环节看到的现象是,今天的模型中的幻觉,分析幻觉的方式是,我们现在知道模型不能推理的危险,我们正在使用统计分析,比如偏离均值多少个标准差,或者其他的方式。未来,你认为如果模型具备推理能力,它能自己纠正错误吗?换句话说,自动纠正将会成为未来模型的核心特性之一,这样模型就不会出现那么多幻觉,因为它能意识到什么时候发生了幻觉?Ilya:是的,答案是肯定的。我认为你所描述的这个观点极其有可能发生。我的意思是,你应该去查证一下。是的,我不排除它可能已经发生在一些现有的早期推理模型中,我不知道,但从长远来看,为什么不呢?提问:这就像微软 Word 中的自动更正功能一样,你知道的,它是一个核心功能。Ilya:是的,我觉得把它称为「自动更正」真的是低估了它的意义。说到自动更正,你会联想到它只是一个简单的功能,但除此之外,答案是肯定的,谢谢。
提问:Ilya,我喜欢最后神秘留白的结尾,人工智能会取代我们,还是它们优于我们?它们需要权利吗?这是一个新物种的智人,可能它们也需要,我的意思是,我觉得强化学习(RL)的人认为它们需要权利。我有一个与此无关的问题,那就是如何创造合适的激励机制,让人类实际上以赋予它们我们作为智人的自由的方式去创造它们?Ilya:我觉得从某种意义上讲,这些是人们应该更多反思的问题。对于你提到的关于应该创造什么样的激励结构的问题,我感觉我没有信心回答这些问题。就像你在谈论创建某种自上而下的结构或政府机制。我不知道,这也有可能是加密货币。你知道的,有些事情我感觉自己并不是合适的人选来评论加密货币,但,嗯……顺便说一下,你描述的情况是有可能发生的。确实,我们会有。你知道,从某种意义上说,这并不坏。如果我们有人工智能,而它们所想要的只是与我们共存,并且只是想要权利,也许这就可以了。
提问:你好,谢谢你的精彩讲座。我是来自多伦多大学的 Shelepov Chitz。感谢你所做的一切。我想问一下,你认为 LLMs 是否能够在分布外进行多跳推理的泛化?Ilya:好吧,这个问题假设了答案是「是」或「不是」。这个问题不应当用「是」或「不是」来回答,因为我们需要弄清楚:什么是分布外的泛化,什么是分布内的,什么又是分布外的?因为这是一次关于 「时间检验」 的演讲。我想说,很久很久以前,当人们还没有使用深度学习时,他们使用的东西包括字符串匹配和 n-gram 用于机器翻译,人们使用的是统计短语表。你能想象他们当时有数万个复杂的编码,这真的是难以想象的。而在那个时候,泛化意味着,它和数据集中的表述字面上不同。现在,我们可能会说,模型在数学竞赛达到了这个高分。但也许这些数学题在互联网上某个论坛上早被讨论过了,因此它记住了。好吧,你可以说也许它在分布内,也许是记忆化,但我也认为我们的标准,对于什么算作泛化,已经大大提高了。如果你一直有留意这类发展的话,甚至可以说显著地,不可想象地提高了。所以,我认为答案是,在某种程度上,模型的泛化能力可能没有人类做得那么好。我认为人类的泛化能力要好得多,但与此同时,他们确实会在某种程度上进行分布外的泛化。我希望这个答案是有用的,尽管它有点重复。不幸的是,我们的时间到了。我有种感觉,我们可以再聊六个小时,但最后还是非常感谢这次讲座。