作者 | Erich Grunewald
译者 | 弯月 责编 | 郑丽媛
出品 | CSDN(ID:CSDNnews)
最近,William Eden在推特上发表了一篇长文(https://twitter.com/WilliamAEden/status/1630690003830599680),解释了为何他不担心先进 AI 带来的风险,还提到了 AI 的又一个寒冬即将来临:
AI 系统没有那么好。目前的 AI 系统还太不可靠,且很难理解。实现三个 9 或四个 9 的可靠性,与仅实现一两个 9 的难度根本不是一个级别的。例如,自动驾驶汽车已经问世十多年了,虽然低可靠性的系统也可以凑合用,但大部分价值都无法实现。(注:系统的高可靠性里有个衡量其可靠性的标准X 个 9,表示在系统 1 年时间的使用过程中,系统可以正常使用时间与总时间(1 年)之比。)
AI 不会变得更好。有些人认为,我们可以将当前架构扩展到 AGI,但是 Eden 认为我们没有足够的计算能力来实现这一目标。摩尔定律的效果“越来越弱”,性价比不再呈指数级下降,我们很可能无法在全球内获得“再高两个数量级”的计算水平,而且两个数量级的提升也无法让我们实现 TAI:“如果不会出现一些重大变化(新架构、新范式),一切看似已成定局。”此外,半导体供应链集中且脆弱,如今的局面有可能发生变化。
AI 产品的利润没有那么高。AI 系统似乎很适合“自动化、低成本、低风险却很重要的工作”,但这远达不到我们的期望。一些应用程序(例如网络搜索)的利润率非常低,而大型机器学习模型的推理成本会让他们望而止步。
免责声明:我的日常工作是研究 AI 管治,所以如果再次出现 AI 寒冬,我基本会失业。但我认为,AI 寒冬固然不好,但 AI 所带来的某些风险更令我们不寒而栗。
前几次的 AI 寒冬
其实,我们已经经历过很多次 AI 寒冬了。
第一次 AI 寒冬发生于 1974~1980 年间,是由 Lighthill 报告引发的,根本原因在于 AI 研究人员未能实现他们的宏伟目标。1965 年,Herbert Simon 预测道,AI 将在 20 年内完成所有人类的工作,Marvin Minsky 也于 1967 年写道:“在一代人之内……创建 AI 的问题就能得到实质性解决。”关于Frank Rosenblatt 的感知机项目,纽约时报报道称:“(它)就像一个电子计算机的胚胎,能走路、能说话、能看得见东西、能写作、能复制自己,还能意识到自己的存在。据预测,未来的感知机能够识别人,并喊出他们的名字,还能将一种语言的语音翻译成另一种语言的语音和文本”(Olazaran 1996)。然而,最终这些感知机远远达不到人类的智能水平,甚至未能实现机器翻译。
第二次 AI 寒冬发生于 1987~1993 年间,究其原因也是未能达到预期。那是一个专家系统与联结主义(指 AI 领域中人工神经网络的应用)的时代。但专家系统无法扩展,神经网络学习缓慢、准确性低且无法泛化。那个时代 1 美元买不到 1x109 FLOPS(每秒浮点运算次数),我估计 LISP 机器的性价比都要比神经网络高 6~7 个数量级。
维基百科列出了这些寒冬背后的许多因素,但对我来说,最重要的原因是每一次我们都未能达到预期的结果。即使在经济低迷时期,即使学术资金枯竭,如果 AI 能够展示出良好的效果,就仍然能获得大量的投资。期间虽然专家系统确实取得了一些成功,但远不及我们今天看到的 AI 系统。
在我看来,这似乎是问题的症结所在:AI 系统能否达到投资者给予的厚望?
摩尔定律与计算的未来
如今,改进就意味着扩大规模,而扩展失败的原因之一是训练 AI 模型所使用的硬件停止进步了。
摩尔定律认为,芯片上的晶体管数量每两年就会翻一番,因此硬件性能每两年也会翻一番。(戈登 摩尔于 2023 年 3 月 24 日逝世,享年 94 岁,至少在他有生之年,该理论未被推翻。)人们经常声称,随着晶体管的尺寸接近硅原子极限,摩尔定律将会放缓。而用 Eden 的话来说,摩尔定律似乎早就失效了。
我不是半导体或 GPU 方面的专家,但据我了解,(1)在未来十年内摩尔定律依然有效;(2)即便摩尔定律失效,很有可能硬件也会通过增加晶体管密度之外的手段继续发展。
这样的情况不是第一次出现,自 2005 年前后,Dennard 缩放比例定律似乎就已经失效,单线程性能偏离了趋势,但由于核心数量的增加,晶体管数量依然在不断增加:
随着逐渐逼近原子极限,陆续涌现了很多能够保持 GPU 性能继续提升的技术,包括垂直扩展、先进的封装、新晶体管设计、二维材料以及改进后的架构和连接性。台积电、三星和英特尔相继推出了工艺节点
基于 Transformer 的 AI 即将到来吗?
此处,我们主要关心的不是 FLOPS,也不是 1 美元能买到多少 FLOPS,而是 AI 实验室能负担起多少投入模型的计算量。这个计算量受到许多因素的影响,包括硬件成本、能源效率、线路/芯片良率、利用率以及实验室愿意投资的金额。那么,在接下来的几十年里,我们能否获得足够的算力来训练基于 Transformer 的 AI(以下简称 TAI)?
对于这个问题,很多人给出了非常复杂的答案,此处我将讨论一种较容易理解的方式。
Daniel Kokotajlo 设想了在当前 GPU 架构上,使用 1x1035 FLOP 计算可以做些什么。这个计算量非常庞大,比当今最大模型的训练量高出约 11 个数量级。拥有如此强大的计算能力,我们可以做的事情非常多。如今,我们无法确定计算能力是否会进一步扩展,而且除了计算之外可能还有其他重要的瓶颈,比如数据。但无论怎么看,2022 年 1x1034~1x1036 的计算量似乎足以创建 TAI。
我们姑且接受这个想法,并做出以下假设:
AI 芯片的性价比每 1.5~3.1 年就会翻一番,假设这种情况会一直持续到 2030 年,之后随着摩尔定律失效,翻倍时间将将增加一倍。
ImageNet 的算法进展大约每 4~25 个月 就可以将计算需求减半,假设 Transformer 实现翻倍的时间增加 50%。
机器学习系统的训练费用大约每 6~10 个月翻一番,假设这会一直持续到我们的上限:100 亿美元。
基于这些假设,到 2040 年我们能实现 TAI 的概率为 50%,到 2045 年为 80%:
当然,这只是一个非常简单的模型,还有一个更为复杂和严谨的版本,即 Cotra(2020),它给出的中位数约为 2050年(后来改为了 2040 年)。相较之下,我这个简单模型可能出错的原因有很多:
扩展定律可能会失效,或者随着模型变大扩展难度也会增加,速度甚至会超过机器学习研究人员为降低扩展难度所做的努力。
扩展定律继续成立,但使用 1x1035 FLOP(2022 年) 训练的模型并不一定基于 Transformer,可能需要更多计算或新架构。
构建 TAI 所需的算力可能比 1x1035 FLOP 高出几个数量级。例如,根据社区预测,在 GWP 系数增幅首次超过 30% 的前一年,最大的训练计算量约为 1x1028~1x1033 FLOPS,将这个范围作为 90% 置信区间代入模型,最终得到的中值估计为 2029 年。
硬件性价比的增长速度会比假设来得更慢或更快。
算法进步的速度可能会减慢或加快,为推动基于 Transformer 的模型诞生的算法进步速度可能会低于或高于预估值。
机器学习研究人员的数据枯竭,或者是高质量(如书籍、维基百科)甚至低质量(如 Reddit)的数据耗荆例如,Villalobos 等人预测出高质量的文本数据将在 2024 年左右耗荆
越来越强大的 AI 系统可以帮助我们实现自动化,或以其他方式加速 AI 的进步。
社会阻力或严格法规的影响,导致投资减少,阻碍 AI 的进步。
其他未知因素。
尽管如此,我认为 1x1035 FLOP 的计算量对于训练对于 TAI 来说足够了,在 2040 年之前也可以充分训练这样的模型。我之所以有这样的看法,主要原因之一是,随着 AI 系统变得越来越强大和实用,AI 将继续向前发展,资金将继续流入,扩展定律也将继续保持。如果 TAI 萌芽,则表明计算能力仍将不断提高。
科技发展的前沿无法保证可靠性
AI 系统令大家失望的原因之一是,长期以来这项技术一直不可靠,在可预见的未来也仍然如此。Eden 曾表示,“哪些经济领域可以接受 99% 正确的解决方案?我的回答是:不创造或无法获取大部分价值的领域。”人们经常指出,现代 AI 系统,尤其是大型语言模型是不可靠的。我认为这个观点真假参半:
如果只看前沿技术,那么确实 AI 系统非常不可靠。在一定时间段内,AI 系统在重大任务上取得成功的概率不到 10%。这些都是最受关注的任务,因此这个系统看起来不可靠。
如果只看已经熟悉的功能,AI 系统就是相当可靠的。对于某些特定任务,AI 系统在经过几代的改良后,通常都会变得越来越好。这些任务我们都很熟悉,所以我们理所当然地认为 AI 会正确地完成这些任务。
John McCarthy 曾感叹道:“一旦能够正常工作,就没有人称其为 AI 了。”Larry Tesler 也曾说:“AI 就是尚未完成的一切。”
以对随机生成的个位数整数列表进行排序的任务为例。两年前,Janus 在 GPT-3 上对此进行了测试,发现即使提供了 32 次提示,对 5 个整数列表进行排序,GPT-3 的正确率也只有 20%(10/50);而对 10 个整数的列表进行排序时,正确率为 0(0/50)。于是,近来我对 ChatGPT(使用GPT-3)进行了同样的测试,对于 10 个整数列表,其正确率为 100%(5/5)。后来,我又要求它对 10 个整数列表行排序,正确率为 80%(4/5)。
自动驾驶
那么为什么自动驾驶汽车仍然不可靠,无法广泛使用?
我认为驾驶汽车不是一个单一的任务,而是一个复杂的任务,由一堆具有不同输入的子任务组成。驾驶的整体可靠性在很大程度上取决于这些子任务的表现,其中任何一个失败都可能导致整体失败。对于汽车来说,安全性很关键,如果自动驾驶想广泛使用,就必须能够保障可靠性,也就是说你需要掌握驾驶汽车的所有子任务。由于这些子任务的难度分布可能遵循幂律(或类似的规律),所以最后的 10% 总是比前 90% 更难完成让人感觉马上就要实现了,但实际上整个系统真正投入使用还需要长达数年之久。
我认为,这就是 Eden 所说的:“纸上谈兵(汽车在开阔的沙漠里行驶)与真刀真枪(实际车辆驾驶需要处理许多不明情况,例如与其他驾驶员交流,以及繁忙城市街道的导航信息等)相差十万八千里。”
自动驾驶这类复杂的 AI 应用确实非常困难,而我们需要 AI 完成的也恰恰是复杂的任务,简单的任务很容易通过传统软件实现自动化。我认为,这是 AI 寒冬有可能再次降临的部分原因,不过不是最重要的原因。
第一,我认为如今自动驾驶遇到的困难并不等同于自动驾驶寒冬已然来临。尽管显然没有达到预期,并且公众兴趣明显下降,但自动驾驶方面的投资并没有下降太多,且自动驾驶的专利正在稳步上升。在我看来,自动驾驶仍在发展之中,我们也看到了“有条件的自主驾驶”三级功能,例如自动控速系统、自动变道,其采用率也每年都在攀升。因此自动驾驶汽车只是经历了典型的炒作周期,如今正在稳步向前发展。由此可见,虽然大型语言模型和其他 AI 系统未能达到人们的期望,投资虽有停滞但没有下降,所以不会出现前几次那样的寒冬。
第二,现代 AI 系统,特别是大型语言模型与自动驾驶汽车截然不同。车辆行驶中,安全是关键,还有相应的法规,人们自然不想乘坐不可靠的汽车。但大型语言模型没有任何规定,即使在没有保障措施的情况下,也有人愿意使用。我认为有很多复杂的任务都有以下特点:(1)安全性不是关键(也就是说,发生事故也不会造成巨大损失);(2)可以自动化或由 AI 系统提供支持。
成本与利润
我讨论 TAI 的部分原因是,它可能与其他 AI 的进步有关联,另一部分原因是,人们已经开始怀疑 AI 实验室是否能在本世纪创建 TAI尽管多年来 AI 研究人员一直在避免人们产生这种期望。
据我了解,投资者大多不会在 TAI 上下注,他们通常都希望在 10 年内获得投资回报。如果他们预计通用 AI 将在未来 10~20 年内出现,那么他们每次投入 AI 公司的资金将远远不止几亿。相反,我认为他们是想要广泛提升劳动速度、自动化常见任务,并开发出新型服务和产品的工具。
姑且抛开 TAI 不谈,ChatGPT、Bing/Sydney 和现代图像生成系统能否在未来 5 年内实现盈利?我认为,即便届时还没有盈利,也不会太久了,最多再等 1~2 年,因为需求肯定是有的。自 ChatGPT、Bing/Sydney 和 DALL-E 2 发布以来,我一直在使用,并愿意为这些服务支付不菲的费用,认为付费也合情合理。
Eden 写道:“All-in Podcast 估计 ChatGPT 的查询开销要比谷歌搜索高 10 倍左右。我曾与分析师交谈过,他们估计开销是谷歌搜索的 3~5 倍。在搜索这样的业务中,大约 10% 的改进就能成就杀手级应用,3~5 倍的提升基本就是降维打击。”
SemiAnalysis 的一项估计表明,ChatGPT(在 GPT-4 发布之前)的硬件运营成本为 70 万美元/天,假设我们有 1300 万活跃用户,那么每个用户每天就是 54 美分,每个月大约是 1.6 美元(ChatGPT Plus 的订阅费为每个用户每月 20 美元)。仅硬件运营成本就有 70 万美元 × 365 = 2.55 亿美元/年,这是一笔不小的数目,但与运营成本、员工工资以及营销相比,这些成本可能又高出了一个数量级。这样预计下来,2023年OpenAI 的收入有望达到 2 亿美元,到 2024 年将达到惊人的 10 亿美元。
与此同时,如上一节所述,硬件成本正在迅速下降,AI 加速器的性价比约 2.1 年翻一番。因此,Eden 是正确的,GPT 之类的模型成本是老式搜索引擎的 3~5 倍,仅基于硬件性价比趋势,这种差异将在 3~6 年内消失。诚然,未来会有更好的模型,但运行成本也会更高,似乎如今的模型已经能够从传统搜索引擎中夺取可观的市场份额了,同时老式搜索引擎的质量也正在下降。
在我看来,在 GPT-3 或 GPT-4 等基础模型之上构建产品的 AI 公司被过度炒作了。例如,Character.AI 最近以 10 亿美元的市场估值筹集到了 2 亿美元的资金,用于构建一项服务,然而该服务似乎并没有真正在标准 ChatGPT API 之上增加太多价值,尤其现在 OpenAI 还添加了系统提示功能。不过我认为,这些公司可能会被其他更通用的 AI 系统淘汰,所以他们的失败不会引发 AI 寒冬。
可能引发 AI 寒冬的原因
到此为止,我们的讨论都是基于一个前提:“AI 寒冬都是由于 AI 系统无法提供实际用途以及利润空间而引发的”。AI 不可靠、硬件性价比进步放缓、推理计算成本太高,只有当影响到 AI 的实际用途与利润空间时才会被考虑。我认为,这是迄今为止最有可能引发 AI 寒冬的方式,但并不是唯一的可能,其他可能性还包括限制性立法/法规、重大故障或事故、大国冲突以及极端经济衰退。
如果我们真的在十年内看到 AI 寒冬,我认为最有可能的原因将是以下之一:
扩展遇到困难。在达到一定数量之后,计算、数据以及参数等的扩展都将停止。例如,OpenAI 训练 GPT-5 所用的算力、数据和参数都远超 GPT-4,但结果可能不会有大幅提升。
尽管 AI 在执行分布内任务方面变得更好且更可靠,但真正的分布外泛化还很遥远。
高质量的数据枯竭。
我认为 AI 寒冬不太可能来临,2030 年出现 AI 寒冬的概率只有 5%(如果AI寒冬的定义是全球 AI投资的缩减比例超过50% 的话)。如果你和我一样,认为我们还没有为 TAI 的到来做好准备,那么这将是一个不幸的消息。