https://qz.com/1949677/why-have-ai-models-become-so-power-hungry/
Kate Saenko
编辑/大路
每当谈及未来科技,人工智能和新能源常常一起出现。久而久之,我们似乎都有种错觉,人工智能就是节能环保的。但事实却非如此,人工智能虽然功能强大,科幻感十足,但却一点也不环保,甚至“污染”严重。
十二月初,一则谷歌公司的丑闻引起了轩然大波。事件起因是谷歌一名研究员想发表论文,但被内部否决、并被要求撤稿。这篇论文的内容就是关于谷歌的语言处理人工智能会产生巨大的碳足迹。碳足迹(carbon footprint)是指企业机构、产品或个人通过交通运输、食品生产和消费以及各类生产过程等引起的温室气体排放的集合。而根据研究人员估计,训练一个人工智能模型所产生的碳排放,相当于把五部车生产出来并开到报废。
像谷歌在爱荷华州的这个数据中心就耗费了大量电力。
那为什么AI模型是如此的耗电呢?它与传统的数据中心计算有什么不同呢?
培训效率低
相比数据中心完成的传统数据处理包括视频流、电子邮件和社交媒体。AI的计算量更大,因为它需要阅读大量的数据,直到它学会理解这些数据--也就是我们常说的接受训练。
虽然被称为人工智能,但与人的学习方式相比,这种训练的效率非常低。现代人工智能使用的是人工神经网络,它是模拟人脑神经元的一种数学计算。每个神经元与相邻神经元的连接强度是网络的一个参数,被称为权重。为了学习如何理解人类语言,网络会从随机权重开始,并逐步调整,直到模型的输出与正确答案一致。
训练语言网络的一个常见方法就是,给它输入大量来自维基百科和新闻机构等网站的文本,并将一些单词屏蔽掉,让它猜测被屏蔽的单词。一个例子是 "我的狗很可爱","可爱 "这个词被掩盖掉。一开始,模型会把它们全部弄错,但是,经过多轮调整后,连接权重会开始变化,并在数据中发现正确的模式,而网络最终也变得准确。
最近的一个名为BERT的模型就使用了33亿个来自英文书籍和维基百科文章中的单词进行训练。而且,在训练过程中,BERT对这个数据集的阅读不是一次,而是40次。相比之下,一个学会说话的孩子在5岁前可能仅会听到4500万个单词,这比BERT少3000倍。
寻找合适的结构
此外,让语言模型的构建成本更高的原因是,这个训练过程在开发过程中会发生很多次。因为研究人员希望找到网络的最佳结构--有多少神经元,神经元之间有多少连接,学习过程中参数的变化速度应该有多快等等。他们尝试的组合越多,网络达到高精度的机会就越大。而相比之下,人类的大脑不需要找到一个最佳结构--它们自带一个经过进化磨练的“预建结构”。
随着公司和学术界在人工智能领域的互相竞争,人们也都面临着在技术状态上改进的压力。即使在机器翻译这样的困难任务上实现1%的准确性进步,也会是非常重要的,企业就可以借此进行更好的宣传。但为了获得这1%的改进,一个研究者可能要对模型进行数千次训练,每次都用不同的结构,直到找到最好的模型。
马萨诸塞大学阿默斯特分校的研究人员通过测量训练过程中常用硬件的功耗,估算了开发人工智能语言模型的能源成本。他们发现,训练一次 BERT 的碳足迹相当于一名乘客在纽约和旧金山之间飞一个来回。然而,再通过使用不同的结构进行搜索--也就是说,通过使用略微不同数量的神经元、连接和其他参数对数据进行多次训练,成本变成了相当于315名乘客,或者整架747飞机的碳排放。
更大更热
AI模型也常常比它们需要的大得多,而且这一数值每年都在增长。一个类似于 BERT 的最新语言模型,叫做 GPT-2,它的网络中就有 15 亿个权重。而今年因为其高准确度而引起轰动的GPT-3则有1750亿个权重。
研究人员发现,拥有更大的网络会导致更好的准确性,即使只有一小部分网络最终是有用的。类似的事情也发生在儿童的大脑中,神经元连接会先被添加,然后又被减少,但很明显,生物大脑比计算机更节能。
并且,AI模型是在专门的硬件上进行训练的,比如图形处理器单元,它们比传统的CPU消耗更多的电力。如果你拥有一台游戏笔记本电脑,它可能就有一个这样的图形处理器单元,以创建高级图形,例如玩Minecraft RTX。你可能也会注意到,它们产生的热量比普通笔记本电脑要多得多。
所有这些理论和证据都意味着,开发高级人工智能模型正在增加大量的碳足迹。除非我们改用100%的可再生能源,否则人工智能的进步可能会与减少温室气体排放和减缓气候变化的目标背道而驰。开发的财务成本也变得更高,以至于只有少数选定的实验室能够负担得起,而这些实验室的管理者也是制定什么样的人工智能模型能得到开发的议程的人。
事半功倍
这对人工智能研究的未来意味着什么呢?事情可能也不像看起来那么悲观。随着更高效的训练方法被发明出来,训练的成本可能会下降。同样,虽然数据中心的能源使用之前被预测将会爆炸性增长,但由于数据中心效率的提高,也拥有了更高效的硬件和冷却,这种情况并没有发生。
此外,训练模型的成本和使用模型的成本之间也有一个权衡,所以在训练时花费更多的精力来提出一个更小的模型,实际上可能会让使用模型的成本更低。因为一个模型在它的一生中会被使用很多次,这就会节约了大量的能源。
研究人员也一直在研究如何通过共享权重,或者在网络的多个部分使用相同的权重来使AI模型变得更校这些网络被称为为shapshifter网络,因为一组小的权重可以被重新配置成任何形状或结构的大网络。其他研究人员也已经表明,在相同的训练时间内,权重共享具有更好的性能。
展望未来,人工智能界或许应该在开发节能的训练方案上投入更多。否则,就有可能让人工智能被少数有能力设定议程的人所主导,包括开发什么样的模型,用什么样的数据来训练它们,以及模型的用途。