似乎人工智能中越是突破性的深度学习模型,它们获得的量就越大。今年夏天最热门的自然语言处理模型GPT-3就是一个完美的例子。为了达到像人类一样写作的准确性和速度水平,该模型需要1750亿个参数、350GB内存和1200万美元的培训(将培训视为“学习”阶段)。但是,除了成本本身,像这样的大型人工智能模型还有巨大的能源问题。
马萨诸塞州阿默斯特分校的研究人员发现,训练大型人工智能模型所需的计算能力可以产生超过60万磅的二氧化碳排放这是典型汽车寿命的五倍!这些模型通常需要更多的能量在现实世界的生产环境中进行处理(也称为推理阶段)。NVIDIA估计,运行神经网络模型的成本中,80%-90%来自推理,而不是培训期间。
为了在人工智能领域取得更多进展,民意表明,我们必须做出巨大的环境权衡。但事实并非如此。大模型可以缩小到尺寸,以便在日常工作站或服务器上运行,而无需牺牲准确性和速度。但首先,让我们看看为什么机器学习模型一开始就这么大。
现在:计算能力每3.4个月翻一番
十几年前,斯坦福大学的研究人员发现,用于为电子游戏中复杂图形供电的处理器,称为GPU,可用于深度学习模型。这一发现引发了一场为深度学习应用程序创建越来越强大的专用硬件的竞赛。反过来,科学家创造的数据模型变得越来越大。逻辑是,更大的模型将带来更准确的结果。硬件越强大,这些型号运行速度就越快。
OpenAI的研究表明,这一假设已在该领域得到广泛采用。从2012年到2018年,深度学习模型的计算能力每3.4个月翻一番。因此,这意味着在六年的时间里,用于人工智能的计算能力增长了惊人的30万倍。如上所述,这种能力不仅用于训练算法,还用于生产设置。麻省理工学院最近的研究表明,我们可能会比我们想象的更快地达到计算能力的上限。
此外,资源限制将深度学习算法的使用限制在那些负担得起的人身上。当深度学习可以应用于从医学成像中检测癌细胞到停止在线仇恨言论的一切时,我们无法限制访问。再说一遍,我们无法承受使用无限大、更渴望动力的模型所带来的环境后果。
未来越来越小
幸运的是,研究人员发现了许多新方法来缩小深度学习模型,并通过更智能的算法重新使用训练数据集。这样,大模型可以在生产环境中以更少的功率运行,并且仍然可以根据用例实现预期的结果。
这些技术有可能使机器学习民主化,因为更多组织没有数百万美元投资于培训算法并将其投入生产。这对于“边缘”用例尤为重要,因为更大的、专业的人工智能硬件在物理上不实用。想想相机、汽车仪表盘、智能手机等小型设备。
研究人员正在缩小模型,删除神经网络中一些不需要的连接(修剪),或使其一些数学运算不那么复杂(量化)。这些更孝更快的模型可以在任何地方以与大型模型相似的精度和性能运行。这意味着我们不再需要争先恐后地达到计算能力的顶峰,从而造成更多的环境破坏。让大模型更孝更高效是深度学习的未来。
另一个主要问题是为不同用例在新数据集上反复培训大模型。一种称为转移学习的技术可以帮助防止这个问题。转移学习以预训练模型为起点。模型的知识可以使用有限的数据集“转移到”到新任务中,而无需从头重新培训原始模型。这是朝着削减训练新模型所需的计算能力、能源和资金迈出的关键一步。
底线?只要有可能,模型可以(也应该)缩小,以使用更少的计算能力。知识可以被回收和重复使用,而不是从头开始深度学习培训过程。归根结底,寻找降低模型大小和相关计算能力的方法(在不牺牲性能或准确性的情况下)将是深度学习的下一个伟大解锁。这样,任何人都可以在生产中以更低的成本运行这些应用程序,而无需进行大规模的环境权衡。当我们对大型人工智能小事无所事事甚至是下一个帮助阻止气候变化破坏性影响的应用程序时,任何事情都是可能的。