编者按:机器学习技术日新月异,且有很多来自大公司的免费资源可用。初创公司如果能跟上模型变化的速度,正确利用手边的资源,将能够在创业过程中如虎添翼。本文来自编译,希望对您有所启发。
随着机器学习技术的成熟,并从一开始的好奇研究转向工业化的使用,支持大规模机器学习所需的方法和基础设施也在不断发展。利用这些进展对初创公司来说既是机遇也是风险,几乎所有的初创公司都在以这样或那样的方式利用机器学习,以争夺市场份额。
这一过程始于 9 年多以前,2012 年,一份名为 AlexNet 的文件向年度 ImageNet LSVRC 竞赛(由研究界举办的计算机视觉竞赛)提交了参赛作品,启动了深度学习革命。在这篇论文中,一个三人小组(Alex Krizhevsky, Illya Sutskever 和 Geoffrey Hinton)使用了一种被称为卷积神经网络(convolutional neural network)的技术来理解照片的内容。他们轻松地赢得了比赛,以巨大的优势击败了其他所有人,而且是用一个用于玩视频游戏的 700 美元的电脑显卡训练出来的系统。
机器学习的世界被永远地改变了。一年之内,复制 AlexNet 的创业公司如雨后春笋般涌现。我之前的公司 AlchemyAPI(2015 年被 IBM 收购),早在 2013 年就通过我们的 AlchemyVision 计算机视觉 API 发布了这项工作的首批商业版本。这一时期成立的其他创业公司包括 DeepMind(被谷歌收购)、MetaMind(被Salesforce收购)和 Clarifai 等。学术界也发生了巨大的转变,许多专家从对人工智能的怀疑,迅速转变为全身心地拥抱深度学习。
时间快进到 2022 年:神经网络已经改变了我们日常使用的软件系统中机器智能的各个方面,从识别语音到推荐新闻动态(无论是好是坏)。今天的系统仍然使用神经网络,但规模大不相同。最近用于理解和生成人类语言的系统,如 OpenAI 的 GPT-3,是在超级计算机规模的资源上进行训练的:数千个 GPU(每个成本至少为 1 万美元)被编织在高速网络互连和数据存储基础设施的复杂结构中。虽然 2012 年最先进的系统可以在一张 700 美元的视频游戏卡上训练,但今天最先进的系统(通常被称为基础模型)可能需要数千万美元的计算量来训练。
这些大规模、高成本的基础模型的出现,为初创公司和其他想要在人工智能和机器学习领域创新的公司带来了机会、风险和限制。尽管它们可能无法在前沿研究领域与谷歌、Facebook 或 OpenAI 竞争,但小型实体可以利用这些巨头的工作,包括基础模型,来启动自己的机器学习驱动应用程序的开发。
1. “预训练”的网络可以帮助初创公司成长
像 AlexNet 这样的神经网络最初是为每项任务从零开始训练的,当网络需要在单个游戏硬件上花费数周的时间时,这是可行的,但当网络规模、计算资源和训练数据量开始以数量级增长时,难度就大得多了。这导致了一种被称为“预训练”(pre-training)的方法的普及,即神经网络首先在使用大量计算资源的大型通用数据集上进行训练,然后使用少量的数据和计算资源对手头的任务进行微调。
近年来,随着机器学习的产业化已经占据了许多领域(如语言或语音处理),以及可用于训练的数据量急剧增加,预训练网络的使用出现了爆炸性增长。例如,使用预先训练的网络,初创公司可以用比从零开始所需的更少的数据和计算资源构建产品。这种方法在学术界也越来越流行,研究人员可以快速调整预先训练过的网络,以完成一项新任务,然后发布结果。
对于某些任务领域(包括理解或生成书面文本、识别照片或视频内容以及音频处理),预训练随着基础模型(如 BERT、GPT、DALL-E、CLIP 等)的出现而不断发展。这些模型在大型通用数据集(通常是数十亿个训练实例)上进行了预训练,并由资金充足的 AI 实验室(如谷歌、微软和 OpenAI)作为开源发布。
商业化机器学习应用的创新速度和这些基础模型的普及效果是不可低估的。对于那些没有备用超级计算机的工作人员来说,它们就是万灵药。它们允许初创公司、研究人员和其他人快速赶上最新的机器学习方法,而不必从头开始花费时间和资源来训练这些模型。
2. 基础模型的风险:规模、成本和外包创新
然而,在预先训练的基础模型领域,并不是一切都是美好的,随着其被越来越频繁地使用,也存在一些风险。
与基础模型相关的风险之一是其不断扩大的规模。谷歌的 T5-11b(2019 年开放源码)等神经网络已经需要一个昂贵的 GPU 集群来加载和进行预测了。对这些系统进行微调需要更多的资源。由谷歌/ Microsoft/ OpenAI 在 2021-2022 年创建的更近期的模型通常非常大,以至于这些公司没有将其作为开源发布,毕竟它们现在需要数千万美元来创建,这对这些大公司来说,也算是重要的知识产权投资。
然而,即使这些最新的模型是开源的,简单地加载这些网络来进行预测也需要消耗更多的资源,很多初创公司和学术研究人员都无法轻易获龋例如,OpenAI 的 GPT-3 仅仅是加载就需要大量的 GPU。即使使用 Amazon Web Services 等现代计算云,这也需要将数十台 Amazon 最昂贵的 GPU 机器配置到一个高性能计算集群中。
对于那些使用基础模型的人来说,数据集调整(Dataset alignment)也是一个挑战。在大型通用数据集上进行预训练,并不能保证网络能够在专有数据上执行新任务。网络可能非常缺乏上下文或基于其预训练的偏向,以至于即使是微调也不容易解决这个问题。
例如,GPT-2 是自然语言处理领域中一个流行的基础模型,最初是在 2019 年初宣布的,因此,训练的是在该日期或之前收集的数据。想想 2019 年以来发生的一切,比如疫情。最初的 GPT-2 模型肯定知道什么是疫情,但其缺乏围绕 COVID-19 及其变种的详细背景,而这些背景是近年来出现的。
为了说明这一点,让我们举个例子,让 GPT-2 完成“COVID-19 是……”这句话:
GPT-2(2019):“COVID-19 是一种高容量 LED 发射器,可以显示关于电池的大小和状态的信息。”
相比之下,2021 年发布的开源语言模型 GPT-J 完成了以下句子:
GPT-J(2021):“COVID-19 是一种新型冠状病毒,主要影响呼吸系统,导致具有多种临床表现的疾玻”
差别非常大,对吧?数据集调整和训练数据的近时性非常重要,这取决于具体用例。任何在机器学习工作中利用基础模型的初创公司都应该密切关注这些类型的问题。
3. 云 API 更容易,但外包也是有代价的
OpenAI、微软和英伟达等公司已经看到了规模上的挑战,并使用云 API 来应对,这些 API 支持在其托管基础设施上运行推理和微调大规模模型。当然,每个主要的云提供商现在都提供了一套机器学习服务,在某些情况下,还专门为这些工作负载设计了定制处理器。通过将计算和基础设施的挑战转移到更大的公司,这可以为初创公司、研究人员甚至个人爱好者提供一个有限的压力缓解阀。
然而,这种方法也有其自身的风险。不能托管自己的模型意味着在训练和推理方面都要依赖集中的实体。这可能会在构建可用于生产的机器学习应用程序时产生外部性风险,比如网络中断、API 的并行量或速率限制,或者仅仅是托管公司的策略更改,都可能导致重大的操作影响。此外,当敏感的标记数据集(其中一些可能被HIPAA等法规覆盖)必须被发送到云提供商进行微调或推断时,IP 泄露的可能性可能会让一些人感到不舒服。
调用这些 API 带来的 COGS(商品销售成本)影响,也可能是那些使用云提供商满足机器学习需求的人所关注的问题。定价模式因供应商而异,但不用说,API 调用、数据存储和云实例的成本会随着你的使用量而增加。如今,许多使用云 API 进行机器学习的公司可能最终会尝试过渡到自托管或自训练的模型,以获得对其机器学习通道的更多控制,并消除外部化风险和成本。
围绕使用托管模型和预训练模型的机会和风险,导致许多公司在“试验阶段”利用云 API 来启动产品开发。这时,公司正试图找到适合其产品的市常利用云 API 可以让公司快速启动产品,并大规模运行,而不必在昂贵的基础设施、模型训练或数据收集方面进行投资。来自谷歌、IBM、微软和 OpenAI 等供应商的云机器学习服务和托管的预训练模型,现在为数千家初创公司和学术研究项目提供了动力。
一旦公司确定了产品与市场的契合度,通常会过渡到自我托管或自训练的模型,以获得对数据、过程和知识产权的更多控制。这种转换可能是困难的,因为公司需要能够扩展其基础设施以匹配模型的需求,以及管理与数据收集、注释和存储相关的成本。为了实现这一转变,企业正在筹集越来越多的投资者资金。
我的创业公司 Hyperia 最近就进行了这样的转变。早期,我们在努力了解商务会议和客户语音对话的内容时,尝试了云 API。但最终我们还是亲自进行了大规模的数据收集和模型训练工作,以构建我们自己专有的语音和语言引擎。对于许多商业模式来说,如果要实现积极的单位经济和市场差异化,这样的进化是不可避免的。
4. 要有战略眼光,密切关注大型 AI 实验室
基础模型是机器学习领域最新的颠覆性趋势之一,但它们不会是最后一个。各大公司在持续建造越来越大的机器学习超级计算机(Facebook最新的一台包括超过1.6万个 GPU),研究人员也正忙于开发新技术,以减少与训练和托管最先进的神经网络相关的计算成本。谷歌最新的 LaMDA 模型利用了许多创新,能比 GPT-3 更有效地进行训练,并且研究界正在迅速开发诸如 model distillation 和 noisy student training 等技术,以减少模型的大校
这些创新也意味着创业公司可以继续创新,但重要的是要时刻保持警惕,因为形势在不断变化。要记住的事情包括:
云 API 绝对可以加速公司实现产品与市场的契合,但通常也会带来长期的问题。制定一个战略性退出计划非常重要,这样这些 API 就不会控制你产品的命运。
基础模型可以极大地加快机器学习的速度,降低整体训练和数据收集成本,但要意识到这些系统的局限性(例如,训练数据的近时性)。
密切关注大型企业AI实验室(谷歌、微软、IBM、百度、Facebook、OpenAI 等)的成果。机器学习正在以极快的速度变化,每个月都有新的技术、模型和数据集发布。这些发布往往会在意想不到的时候出现,如果你能迅速适应,会对你公司的机器学习工作产生巨大的影响。
最终,机器学习的未来及其对初创公司和科技公司的影响是不确定的,但有一件事是明确的:那些了解现有的东西并对其使用做出明智决定的公司,将比那些只想快速解决 AI 问题的公司处于更有利的地位。
译者:Jane