苹果的策略:聪明的公司试图将其产品的补充品商品化;亚马逊的前景将取决于若干因素;人工智能对Meta来说是一个巨大的机会;谷歌和人工智能的关系让人想起柯达的商业模式导致其最终厄运;微软似乎处于最有利的位置。
从新公司的角度来看,OpenAI显然是最有意思的:有可能成为所有其他人工智能公司的平台。最大的赢家也可能是英伟达和台积电。
【编者按】2022年,聊天机器人ChatGPT、AI创作机器人DALL-E、MidJourney的爆火,对传统互联网的模式发出了挑战。这个时代的赢家、科技界五大巨头微软、苹果、Meta、亚马逊、谷歌,仍将是人工智能时代最值得关注的公司。一方面,维持性技术的发展会确保其现有地位,让它们的产品、服务不断迭代,另一方面,被称作破坏性创新或者颠覆性技术的新影响,也将迫使巨头们重新思考自己的商业模式,以及如何在人工智能时代继续成为领导者。
云计算和人工智能技术将成为新时代的主旋律,广告业务和推荐算法将是各个巨头的“护城河”。无论是日渐臃肿的谷歌搜索、市值蒸发的Meta,还是与OpenAI加深合作的微软,这些巨头正处在不同的位置上,但可以预见的是,它们终将以自己的方式强势入尝决出胜负。这五家公司的未来如何?人工智能又将产生怎样的影响?著名科技博客Stratechery的作者Ben Thompson于1月9日发表文章《人工智能与五巨头》,对此做出了深度剖析。以下为全文,有少量删减。
人工智能的涌现是2022年发生的故事,首先是图像生成模型,包括DALL-E、MidJourney和开源的Stable Diffusion,然后是ChatGPT,这是第一个取得重大突破的文本生成模型。在我看来,这明显是一个科技发展的新时代。
为了预测这个时代的发展,我们不妨回顾一下26年前最著名的战略书籍:ClaytonChristensen的《创新者的困境》(The Innovator’s Dilemma),特别是这段关于不同类型创新的文字:
大多数新技术促进了产品性能的提高。我把这些技术称为维持性技术。一些维持性技术可能是不连续或激进的,而其他技术则是渐进性的。所有维持性技术的共同点是,它们沿着主要市场的主流客户历来重视的性能维度改善现有产品的性能。某一行业的大多数技术进步都具有维持性的特点。
但颠覆性技术为市场带来了与以往截然不同的价值主张。一般来说,颠覆性技术在主流市场上的表现不如成熟产品。但它们有一些边缘(一般是新)客户看重的其他特点。基于颠覆性技术的产品通常更便宜,更简单,更小,而且经常使用起来更方便。
通过观察创新进入市场现有公司后的表现,似乎很容易总结,并确定一项创新是维持性的还是颠覆性的:如果创新是维持性的,那么现有的巨头会变得更强大;如果是颠覆性的,那么初创公司会抓住大部分的价值。
看看以前的科技时代:
个人电脑对几乎所有现有公司都是颠覆性的;这些相对便宜和低功率的设备曾经几乎没有微型计算机的能力和利润率,更不用说大型机了。这就是为什么IBM愿意将最初的个人电脑的芯片和操作系统分别外包给英特尔和微软,这样他们就可以推出产品去满足企业客户;不过,随着个人电脑的速度越来越快,英特尔和微软占据了主导地位,让之前的一切都相形见绌。
互联网几乎完全是新的市场创新,因此由全新的公司来定义。它们颠覆现有公司时,也颠覆了远离技术的行业,特别是涉及信息的行业(即媒体)。这是谷歌、Facebook、在线市场和电子商务的时代。所有的应用都运行在由Windows和英特尔驱动的个人电脑上。
云计算可以说是互联网的一部分,但我认为它应该有自己的类别。它也是极具颠覆性的:x86架构横扫了专用服务器硬件,一大批SaaS(编者注:软件即服务)初创企业从现有的公司中剥离出功能来建立新公司。值得注意的是,云计算的核心基础设施主要是由以前时代的赢家建造:亚马逊、微软和谷歌。微软尤其值得注意,因为该公司也将其传统的软件业务过渡到SaaS服务,部分原因是该公司已经将上述软件业务过渡到订阅模式。
移动业务最终被两个在位者所主导:苹果和谷歌。但这并不意味着它不是颠覆性的。苹果公司新的用户界面形式要求不把手机看作是小型个人电脑,就像微软一样;谷歌公司新的商业模式要求不把手机看作是操作系统销售的直接利润中心,而是作为他们广告业务的护城河。
这段历史值得注意的是,我上面所说的假设并不完全正确。颠覆性创新确实一直来自于市场的新进入者,但这些新进入者不一定是初创企业:在以前的科技时代,一些最大的赢家是利用其现有业务进入新领域的公司。同时,Christensen的理论的其他原则也是成立的。微软在移动领域挣扎,因为移动领域是颠覆性的,但SaaS最终是维持性的,它的商业模式已经被调整。
鉴于现有公司在新时代的成功,在思考人工智能的影响时,最明显的起跑点是五大公司:苹果、亚马逊、Facebook、谷歌和微软。
苹果公司
我已经提到了关于科技战略的最著名书籍之一,而最著名的文章之一是Joel Spolsky的《战略信条五》,特别是这句著名的话:
聪明的公司试图将其产品的补充品商品化。
Spolsky是在解释为什么大公司会投资开源软件时写下这句话的:
调试代码不是免费的,无论专有还是开源。即使你不为它支付现金,它也有机会成本,也有时间成本。可用于开源工作的志愿者编程人才是有限的,每个开源项目都在与其他开源项目竞争同样有限的编程资源,只有最引人注目的项目才真正拥有更多可供使用的志愿者开发人员。总而言之,我对那些试图证明免费软件有巨大经济性的人不感兴趣,因为在我看来,他们只是在进行用一个数除以0的错误。
开源不能不受万有引力或经济规律约束。我们在Eazel、ArsDigita、VA Linux和其他许多项目中看到了这一点。但有些事情仍在发生,而在开源世界中很少有人真正理解这样一个道理:许多非常大的上市公司,为使股东价值最大化,正在投入大量资金支持开源软件,通常是通过雇佣大量的程序员团队来开发。而这就是补充品原则所解释的。
再次强调:当一个产品的补充品价格下降时,对该产品的需求就会增加。一般来说,一个公司的战略利益将是尽可能降低其补充品的价格。理论上可持续的最低价格是 “商品价格”,即当你有一群竞争对手提供无差别的商品时产生的价格。因此,聪明的公司试图将其产品的补充品商品化。如果你能做到这一点,你的产品的需求将增加,你将能够收取更多的费用,赚取更多的利润。
苹果投资于开源技术,最引人注目的是其操作系统的达尔文内核和WebKit浏览器引擎;后者符合Spolsky的处方,因为确保网络与苹果设备配合良好,会使苹果的设备更具价值。
与此同时,苹果在人工智能方面的努力在很大程度上是其专有的:传统的机器学习模型被用于推荐、照片识别和语音识别等方面,但这些不会对苹果的业务产生重大推动。然而,苹果确实从开源世界收到了一份令人难以置信的礼物:Stable Diffusion模型。
Stable Diffusion之所以引人注目,不仅仅因为它是开源的,还因为它的模型小得令人吃惊:发布时,它已经可以在一些消费级显卡上运行;几周内,它已经被优化到可以在iPhone上运行。
值得称赞的是,苹果公司抓住了这个机会,其机器学习团队上个月宣布:
今天,我们很高兴在macOS 13.1和iOS 16.2中发布Core ML的Stable Diffusion优化,以及开始部署到Apple Silicon设备的代码……
在任何应用程序中,Stable Diffusion的一个关键问题是模型在哪里运行。在应用程序中部署Stable Diffusion比基于服务器的方法更可取,原因有很多。首先,用户的隐私会受到保护,因为用户作为模型输入提供的任何数据都保存在用户的设备上。其次,在初始下载后,用户不需要连接互联网就可以使用该模型。最后,在本地部署这个模型使开发人员能够减少或消除与服务器相关的成本……
优化Core ML的Stable Diffusion和简化模型转换,使开发人员更容易以保护隐私和经济可行的方式,将这项技术整合到他们的应用程序中,同时在Apple Silicon上获得最佳性能。该版本包括一个Python软件包,用于使用diffusers和coremltools将Stable Diffusion模型从PyTorch转换为Core ML,以及一个Swift包来部署模型。
值得注意的是,这一宣布分为两部分:首先,苹果对Stable Diffusion模型本身进行了优化(它可以这样做,因为是开源的);其次,苹果更新了其操作系统,由于苹果的集成模型,该系统已经针对苹果自己的芯片进行了调整。
此外,似乎可以肯定这只是一个开始:虽然苹果多年来一直在自己的芯片上发布所谓的“仿生引擎”,但人工智能专用硬件是根据苹果自己的需求调整的。似乎未来的苹果芯片,如果不是今年,也可能是明年,将会为Stable Diffusion调整。与此同时,Stable Diffusion本身可以内置到苹果的操作系统中,任何应用程序开发者都可以轻松访问API。
这使得“足够好”的图像生成功能可以有效地内置到苹果设备中,因此任何开发者都可以使用,而不需要像病毒式传播的Lensa(编者注:最近流行的人工智能图像生成App)那样扩大后端基础设施。推而广之,这个时代的赢家最终很像App Store时代的赢家:苹果之所以获胜,是因为它的集成和芯片优势被用来提供差异化的应用程序,而小型独立应用程序制造商拥有API和分销渠道来建立新的业务。
另一方面,输家将是Dall-E或MidJourney等集中式图像生成服务,以及支撑它们的云提供商(到目前为止,还支撑了前面提到的Stable Diffusion应用程序,如Lensa)。诚然,苹果设备上的Stable Diffusion不会占领整个市场至少在我看来,Dall-E和MidJourney都比Stable Diffusion“更好”。苹果内置的本地功能将影响集中式服务和集中式计算的最终目标市场,当然,苹果设备之外还有一个大世界。
亚马逊
亚马逊和苹果一样,在其应用程序中使用机器学习;不过,像图像和文本生成这样的直接消费者用例似乎不太明显。目前最重要的是AWS(编者注:亚马逊的云服务Amazon Web Services),它在云端提供对GPU(编者注:图形处理器)的访问。
其中一些GPU被用于训练人工智能,包括Stable Diffusion。据StabilityAI的创始人兼首席执行官Emad Mostaque说,Stable Diffusion使用256个英伟达A100显卡训练,耗时15万小时,市场价格为60万美元。不过,AWS更大的应用是推理,即实际应用模型来产生图像(或文本,例如ChatGPT)。每次你在MidJourney中生成图像,或在Lensa中生成头像时,推理都会在云端的GPU上运行。
亚马逊在这一领域的前景将取决于若干因素。首先,也是最明显的,就是这些产品最终在现实世界中的实用性如何。然而,除此之外,苹果在建立本地生成技术方面的进展可能也会产生重大影响。不过亚马逊本身就是一个芯片制造商:虽然它迄今为止的大部分努力都集中在其Graviton CPU上,但该公司可以为Stable Diffusion等模型建立自己的专用硬件,并在价格上竞争。
亚马逊短期的一个大问题是在衡量需求方面:没有足够的GPU会让资金闲置,而购买太多闲置的GPU,对于一家试图限制成本的公司来说却是一项重大成本。但这也不会是最严重的错误:人工智能的挑战之一就是推理要花钱,换句话说,用人工智能做东西本就有边际成本。
我怀疑,就开发引人注目的人工智能产品而言,边际成本问题是一个被低估的挑战。虽然云服务一直都有成本,但人工智能生成的离散性可能会导致难以提供资金,以实现产品与市场契合所需的迭代。
尽管如此,随着时间的推移,这些成本应该会下降:即芯片本身变得更快、更有效,模型也会变得更有效,而且一旦市场上有足够的产品可以最大限度地利用其投资,云服务就会得到有规模的回报。不过,除了上述在本地运行推理的可能性之外,全栈集成会带来多大的变化仍是一个开放的问题。
Meta
我在《Meta的神话》一文中已经详细说明了,为什么我认为人工智能对Meta来说是一个巨大的机会,值得该公司进行巨额资本支出:
Meta拥有庞大的数据中心,但这些数据中心主要是关于CPU计算的,这是驱动Meta的服务所需要的。CPU计算也是驱动Meta的确定性广告模型(deterministic ad model)以及推荐算法所需要的。
不过,ATT(编者注:苹果推出的应用程序跟踪透明度功能,用于管理开发者对用户的广告跟踪,对Meta的广告收入造成巨大影响)的长期解决方案是建立概率模型,不仅要弄清楚谁应该成为广告目标,还要了解哪些广告转化了,哪些没有。这些概率模型将由大规模的GPU舰队建立,就英伟达的A100显卡而言,其成本为五位数。在一个确定性广告就能发挥作用的世界里,这显得太昂贵了,但Meta似乎不再属于那个世界,不投资于更好的目标定位和算法是愚蠢的。
此外,同样的方法对Reels(编者注:Instagram于2020年8月推出的一种视频形式)的持续增长至关重要:从整个网络中推荐内容比只从你的朋友和家人那里推荐内容要困难得多,特别是Meta计划不仅推荐视频,还推荐所有类型的媒体,并将其与你关心的内容穿插在一起。在这里,人工智能模型也将是关键,而建立这些模型的设备同样需要大量资金。
不过,从长远来看,这项投资应该得到回报。首先,好处有我刚才描述的,更好的目标定位和更好的算法推荐,可能重新启动Meta的收入增长。第二,一旦这些人工智能数据中心建成,维护和升级它们的成本应该大大低于建造它们的初始成本。第三,这种大规模投资是其他公司无法做到的,除了谷歌(而且,并非巧合的是,谷歌的资本支出也将上升)。
最后一点可能是最重要的:ATT对Meta的伤害比其他任何公司都大,因为它已经拥有迄今为止最大、最精细的广告业务,但从长远来看,它应该会促使Meta加深护城河。对于Snap、Twitter或任何其他数字广告领域的同行者,这种水平的投资根本不可行(即使Snap依赖云提供商而不是自己的数据中心)。
让Meta的人工智能发挥作用,将不是简单地建立基础模型,而是不断根据个人用户进行调整,这将需要巨大的算力,Meta必须弄清楚如何低成本地进行这种内容定制。不过,Meta的产品可能会越来越具有整合性,这一点很有帮助:虽然Meta可能已经承诺为其VR头盔装配高通的芯片,但Meta仍在开发自己的服务器芯片;该公司还发布了提取英伟达和AMD芯片的工具,以满足其工作负载,但Meta似乎也在开发自己的人工智能芯片。
有趣的是,从长远来看图像和文本生成如何影响Meta:Sam Lessin(编者注:科技创业者、撰稿人)已经假设,算法时间线的终点就是人工智能内容。而在谈到元宇宙时,我也提出了同样的观点。换句话说,虽然Meta正在投资人工智能以提供个性化的内容推荐,但这个想法与2022年的突破相结合,就是个性化的内容,通过Meta的渠道传递。
看Meta的广告工具如何发展也将会很有趣:生成、A/B测试副本和图像的整个过程都可以由人工智能完成,没有哪家公司比Meta更擅长大规模提供这种功能。
谷歌
《创新者的困境》于1997年出版。那一年,伊士曼柯达的股票达到了94.25美元的最高价,而这似乎是有原因的。就技术而言,柯达公司处于完美的位置。该公司不仅主导了当前的胶片技术,而且还发明了下一个浪潮:数码相机。
问题要归咎于商业模式:柯达通过提供卤化银胶片赚了很多钱,利润率非常高;但另一方面,数码相机是数字的,这意味着它们根本不需要胶片。因此,柯达的管理层非常有动力说服自己,数码相机永远只适合业余爱好者,而且它们得变得非常便宜,这肯定需要很长的时间。
事实上,柯达的管理层是对的:从数码相机的发明到销售额超过胶片相机,花了25年;而数码相机在专业领域的应用,则花了更长时间。在此期间,柯达赚了很多钱,并派发了数十亿美元的股息。但该公司在2012年破产,这是因为消费者有机会获得更好的产品:首先是数码相机,然后是内置相机的手机。
柯达是一个警示故事,讲述了一家创新公司的商业模式如何导致它最终的厄运,即使这种厄运是消费者得到更好东西的结果。
由此再看谷歌和人工智能:谷歌发明了the transformer,这是支撑最新人工智能模型的关键技术。据传闻,谷歌有一款对话聊天产品,远远优于ChatGPT。谷歌声称其图像生成能力比Dall-E或市场上的任何其他产品都要好。然而,这些传闻只是传闻而已,因为市场上没有任何实际产品。
这并不令人惊讶。长期以来,谷歌一直是使用机器学习使搜索引擎和其他产品变得更好的领导者(并通过谷歌云将该技术作为一项服务提供)。然而,搜索引擎一直依赖于人类作为最终的决定者。谷歌提供链接,但由用户通过点击来决定哪一个。这延伸到了广告:谷歌的服务是革命性的,因为它没有就展示次数向广告商收费其价值很难确定,特别是在20年前而是对点击收费,广告商想找到的人,才能决定广告是否足够好。
七年前,我在《谷歌和战略的局限性》一文中写到了,这对谷歌在人工智能世界中的业务带来的难题:
在昨天的主题演讲中,谷歌首席执行官Sundar Pichai在回顾科技历史,强调我2014年底所描述的个人电脑-网络-移动时代后宣布,我们正在从移动优先的世界转向人工智能优先的世界,这就是引入谷歌助理的背景。
发布iOS6的前一年,苹果首次以Siri引入了语音助手的概念;你可以(理论上)第一次通过语音进行计算。起初它的效果并不好(可以说现在也是如此),但它对计算机和谷歌的具体影响是深远的:语音交互扩大了可以进行计算的地方,从你可以把眼睛和手放在设备上的情况扩展到任何有效的地方,即使它限制了你可以做什么。语音助手必须比搜索结果页面更加积极主动;仅仅提供可能的答案是不够的,相反,需要给出正确的答案。
这对谷歌的技术来说是一个可喜的转变;从一开始,搜索引擎就包含了一个“手气不错”按钮,谷歌创始人拉里佩奇(Larry Page)非常自信,认为搜索引擎可以为你提供想要的准确结果。尽管昨天的谷歌助理演示被取消,但目前来看,尤其是在上下文感知方面,其远比市场上的其他助理令人印象深刻。更广泛地说,很少有人质疑谷歌在其助理背后的人工智能和机器学习领域是否具有领先地位。
然而,一项业务不仅仅是技术,尤其是在语音助手方面,谷歌有两个重大缺陷。首先,正如我在今年谷歌I/O大会之后所说的,该公司有一个走向市场的缺口:语音助理只有在可用的情况下才有意义,对于数亿iOS用户来说,这意味着还得下载并使用一个单独的应用程序(或建立一种用户愿意花费大量时间的体验,就像Facebook一样)。
其次,谷歌有一个商业模式问题:“手气不错”按钮让搜索不会给谷歌带来任何收益。毕竟,如果用户不必从搜索结果中进行选择,那么该用户也没有机会点击广告,从而选择谷歌为其广告商之间创建的用户注意力竞争的获胜者。谷歌助理也有完全相同的问题:广告去哪儿了?
在过去七年中,谷歌的主要商业模式创新是将越来越多的广告塞进搜索中,这是一种在移动设备上特别有效的策略。而且,公平地说,谷歌挣钱最多的搜索旅游、保险等可能无论如何都不太适合聊天界面。
然而,这只会增加谷歌管理层的担忧,即在特定的搜索环境中,生成型人工智能可能代表一种颠覆性的创新,而不是一种维持性的创新。颠覆性创新,至少在一开始,不如现有的创新。这就是为什么它很容易被经理们驳回,因为他们可以告诉自己目前的产品更好,以避免思考商业模式的挑战。当然,问题是颠覆性的产品会变得更好,但在任者的产品变得越来越臃肿和难以使用,这听起来当然很像谷歌搜索目前的发展轨迹。
我不为谷歌打call。我以前这样做过,但大错特错。然而,犯错往往是时间问题:是的,谷歌已经有云服务,YouTube的主导地位似乎正在增强,但搜索引擎的瓶颈似乎已经很清晰,即使它会在未来几年带来现金和利润。
微软
与此同时,微软似乎处于最有利的位置。和AWS一样,它也有销售GPU的云服务;它也是OpenAI的独家云提供商。是的,这是非常昂贵的,但考虑到OpenAI似乎有优势成为人工智能时代的另一个顶级科技公司,这意味着微软是在投资那个时代的基础设施。
与此同时,必应(Bing)就像iPhone诞生前夕的Mac:是的,它贡献了相当多的收入,但只占主导地位的一小部分,在微软整体的背景下,这一数字相对微不足道。如果将ChatGPT式的结果整合到必应中,可能会危及当前的商业模式,而获得巨大的市场份额,但这是一个非常值得的赌注。
与此同时,The Information的最新报道称,GPT最终将进入微软的生产力应用程序。
重要的是,增加新功能也许是收费的完全符合微软的订阅业务模式。值得注意的是,这家曾经被认为是颠覆性变革受害者典型代表的公司,在完整的叙述中,将不仅仅是诞生于颠覆,而是因为颠覆而有条件达到更高的高度。
关于人工智能的潜在影响还有很多可以写,但这篇文章已经很长了。从新公司的角度来看,OpenAI显然是最有意思的:OpenAI有可能成为所有其他人工智能公司的平台,这最终意味着在OpenAI之外的人工智能的经济价值可能相当有限。
还有另一种可能性,即除了图像生成之外,开源模型在文本生成领域也会激增。在这个世界里,人工智能变成了一种商品:这可能是对世界影响最大的结果,但矛盾的是,对单个公司的经济影响是最微弱的。
事实上,最大的赢家可能是英伟达和台积电。英伟达对CUDA生态系统的投资意味着该公司不仅拥有最好的人工智能芯片,而且拥有最好的人工智能生态系统,该公司正在投资扩大这一生态系统。不过,这将继续刺激竞争,特别是在谷歌TPU等内部芯片方面。此外,至少在可预见的未来,所有人都将在台积电制造芯片。
然而,最大的影响可能完全不在我们的雷达范围内。就在休息之前,Nat Friedman(编者注:GitHub首席执行官)在Stratechery采访中告诉我,Riffusion使用Stable Diffusion通过视觉超声波从文本中生成音乐,这让我想知道当图像真的是一种商品时,还有什么可能性。现在文本是通用的媒介,因为自书写发明以来,文本一直是信息传递的基矗然而,人类是视觉生物,人工智能在图像创作和解释方面的可用性可能会从根本上改变信息传递的含义,这是无法预测的。
目前,我们的预测必须有更多的时间限制,而且是适度的。现在可能是人工智能时代的开始,但即使在科技领域,新时代也需要十年或更长时间才能改变周围的一切。
(本文由吴天一编译)