本周,谷歌CEO桑达尔皮查伊(Sundar Pichai)度过了他几年来最美好的一周。因为谷歌取得了一系列大大小小的胜利,从诺贝尔奖颁奖典礼,到突破性的新AI模型Gemini 2.0,再到量子计算的突破。
日前,美国新锐媒体Semafor科技编辑里德阿尔伯戈蒂(Reed Albergotti)在山景城采访了皮查伊。今年是皮查伊担任谷歌CEO的第十个年头,无论是在压力之下,还是被胜利所围绕,他总是能保持平稳。
自2022年11月ChatGPT发布以来,谷歌的发展一直很坎坷,至少从外部来看是这样。传统观点认为,谷歌不知何故错过了ChatGPT时刻,感到恐慌。但皮查伊表示,他从未怀疑过公司的长期计划,选择坚持到底,打持久战。
皮查伊还表示,当唐纳德特朗普(Donald Trump)明年入主白宫时,他将积极参与美国新政府的AI“曼哈顿计划”。
以下为采访内容摘要:
问:对谷歌而言,这是一个十分疯狂的一周,所有的产品公告,量子计算突破,诺贝尔奖,还有新AI模型Gemini 2.0。这都是你们计划好的吗,还是因为AI的疯狂所导致的?
皮查伊:2015年,我让公司朝着AI优先的方向发展。作为其中的一部分,我们表示,将从世界级的研究开始,对AI进行深入、全栈的研究,建立基础设施。然后为我们开发人员构建模型,并将其放入我们的产品中。这种深度投资贯穿了我们作为一家公司、谷歌和Alphabet所做的一切。这是基础,采取深度技术创新方法,全栈方法。然后在当前的生成式AI时代,有时你会投资来提前做好事情。对我来说,这就是从头开始建立谷歌DeepMind,启动Gemini,并将其构建为原生多模式和长上下文,现在进入2.0版本。
所以,要打好基础,调整团队,建立公司。我想你已经看到了所有这些裨益已经开始提供给消费者了。我预计我们的速度会更快,因为总是有固定的成本。我们必须大规模地准备我们的TPU,以构建我们想要构建的模型,建设我们的数据中心,组建合适的团队。创新管道感觉非常非常强大。其中一些是长期赌注,需要时间来完成。在我看来,量子计算就像AI在2010年左右的样子。很少有人知道这件事,但你正在有条不紊地处理它。这是一样的。至于Waymo,我们已经走过了15的历史,这是一个激动人心的时刻,所以这可能是所有这些子的结合。诺贝尔奖不是计划好的,但当它发生时我说了这句话:我觉得看着Demis Hassabis和John Jumper(荣获2024年诺贝尔化学奖),他们的团队,以及在AlphaFold上的工作,我很荣幸从头到尾都能看到诺贝尔奖的作品。所以这是锦上添花。
问:一两年前,人们的说法是,谷歌被ChatGPT打得措手不及。而本周是一个很好的时机,看看你在公司方面取得了多大的进步,以及人们对谷歌的看法。你现在感觉不一样了吗?
皮查伊:这是一个激动人心的时刻。在内部,我明显感觉到我们正在取得的进步。当你在研究AI模型时,你会看到所有这些损失曲线(loss curve),以及模型的能力。有各种基准做证。我们拥有世界级的人才,可以获得最先进的资源。谷歌DeepMind和谷歌研究(Google Research)的结合,是当前生成式AI领域引用最多的。我们会对这场革命正在发生的许多突破负责。看到这种势头,我们肯定非常满意。但我们计划做得更多,这才刚刚开始。
问:你上周在《纽约时报》DealBook会议上说,AI进展越来越难,低垂的果实已经摘下来了。这到底是什么意思?被摘下的低垂的水果是什么?那真正困难的是什么?
皮查伊:为了明确我的答案,我在那里说了。事实上,我对未来的进展感到非常兴奋。我的意思是,我认为在这个领域,你可以投入计算,并取得初步进展。但是,这不仅仅是一个扩大规模的问题,而是实现突破。因此,让我们的模型使用多达200万个令牌作为输入长度,这就是长上下文。这是一个突破的例子。使用Gemini 2.0,我们有一个多模式实时API,所以现在它可以进行本地图像和音频输出。它支持流式传输,让用户实时看到模型的输出,而不是等到整个响应生成完毕。这些都是突破。当我们进入下一个阶段时,你需要更具洞察力的突破。我认为,这项工作的质量将相当高。我想说的是,我认为这将有助于区分真正的精英团队。不仅仅是我们,还有其他几个团队,这会让2025年更令人兴奋。
问:我明白了,是人们理解错了。外界的理解是,你们的发展已经进入了平稳期,甚至是停滞期。但你的意思是,在谷歌,当事情变得艰难时,反而会大放异彩?
皮查伊:没错。Waymo也是一样。许多人都在努力解决这个问题,但后来变得更难了。当它变得更难时,能够克服它,达到下一个水平,这很重要。
问:人们倾向于将过去两年的发展视为曲线。如果这样看,确实像我们正在达到一个平稳期。如果你缩小视野,看看那条曲线,我想你看到的路上会有一些停滞。你认为它会从这里走向何方?这是同一条轨迹吗?
皮查伊:我仍然清楚地记得2010年左右,我刚刚意识到这个模型几乎无法识别图像,并对此感到兴奋。在过去的十年里,进步是无情的。现在,它无疑将更广泛的公众扩展到了这个领域,所以它是主流。但当我展望2025年时,我肯定认为我们现在已经有了足够多的功能模型,我们可以在其上构建许多用例。
这一进展将是非常真实的。有了Gemini 2.0,我们正在为它更具代理性奠定基础。虽然它仍在研究范围内,但我们将它交给值得信赖的测试人员,比如Project Mariner,从一开始就在Chrome上工作。看到一个模型能够使用浏览器是非常不可思议的,但我们必须突破一些障碍,因为我们在这些领域必须安全、可靠地做到这一点。俗话说,“最后的20%需要80%的努力。”在这种情况下,最后10%可能需要90%的努力。但这就是为什么我们要有基准。我们正在取得进展。我们正在把它交给值得信赖的测试人员。这样我们就可以负责任地进行测试,获得反馈,然后将其提供给更多的人,等等。但想想AI可以开始影响世界上的所有工作流程。我们实际上可能会看到比我们所看到的更大的进步。两者同时为真。
问:说到长期策略,从一开始就与Gemini进行多模式合作似乎牺牲了一些其他能力(也许是在语言和编码方面),是这样吗?
皮查伊:当我们推出Gemini 1.2时,我们真的希望它从一开始就是多模式的。我认为我们的模型在多模态方面几乎是最先进的,但我们还没有展示出模型的能力。没有本地图像输出或音频输出。在2.0版本中,我们正在解锁这些功能,但与此同时,我们在所有编码或推理等方面都变得最先进。在SWE基准下,我们的模型现在是最先进的。我们还有其他尚未发布的实验模型,这些模型显示了更多的功能。我们肯定在推动前沿,但我们会负责任地做到这一点,这就是为什么你会看到其中一些处于可信任的测试模式,其中一些仅作为开发人员的实验API,但我们将努力工作,获得反馈,然后将其提升到一个新的水平。
问:DeepMind的人说了这一点,并提出理论,认为多模型方法是通往AGI的道路,因为你需要有这个世界模型,也许你需要有一个具体的AI,才能真正推理和理解。随着你的进步,你发现这是真的吗?你认为这是正确的方法吗?
皮查伊:作为人类,我们与世界的体验是令人难以置信的多模式的,所以它总是有意义的。这就是为什么我们使用Google Lens进行搜索。如果你能把手机指向你正在看的东西并问问题,你就不应该总是打字。Lens每月为我们带来数十亿次查询,这是我们增长最快的用例之一。我一直很清楚,这就是未来的发展方向。Demis和他的团队,一直有着强烈的愿景。作为这一切的一部分,我们推出的一件事是,你可以用它来帮助游戏。如果你是一名新玩家,它会关注你在做什么,并与你交谈以提供反馈。我认为这是它的基础。从长远来看,当你看到机器人(21.780,-0.21,-0.95%)技术之类的东西时,这将是非常重要的,尤其是对于Waymo。Waymo就是看你周围的世界并做出决定。我们正在使用这些原生多模式模型进行的工作将与Waymo相交,并随着时间的推移使Waymo变得更好。
问:当你把这些多模式产品交到数十亿人手中,看看Astra,当它广泛可用时,它真的成为一个很好的训练数据来源吗?这对谷歌来说是一个优势吗?
皮查伊:在我们所做的一切中,没有什么比真实世界的反馈更好的了。人们在搜索中使用Google Lens,人们在使用Astra。我认为良性循环对我们的产品来说变得非常重要。我认为这一切都让我们的产品变得更好。例如,如果你看看Waymo,我们模拟了很多,然后我们在现实世界中开车。但现在我们在现实世界中,部署在城市中,每周提供17.5万次出行服务,约100万英里。我认为这是你创造性地改进产品的最佳方式。
问:明年有10座城市,这很快。你认为这会成为真正的收入来源吗?标准是什么?按每英里收费吗?
皮查伊:我们现在的衡量标准是确保我们正在构建一个通用的Waymo驾驶程序。我们可以采取的情况越多,规模就越大,使其在城市环境、高速公路和所有天气条件下都能以很高的标准安全工作。然后在各种场景中交付它(在我们的汽车中,与合作伙伴合作,就像他们与Uber或其他参与者的合作一样),让它扩大规模,拥有良好的用户体验是我们在努力解决这个问题时所考虑的。
问:有一件事我没想到会发生,那就是数据中心的名字,比如Colossus、Rainier。你在堪萨斯城有一个价值数十亿美元的数据中心。你是打算建立一个这样的大型集群,还是已经建立了?会有名字吗?
皮查伊:从现在开始,我们应该让Gemini接管我们的命名。我们一直在推动数据中心的最新技术,我认为我们有一些世界上最强大的集群。我感到自豪的是,世界上大部分地区都在采用液体冷却。我们在数据中心广泛部署液体冷却已经有一段时间了。我们将成为首批客户之一,不仅是TPU,还将与英伟达合作,在我们的数据中心获得GB200。我们已经有一个部分由地热驱动的数据中心。我们的顶级数据中心,其中许多在能源使用方面都是90%无碳的。所以我们处于领先地位,我们正在扩大规模。我所看到的一切,我们所制定基准的一切,我认为我们也处于前沿。
问:但你不会像其他人那样谈论它。亚马逊宣布要部署数十万个他们的Trainium2芯片。你在TPU上训练了Gemini 2.0,为什么不出去吹嘘一下呢?
皮查伊:我记得在2017年或2018年的谷歌IO上,我谈到了建立AI优先的数据中心,并展示了我们的TPU部件。也许我们已经做了一段时间了。我们为我们所做的事情感到自豪,但我会接受你的建议,并确保我们更多地讨论它。
问:也许这是商业秘密;也许如果你处于领先地位,你就不必谈论它。你能把这些被认为是世界上最大的集群中的一些进行比较吗?
皮查伊:需要明确的是,有几家公司在做这件事。重要的是,为了生成用于预培训的尖端模型,你需要这些大型集群,理想情况下是同时定位的。我们在这方面绝对处于领先地位。我认为我们有一些最大的计算集群可供谷歌DeepMind和我们的云客户使用。我们将在那里做得更多。
问:即将上任的特朗普政府提出了AI的“曼哈顿计划”。你对这将是什么样子以及Alphabet将在其中扮演什么角色有什么见解吗?
皮查伊:现在还为时过早。过渡团队正在那里进行,但总统非常明确地表示,他希望投资于技术领导力和关键技术。在我看来,多年来我们一直这样做,但我们想提供帮助。你看到了我们关于量子计算或AI的公告,我们宣布了与合作伙伴一起建造小型模块化核反应堆的团队。其中一些是大型的实体基础设施项目。我认为我们有机会作为一个国家共同努力,实施这些雄心勃勃的大型项目,并回到那个阶段。世界上没有人对看到SpaceX助推器以这种方式返回并着陆不感兴趣。我认为设定一个高标准,追求这些大型的实体基础设施项目,并把它做得又好又快。税率的进步是我们非常兴奋的事情,我们很乐意尽我们所能发挥作用。
问:你和新的AI沙皇谈过了吗?
皮查伊:还没有,但我期待着与David Sacks会面。很明显,会有一些人走进来,他们是这些领域的技术专家。我认为这将非常非常有帮助。我们期待着参与其中。
问:所以还没有具体细节,你不知道那会是什么样子?
皮查伊:是的。除了早期迹象表明他们肯定有兴趣推动大规模创新。我们期待着这些对话。
问:你们的量子AI团队在纠错方面取得了重大突破。你预料到了吗?你的反应是什么?
皮查伊:令人兴奋的事情之一是我们的量子团队,与Hartmut Neven和团队一起,他们一直有一个非常严格的框架,他们在这一明确的里程碑中定义了进展。每次我们有一个里程,我都觉得,这些都是雄心勃勃的项目。这无疑是最积极的惊喜之一。这绝对是一个更深层次的突破,在量子计算机中扩展时解决了纠错问题。这无疑是该领域最严峻的挑战之一。我对此非常满意。但对我们来说,这些都是我们专注于开发实用量子计算机的里程碑,我们可以将其应用于新的新颖应用案例。这就是目标。这与我们的Waymo或AI旅程相似,都需要时间。但我认为,如果你下定决心,进步是不可避免的。
问:你说量子就像2010年的AI。这意味着它很快就会开始产生真正的影响。实现大规模量子计算机对Alphabet意味着什么?
皮查伊:对于你之前的问题,经典计算或超级计算机正变得越来越强大。但我认为,对于某些类型的用例,量子最终将发挥强大的作用。它将成为我们武器库中的重要工具。未来,量子和AI的交叉对我们来说非常令人兴奋。我们与GenCast一起发布了最先进的天气预报模型。但在未来,当我们可以使用量子计算时,你不应该低估我们在更深入、更好的尺度上预测这些事情的能力。这些都具有深远的实际意义。有些事情,比如AlphaFold所做的,你还能做些什么来理解自然,模拟自然,所有这些都有实际应用。然后,无论是通过AI还是量子,我们都在更深入地了解我们所生活的宇宙的性质和结构。我认为这给了我们最好的机会,因为宇宙从根本上是量子的。因此,取得进展也有更深层次的影响。它不仅会改变世界,而且也有可能为很多其他项目提供支持。我的目标是,在五年的时间框架内,我们正在商业化地应用量子来解决一些用例,然后从那里开始,你可以进一步发展。
问:你提到明年AI搜索将是一件更大的事情。AI Overview(AI概述)对于我的许多搜索已经变得非常有用。你能更详细地说明一下吗?
皮查伊:我们对AI Overviews搜索的发展感到非常兴奋。我一直在使用Gemini 2.0 flash的AI概述,我已经看到了它的改进。这是我们将向更多人推广的东西。但我们也会用它做更多的事情。我们的AI模型将帮助我们进行搜索,为更复杂、更深入的查询构建体验,在这些查询中,你必须对其进行分解,帮助用户迭代,并获得更深入的答案。2025年,我们肯定会迅速创新,搜索将做2024年无法做到的事情。这就是我为团队设定的目标:2025年搜索的一类问题比2024年明显改善,我认为我们会实现这一目标。这很令人兴奋,因为这意味着你正在推动知识和信息的前沿。我期待着所有这些都能交到用户手中。
问:AI安全是很多人提出的另一个问题。Demis说,也许一年前,随着竞争的升温,最大的风险之一是你开始从安全工作中拿走资源(弱化安全),因为你需要尽可能多的资源来赢得这场比赛。是这样吗,或者你能具体谈谈有多少人在从事安全工作,或者有多少计算资源吗?有办法衡量这一点吗?
皮查伊:我们一直认为,这是一个推动创新的领域,但帮助你推动进步的是从一开始就纳入安全。我认为,能够长期思考和长期投资的优势之一是,我们正在对这些模型的基础安全性进行尽可能多的投资。这就是为什么,例如,构建它的合成、开源方面,这些都是我们推动安全边界的方式。随着我们使这些模型更具代理性,我们都在投资安全框架。但我认为安全和创新是齐头并进的。正是这一点帮助我们在Waymo取得了更大的进步。因为从第一天起,我们就将安全深深地融入了我们的创新和发展实践中,它们是相辅相成的。同样,在AI领域,我们有比以前更多的人从事AI安全工作,包括访问更多的计算。这是我们始终要坚持的事情。
问:关于反垄断的一个问题很有趣。当我在Chrome上演示Mariner时,这就是美国政府想要迫使谷歌分拆的地方。如果你看看政府的任命,看起来这种情况不会消失。我只想问,没有Chrome,谷歌会是什么样子?
皮查伊:这是一个重要的过程,我们将建设性地参与其中。我确实认为法官承认我们一直在创新,我们打造了最好的产品。我认为一些补救措施的范围很广。我们计划提出强有力的理由。你刚刚看到了创新的出现。所有这些都有利于消费者,归根结底,这必须是基础。这就是我们的法律所依据的。只要我们继续坚持这种方法,为我们的用户带来有益的东西,我认为我们最终会做得很好。
问:你之前谈到了地热。我只是想知道在这方面是否有什么让你兴奋的事情,什么类型的能量会推动这一点?这会带来新的可再生能源创新吗?
皮查伊:我们对太阳能(5.010,-0.13,-2.53%)的潜力知之甚少。有更多的机会扩大太阳能。从物理学和工程学的角度来看,我们有很多选择。核能已经得到证实,有些国家已经证明了这一点,而且它今天仍然有效。我认为有更安全的选择正在不断研究中。地球内部也有如此多的能量。我们只生活在地球表面,地球内部也有大量的能量,我们几乎没有利用。我一直觉得,如果你下定决心,我们应该处理能源过剩的问题。能源应该是一种催化剂,而不是一种约束。阻碍我们前进的只有我们的想象力和结果。
问:我在看一张地热潜在地点的地图,它很大,覆盖了整个美国西部。你们有一个(用地热为数据中心供电),但它仍然很小,还不是千兆瓦,而是兆瓦。你们必须要深入挖掘吗?
皮查伊:对能源的需求如此之大,我认为我们能够满足它。但我们需要更多的研发资金。我们需要更适当的许可才能真正开展这些工作。我认为这是新政府真正有机会的领域。他们已经表示,他们致力于实现这一目标。这是我们都可以取得很大进步的事情。