编译 / 金鹿
编辑 / 科技新闻 郝博阳
美国当地时间周三,谷歌新的人工智能模型Gemini在聊天机器人Bard内部发布。连线杂志(Wired)当天采访了领导该项目的人工智能高管德米斯哈萨比斯(Demis Hassabis)。他表示,Gemini是一种新型人工智能,该项目可能会用新的方式推进聊天机器人和其他项目。
哈萨比斯参与发布了许多在人工智能领域取得的巨大飞跃的产品。最值得注意的是,2016年,他发布了一款名为AlphaGo的机器人,能学会以超人的技能和创造力玩转复杂而微妙的围棋,之后他就成名了。如今,哈萨比斯表示,他在谷歌的团队又向前迈出了更大的一步,对他本人、对谷歌乃至对更广阔的人工智能领域都是如此。他说,Gemini为人工智能开辟了一条无人涉足的道路,可能会带来重大的新突破。
哈萨比斯说:“作为一名神经科学家和计算机科学家,多年来我一直想尝试创造一种新型的人工智能模型,这种模型的灵感来自我们通过所有感官互动和理解世界的方式。Gemini是朝着这种模式迈出的一大步。”谷歌将Gemini描述为“多模态”,因为它可以处理文本、音频、图像和视频形式的信息。
从今天开始,Gemini的初始版本将通过谷歌聊天机器人Bard提供。该公司表示,该模型最强大的版本Gemini Ultra将于明年发布,在几个常见的基准测试上,它的性能超过ChatGPT背后的GPT-4。谷歌发布的视频展示了Gemini解决涉及复杂推理的任务,以及该模型结合文本、图像、音频和视频信息的示例。
哈萨比斯称:“到目前为止,大多数模型都是通过训练单独的模块,然后将它们拼接在一起来近似地实现多模式。”哈萨比斯的话似乎暗指OpenAI的技术。他接着说:“对于某些任务来说,这没问题,但在多模态空间中,你无法进行这种深度复杂的推理。”
OpenAI在9月份发布了ChatGPT的升级版本GPT4-V,除了文本之外,ChatGPT还能接收图像和音频作为输入。OpenAI没有透露GPT-4-V是如何做到这一点的技术细节,也没有透露其多模式功能的技术基矗
AI领域玩起“你追我赶”
与之前的人工智能项目相比,谷歌以惊人的速度开发和推出了Gemini。这是为了应对最近人们对OpenAI和其他公司的产品可能对谷歌的未来构成威胁的担忧。
到2022年底,谷歌依然被视为大型科技公司中人工智能的领导者,大量人工智能研究人员为该领域做出了重大贡献。其首席执行官桑达尔皮查伊(Sundar Pichai)曾宣布他的公司战略是“人工智能优先”,谷歌已经成功地将人工智能添加到从搜索到智能手机的许多产品中。
然而,在不到800名员工的初创公司OpenAI推出ChatGPT后不久,谷歌就不再被视为人工智能领域的领头羊。ChatGPT以超人般的智慧回答各种问题的能力,增加了谷歌最看重的搜索引擎被取代的可能性,尤其是当OpenAI的投资者微软将其基础技术应用于自己的必应搜索引擎时。
谷歌在震惊之后迅速采取了行动,推出了ChatGPT的竞争对手Bard,改进了自己的搜索引擎,并匆忙推出了一款新模型PaLM 2,与ChatGPT背后的大模型竞争。哈萨比斯在谷歌收购他的初创公司DeepMind时,开始领导总部位于伦敦的人工智能实验室,现在他领导了一个新的人工智能部门,将该团队是与谷歌的主要人工智能研究团队Google Brain合并而成。
今年5月,在谷歌的I/O开发者大会上,皮查伊宣布,谷歌正在培训一款新的、更强大的PaLM继任者,名为Gemini。他当时并没有透露太多细节,但这个项目的命名是为了纪念谷歌的两个主要人工智能实验室的合并,同时也是为了向美国宇航局(NASA)的Gemini项目致敬,该项目为阿波罗计划铺平了道路。
大约七个月后,Gemini终于被开发出来。哈萨比斯说,新模型处理不同形式的数据(包括文本以外的数据)的能力从一开始就是该项目愿景的关键部分。许多人工智能研究人员认为,能够利用不同格式的数据是自然智能(比如人类)的一项关键能力,这在很大程度上是机器所缺乏的。
ChatGPT等系统背后的大语言模型之所以具有灵活性和强大功能,是因为它建立在从网络和其他地方大量文本数据中学习的算法之上。它们可以通过回放和混合从训练数据中学习到的模式来回答问题,创作诗歌和引人注目的文学作品。
尽管ChatGPT和类似的聊天机器人可以使用相同的技巧来讨论或回答有关物理世界的问题,但这种表面上的理解很快就会瓦解。许多人工智能专家认为,要想让机器智能取得显著进步,就需要系统在物理现实中有某种形式的“基础”,也许是将语言模型与还能看、能听、最终还能触摸的软件结合起来。
哈萨比斯表示,谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来,与世界进行物理互动。他说:“要成为真正的多模式,你需要包括触摸和触觉反溃将这些基础模型应用于机器人技术有很大前景,我们正在大力探索这一点。”
寻找物理互动方法
谷歌已经在这个方向上迈出了一小步。2022年5月,该公司发布了一款名为Gato的人工智能模型,它能够学习完成各种任务,包括玩雅达利(Atari)游戏、为图像添加字幕,以及使用机械臂堆叠积木等。今年7月,谷歌展示了一个名为RT-2的项目,该项目涉及使用语言模型来帮助机器人理解和执行动作。
哈萨比斯说,能够更好地对视觉信息进行推理的模型也应该更有用,作为软件代理,或者试图用类似于人的方式使用计算机和互联网完成任务的机器人。OpenAI和其他公司已经在尝试将ChatGPT和类似的系统改造成新一代功能更强大、更有用的虚拟助手,但它们目前还不太可靠。
为了让人工智能代理可靠地工作,为它们提供动力的算法需要更加智能化。OpenAI正在秘密推进一个名为Q*的项目,旨在提高人工智能模型的推理能力,可能会使用强化学习(AlphaGo的核心技术)。哈萨比斯说,他的公司也在做类似的研究。
哈萨比斯解释称:“我们有许多世界上最好的强化学习专家,他们发明了一些东西。AlphaGo的进步有望帮助改善未来模型的规划和推理能力,比如今天发布的这个模型。我们有一些有趣的创新,我们正在努力把它带到Gemini的未来版本中。明年你会看到很多快速的进步。”
随着谷歌、OpenAI和其他科技巨头竞相加快他们的人工智能研究和部署步伐,关于当前和未来模型可能带来的风险的争论也越来越激烈,包括在国家元首之间。哈萨比斯参与了英国政府今年早些时候发起的一项倡议,该倡议发布了一份声明,警告人们注意人工智能的潜在危险,并呼吁进一步研究和讨论。围绕OpenAI人工智能技术商业化速度的紧张局势,似乎也是最近董事会剧变的原因之一,导致首席执行官山姆奥特曼(Sam Altman)被短暂罢免。
哈萨比斯说,早在2014年谷歌收购DeepMind之前,他和其他两位联合创始人谢恩莱格(Shane Legg)和穆斯塔法苏莱曼(Mustafa Suleyman)就已经在讨论研究和降低可能风险的方法。他说:“我们有一些世界上最好的团队在寻找偏见、毒性,但也在寻找其他确保模型安全的技术。”
尽管谷歌发布了Gemini的初始版本,但对最强大版本Gemini Ultra的安全测试工作仍在进行中,该版本定于明年发布。哈萨比斯说:“我们正在完成有关制衡、安全和责任方面的测试,并将在明年年初发布。”