Google AI
想象一下一本书的集合,也许是数百万甚至数十亿本,它们偶然地被出版商扔进了一个领域。每天堆都呈指数增长。
这些书充满了知识和答案。但是寻找者将如何找到它们?缺乏组织,书籍是无用的。
这是所有未经过滤的荣耀的原始互联网。这就是为什么我们大多数在线寻求“启蒙运动”的原因都始于Google(是的,还有其他搜索引擎)。Google的算法触角可扫描并索引那堆不合时宜的书籍。当某人在搜索栏中输入查询时,搜索算法会翻阅其索引版本的Internet,显示页面并将其显示在热门列表的排名列表中。
这种方法非常有用。实际上,它是如此有用,以至于在过去的20年中它从未发生根本变化。但是现在,谷歌的AI研究人员(最初将搜索引擎设定为标准的公司)正在草拟下一步的蓝图。
在关于arXiv预印服务器的论文中,该团队建议使我们可以触手可及的技术,使互联网的可搜索性更高。他们说大型语言模型(如OpenAI的GPT-3等机器学习算法)可以完全取代当今的索引,检索和排名系统。
AI是未来的搜索引擎吗?
作者写道,在寻求信息时,大多数人都希望咨询专家,并获得细微而值得信赖的回应。相反,他们用Google搜索。这可能行得通,或者严重错误。就像您早上两点被惊慌的,与健康相关的兔子洞吸了一样。
尽管搜索引擎表面上(希望是高质量的)源至少包含一个答案,但是搜索者要负担扫描,过滤和读取结果以尽可能地将答案拼凑起来的负担。
这些年来,搜索结果有了长足发展。但是,这种方法还远远不够完美。
有一些问答工具,例如Alexa,Siri和Google Assistant。但是这些工具非常脆弱,可以解决的问题数量有限(尽管正在增长)。尽管它们有自己的缺点(更多内容请参见下文),但像GPT-3这样的大型语言模型则更加灵活,可以对任何查询或提示构造自然语言的新颖答复。
Google小组建议,下一代搜索引擎可能会综合所有方面的优势,从而将当今的顶级信息检索系统整合到大型AI中。
值得注意的是,机器学习已经在经典的索引检索然后排名搜索引擎中起作用。但是,作者提出,机器学习可以完全替代它,而不仅仅是增加系统。
“如果我们完全放弃了索引的概念,而将其替换为一个大型的,经过预先训练的模型,该模型可以有效地对语料库中包含的所有信息进行编码,将会发生什么?” 唐纳德梅茨勒(Donald Metzler)和合著者在论文中撰文。“如果检索和排名之间的区别消失了,而是只有一个响应生成阶段怎么办?”
他们设想的一个理想结果是有点像《星际迷航》中星际飞船Enterprise的计算机。信息搜索者提出问题,系统以对话方式(即,如您所期望的那样以专家的自然语言答复)回答问题,并且在回答中包括权威引用。
在本文中,作者勾勒出了他们所谓的理想示例,说明了这种方法在实践中可能是什么样子。使用者问:“红酒对健康有什么好处?” 系统从多个权威来源(在本例中为WebMD和Mayo诊所)以清晰的散文形式返回了细微差别的答案,突出显示了饮用红酒的潜在好处和风险。
但是,它不必到此结束。作者注意到,大型语言模型的另一个好处是他们只需稍作调整即可学习许多任务的能力(这被称为单次或多次学习)。因此,他们也许能够执行当前搜索引擎完成的所有相同任务,甚至还可以执行许多其他任务。
仍然只是一个愿景
如今,这一愿景已遥不可及。大型语言模型被作者称为“差异表达”。
像GPT-3这样的算法所产生的散文有时与人类撰写的文章几乎没有区别,但它们仍然容易产生荒谬的回答。更糟糕的是,他们无意间反映了训练数据中嵌入的偏见,对上下文没有任何理解,也无法引用来源(甚至分离高质量和低质量的来源)来证明他们的回应是正确的。
作者写道:“他们被认为知道很多,但他们的知识很肤浅。” 本文还列出了弥合差距所需的突破。确实,他们概述的许多挑战都适用于整个领域。
一个重要的进步将是超越仅对术语(例如单个词)之间的关系进行建模的算法,而对对文章中的词与整个文章之间的关系进行建模的算法。此外,他们还将对互联网上许多不同文章之间的关系进行建模。
研究人员还需要定义什么构成质量响应。这本身并不是一件容易的事。但是,对于初学者来说,作者们建议高质量的回答应该是权威的,透明的,公正的,可访问的,并应包含不同的观点。
即使是当今最尖端的算法也无法接近这个标准。在解决这些问题之前,以这种规模部署自然语言模型是不明智的。但是,如果解决了这一问题,并且已经在解决其中的一些挑战,那么搜索引擎将不是唯一受益的应用程序。
这是一个诱人的愿景。在试图确定什么是可信赖的和什么不是值得的时,梳理网页以寻找答案。
毫无疑问,我们中的许多人并没有尽我们所能或应该做的。
但是,值得一提的是,以这种方式访问互联网将如何改变人们的贡献方式。
如果我们主要是通过阅读算法合成的散文回应来消费信息的,而不是自己打开和阅读各个页面,那么创作者会出版多少作品吗?谷歌和其他搜索引擎制造商将如何补偿本质上在制造信息的人呢?
仍然会有很多人阅读新闻,在这种情况下,搜索算法将需要提供故事列表。但是我不知道较小的创作者添加的内容是否会发生微妙的变化,这样做会使网络上的信息丰富程度降低,从而削弱了依赖该信息的算法。
没有办法知道。通常,投机根植于当今的问题,事后看来却是无辜的。同时,毫无疑问,这项工作将继续进行。也许我们将解决这些挑战(以及随之而来的挑战)。
更多关于芯片制造的知识,请搜索“众壹云”