划重点
科技新闻讯 2月7日消息,AI研究公司OpenAI的聊天机器人ChatGPT正在火爆全球,多家科技巨头和初创企业都希望基于该技术构建新式搜索引擎,以便帮助人们更容易地查找答案。微软、谷歌、百度和其他公司正纷纷加入这场AI大战。
蒋琛(音译)是一名机器学习专家,曾在谷歌工作。当他首次尝试ChatGPT时,立刻就被这款来自AI研究公司OpenAI的聊天机器人迷住了。蒋琛与ChatGPT的交流非常顺畅,后者似乎可以提供他所需的任何信息。如今,ChatGPT已经成为轰动全球的产品。
但当蒋琛试图使用同样的基础型AI技术为他与人共同创立的初创公司MoveWorks构建更好的搜索工具时,这项技术的能力弱点也开始显现出来。MoveWorks使用AI来帮助员工筛选技术支持文档和人力资源页面等信息,其新式AI搜索工具非常擅长从这类文件中提取各种有用的信息,包括提供地址和电话号码,但其中有些信息可能不够真实。
人们对ChatGPT的狂热兴奋,以及人们普遍认为它可以重新发明搜索引擎,这些都是可以理解的。这款聊天机器人可以通过综合从网络和其他来源抓取的海量信息来训练算法,从而为问题提供最佳答案。与ChatGPT交流给人一种与机器互动更流畅的感觉。
但在某些方面,这项技术的工作方式与搜索引擎可靠地检索在线信息的理念存在根本分歧。网络上有大量不够准确的信息,但ChatGPT很容易产生新的虚假信息。它的底层算法不是直接从事实或链接的数据库中提取信息,而是生成单词串,目的是在统计上与其训练数据中看到的描述相似,而不考虑真相。
尽管面临这样的挑战,或许是因为围绕ChatGPT引发的狂热,网络搜索巨头以及几家初创公司都在迎头赶上。微软向ChatGPT的创建者OpenAI投资了约100亿美元,并正在以某种方式将后者的底层技术添加到其必应搜索引擎中。
谷歌很早就开发出类似的聊天机器人LaMDA,据说现在正对ChatGPT的挑战做出激烈回应。谷歌计划很快发布某种形式的LaMDA,并可能在今年展示多达20款使用相同技术的产品。此外,中国搜索巨头百度也在开发一款类似于ChatGPT的中文机器人。
在科技巨头准备应对ChatGPT突然爆火的同时,几家初创公司已经推出了带有与该机器人类似聊天界面的搜索引擎,包括You.com、Pplexity AI和Neeva。他们开发的工具展示了将ChatGPT风格的技术应用于搜索的潜力和挑战。由语言和AI专家理查德索切尔创立的You.com,可以通过聊天界面提供答案。回复中带有引文,这可以帮助用户追踪某条信息的来源。
但该模型有时会将分散的资源组合起来,形成”大杂烩式“的答案。例如,查询某个人可以得到一个答案,这个答案结合了来自多个同名人士的简历信息。
类似ChatGPT的系统还有另一个问题,即其响应只基于它接受训练的数据。根据模型的大小和数据的规模,对模型进行整体训练可能会花费数百万美元。当被问到最新的体育竞赛比分时,ChatGPT等系统的回答让人感到困惑,它会帮你了解纽约现在的天气情况。
索切尔不想透露最新信息是如何被纳入的,他认为这是一种竞争优势。他说:“我认为现在很多聊天界面在某些方面比搜索引擎的体验要好得多,但在其他方面显然还差得多,我们正在努力解决这些问题。”
搜索初创公司Perplexity AI的创始人兼首席执行官阿拉文德斯里尼瓦斯曾在OpenAI工作。他表示,用最新信息更新类似ChatGPT的系统面临的挑战意味着,它们需要与其他东西结合起来。他说:“单靠它们永远不可能成为最好的搜索引擎。”
Greylock Partners的风险投资人萨姆莫塔梅迪投资了基于AI的搜索公司Neeva。他表示,目前还不清楚聊天界面与搜索引擎的主要收入模式(广告)的兼容性如何。谷歌和必应使用搜索查询来选择出现在回应链接列表顶部的广告。莫塔梅迪怀疑,可能需要出现新的广告形式,才能使聊天式搜索界面变得可行,但目前还不完全清楚这些形式将是什么。Neeva对无限制的无广告搜索收取订阅费。
即使以谷歌的规模,运行ChatGPT这样的模型成本也相当惊人。OctML是专门帮助公司降低部署机器学习算法成本的公司,其联合创始人兼首席执行官路易斯塞泽估计,运行ChatGPT搜索的成本可能是谷歌搜索的10倍,因为每个答案都需要运行一个庞大而复杂的AI模型。
ChatGPT爆火让许多熟悉底层技术的程序员和AI研究人员感到惊讶。这款聊天机器人的核心算法名为GPT,由OpenAI于2018年首次开发,更强大的版本GPT-2于2019年发布。这是一种机器学习模型,旨在接收文本,然后预测接下来会发生什么。OpenAI发现,如果用大量的文本进行训练,GPT的表现相当惊人。自2020年6月以来,该技术的首个商业版本GPT-3已可供开发人员使用,可以完成ChatGPT最近盛行的许多事情。
ChatGPT使用了底层算法的改进版本,但其能力的最大飞跃来自于OpenAI让人类向系统提供反馈,让系统做出令人满意的答案。但就像它之前的文本生成系统一样,ChatGPT仍然容易从其训练数据中复制偏见,以及给出看似合理但不正确的结果。
纽约大学教授加里马库斯直言不讳地批评AI炒作。他认为,ChatGPT不适合用于搜索,因为其并未真正理解自己提供的答案。马库斯补充说,像ChatGPT这样的工具可能会给搜索公司带来其他问题,因为它们会在互联网上充斥着AI生成的、搜索引擎优化的文本,所有的搜索引擎都会遇到类似的问题。
华盛顿大学助理教授、致力于更高效地训练AI模型的Snorkel AI联合创始人亚历克斯拉特纳称,ChatGPT是软件功能领域的“一个转折点”。但他也表示,可能需要一段时间才能弄清楚如何防止像GPT这样的语言模型捏造事实。他认为,找到一种方法让它们了解最新的信息以保持搜索的新鲜性,很可能涉及到训练基础AI模型的新方法。
目前尚不清楚这些解决方案需要多长时间才能出现,并被证明是正确的。这项技术可能还需要很长时间才能从根本上改变人们搜索答案的方式,即使其他用例成为现实,比如构思新的食谱,或者成为学习或编程的伙伴。Moveworks的蒋琛说:“这太神奇了!我告诉我的团队,人们会把这几年视为ChatGPT元年,但它是否会取代搜索就是另一个问题了。”(金鹿)