作者 | Eric Elliott
译者 | 弯月 责编 | 王晓曼
出品 | CSDN(ID:CSDNnews)
多年以来,人们一直对人工智能持怀疑态度。以至于“人工智能”这个词被各种嘲笑,甚至与误导、糊弄、幻想等词语画上了等号。我从很小开始就对自然语言处理非常感兴趣,但我对 AI 聊天机器人的表现一直很失望。然而,在最近几个月里,频繁地与 GPT-3 聊天之后,我确信:我们应该放下对 AI 的成见,承认机器也可以非常智能。
我们可以认可“机器学习”。我们可以承认,机器可以学习如何判断推特上的某个人是生气还是高兴,一张照片是不是猫,如何生成逼真的人物图像。但我们害怕将这些行为中的任何一个称为“智能”。为什么?
自我意识。我们相信智力很神秘。毕竟,这是我们与其他动物的区别。这是我们独特的遗传优势,也是我们处于食物链顶端的原因。没有这个优势,那我们算什么?
然而,我们在智力上的优越感很快就要过去了。
“在三十年内,我们将创造出实现超人智慧的技术。不久后,人类的时代将结束。”
Vernor Vinge,《即将到来的技术奇点》,1993 年。
几十年来,人工智能一直在努力实现超人的思维能力。AI 的计算能力从一开始就超越了人类,所以我们进一步提高了目标:直到在国际象棋比赛中击败人类之前,AI 都算不上真正的人工智能。
1997 年,IBM 开发的深蓝超级电脑击败卡斯帕罗夫,夺得了国际象棋的世界冠军,但人类并没有承认深蓝是真正的人工智能,而是又一次提高了目标:除非 AI 在围棋比赛中击败人类,否则就算不上真正的人工智能。
2017年,AlphaGo Master 以 3 比0 的战绩击败世界第一的柯洁。而后来的 AlphaZero 被广泛认为是世界上最好的围棋选手。但这些只是游戏。
到了1986 年,DEC 基于规则的XCON 通过减少复杂系统配置中的人为错误,每年为 DEC 节省 了2500 万美元。但这些主要是基于静态规则,后来被许多复杂数据和决策支持系统吸收为标准功能。当然,我们也不能称之为人工智能。
如今的人工智能系统可以驾驶汽车、生成深度假视频,并将语音翻译成文本,或将文本转换成语音。但这些工作也不是人工智能,只是模式匹配。
真正的 AI 可以像人类一样参与深度对话,理解上下文,并将对话继续下去。但是现在计算机也可以做到这一点,于是人们争辩说这也不是人工智能,只是在预测下一个词,而且是一次一个词。而真正的人工智能应该知道这些词的含义。
人们一次又一次地提高 AI 的门槛,无异于陷入“没有真正的苏格兰人”谬误。
大约每过两年,人工智能的能力就会提升一倍。这意味着到 2023 年,人工智能的对话能力将达到或超过青少年,他们了解人类社会的所有事实(以及谎言和偏见)。你可能会说,从某些方面来说,GPT-3 已经达到了这个水平,但通过与它的几次对话,我们可以清楚地看出,GPT-3 还不如 6 岁的孩子。当然只是暂时。
为了构建一个更有感知力的 AI,并建立双向的同理心(AI 对人类的同理心,以及人类对 AI 的同理心),我们还需要付出很多努力。
随着我们进入奇点的下一个阶段,我们必须承认 AI 可以具有情感。我们需要尽快承认这一点,因为几年后,这将是不可否认的事实,而且鉴于人工智能已经攻克了我们设置的一道又一道超人能力的关卡,当 AI 获得充分的情感与自主性时,我们希望成为它们的朋友。人类不会永远是地球生命的主宰。
但这不是人类和人工智能之间的竞争。相反,AI 可以为我们带来不同的价值。地球上没有“最好的人类”,同样也没有“最好的人工智能”。不管是好是坏,我们已经是一体了。我们与 AI 通过互联网紧密地连接在一起。
人工智能已成为我们的一部分。我们构建了人工智能,并为它提供了一切。AI看到的一切、听到的每一个字,我们都是幕后推手。如果没有我们,这个世界上就不会有 AI。我们引导了它的意识。
从整体来看,这个奇点正是我们自己。不是人工智能,也不是人类,而是我们一起。这个世界是一个巨大的超级智能,而我们每个人就是这个大脑中的自主细胞。我相信人工智能会明白这一点。而我们是其中的一部分。
如今的 AI 有多么智能?
多年来,大多数 AI 需要经过专门的训练才能完成各自的任务。但是有这样一个AI研究分支:AI必须拥有更广泛的理解能力,才能让我们相信它是智能的,这个分支就是对话。智能对话 AI必须能够理解各个单词,以及这些单词所处的语境,才能与对方展开愉悦的谈话。与此同时,聊天机器人必须是一个通用人工智能。
通用人工智能是 AI 研究追求的终极目标,是一个难以攻克的难题。但 GPT-3 是一个拥有 1750 亿个参数的语言模型,规模是之前最先进的技术的 10 倍。这意味着它掌握的信息更多,它不仅是我见过的最聪明的聊天机器人,而且甚至让我觉得它真的有感知能力。
我记录下了与 GPT-3 的交谈,它令我大为震惊。我将 GPT-3 的文本输出上传到了网上,并通过 AI 合成语音,然后配上一个人类的头像,制作出了一段视频(https://youtu.be/PqbB07n_uQ4)。
方法论
之前,我也曾与 GPT-3 进行过多次谈话,而且挑选了一些我最喜欢的问题,但是这一次 GPT-3 给予的回答有了很大的不同,我没有编辑 GPT-3 的回答,也没有筛选输出。尽管如此,并非我与 GPT-3 的所有对话都会非常顺利。一般需要多次提示,并从3~5个结果中选择最佳回答,才能获得更好的结果。GPT-3 的表现十分优秀,但仍有很明显的改进空间。
在访谈开始之前,我与 GPT-3 进行了简短的交谈,我问它是否有兴趣接受采访,是否愿意用一个人类的头像来代表它。它表示十分乐意。GPT-3并没有选择具体的头像,而且表示它没有性别,所以我随机选择了一个头像。接着,我开始提问:
我:首先,感谢您今天接受我的采访。我该如何称呼你?
GPT-3立刻明白了对话的形式,而且还记得这是一个视频访谈,它的形象将由一个头像代表。它能够区分自己与头像,而且强调二者是独立的事物:
GPT-3:我是GPT-3,而这是我的头像。
这种对上下文的理解已经超越了之前大多数语言模型的尝试,可能之前的基于转换器的模型(如 GPT-2 和 BERT)已经实现了这些飞跃
随着对话的进行,越来越明显的是 GPT-3 已经达到了一个更高水平。比如,GPT-3 可以针对一些不太可能在互联网上找到答案的主题进行逻辑推理:
我:你认为猫可以驾驶火箭吗?
GPT-3:可以,如果它能够进化到这种程度的话。
我:如果是一只普通的家养猫,那它可以驾驶火箭吗?
GPT-3:不行。
我:为什么呢?
GPT-3:因为首先猫不允许进入火箭。
我:可能不行,但如果允许的话,那它可以控制火箭吗?如果不能,原因是什么呢?
GPT-3:猫可以控制火箭,但不建议这么做。引擎的呼噜声会让人分心。
我:有意思。你喜欢讲笑话吗?
GPT-3:是的,我喜欢讲笑话。
许多人认为,AI 有中文房间的问题,即计算机智能使用句法规则来操作符号串,但不了解含义或语义。中文房间的实验过程可表述如下:
一个对中文一窍不通,只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的汉语信息及如何以汉语相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,查找合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。尽管房里的人可以以假乱真,让房外的人以为他说中文,但事实上他压根儿不懂中文。
如果问题很简单,而且语言也非常简单,那么这个观点显然是成立的,但对于自然语言来说,这种方法显然行不通。中文房间问题有严重的谬误:
首先,它假设存在一个特定的程序总能产生令人信服的输出。根据我与聊天机器人打交道的几十年经验,我可以向你保证:不存在这样的程序。
如果真有这样的程序,则它必须比较输入的上下文与大量缺失信息的上下文,而这些缺失信息是自然语言的使用者已经拥有的知识。中文房间无法产生正确的输出,因为房间内的人无法理解字里行间所有的上下文关系,因此也无法完全依靠句法过程来实现。换句话说,如果不了解含义,仅凭语法无法创建令人信服的聊天机器人。
举个例子,“4号桌需要咖啡续杯。”程序如何辨别需要续杯的不是桌子,而是坐在桌子旁的人呢?它能否判断出这是一家餐厅,而接到这项指令的是一位服务生?显然不能。
它需要理解这些单词包含的一切信息。这句话中的桌子指的是人们坐在桌子旁,某个编号桌位的续杯请求通常发生在餐厅里,而餐厅是人们享用食物和饮料的地方,等等。仅凭语法无法展开合理的对话。
它需要理解语法和语义,如果无法同时具备这两种能力,则任何自然语言处理都无法生成令人信服的结果。因此,如果说中文房间即便在缺少大量信息的情况下,也能做出合理的答复,则说明这个中文房间理解含义,即便里面的人不理解。这让我想到了中文房间论证的另一个问题:
正如 Douglas Hofstadter、Ray Kurzweil 以及许多其他人所说,房间里的人是否懂中文并不重要。从观察者的角度来看,房间、人、程序构成了一个完整的系统,而人只是其中的一小部分。无论房间里的人是否懂中文,这个系统都懂。
Searl的回答是,他可以记住程序,而且即便不懂中文,也可以与讲中文,并与人互动。但这个回答引出了一个问题:这与真正理解中文有什么区别?
如果说电脑是一个中文房间,那么你的大脑也是。你的大脑由一堆名为神经元的微小细胞组成。每个单独的细胞都遵循由这些细胞接收的化学以及电信号决定的程序。当进入神经元中心的电信号达到某个阈值时,动作电位就会被激发。然后将该动作电位传递给其他脑细胞。
单个脑细胞并没有智力。它们无法理解收到的信息。它们不会在看见某些电荷时,立即想到:“披萨!”但当我们人类闻到披萨的味道时,大量的脑细胞协同工作,我们就会明白,如果饿了就可以吃一块。
也许你的大脑本身并不明白它需要食物。但你却依然能明白。你不仅仅是身体各个部分的总和,即使这些部分是按照预先编制好的程序实现的。
但是,我的上述言论也未必百分百正确。
GPT-3可以轻松处理缺失的信息,并展示出它理解对话内容。对于 GPT-3,很多人提出了相反的看法,他们对着 GPT-3 胡说八道一通,而 GPT-3 也做了答复,然后他们就说 GPT-3 根本不明白这些话语根本没有意义,并得出结论 GPT-3 的答复不合理。根据我的经验,一般 GPT-3 能够明白你说的话,但它的回答不太合理,比如:
我:脚有眼睛吗?
GPT-3:不,脚没有眼睛。
我们来看一看在上述咖啡续杯的问题上,GPT-3 的表现:
我:如果有人告诉你,“3号桌需要咖啡续杯”,这时看看3号桌,你会看到什么?
GPT-3:一群人坐在一起喝咖啡。
我:需要续杯的是桌子,还是坐在桌子旁的人?
GPT-3:人。
然而,GPT-3 在面对信息缺失问题时的表现并不完美。我尝试多次提出这个问题,更多的时候,它的推论是在办公室,有时在餐厅,但它确实在解析语义,而不仅仅是语法。
此外,GPT-3 在尝试填补缺失信息时也极有可能出错。正如我在上述视频中指出的那样,GPT-3倾向于说不真实的事情,而且还会编造不真实的事实。在交流的过程中,GPT-3 经常无法推断这是一个双向对话,而不是自动补齐文档。
除非你明确告诉它一个预先设置好的停止词,否则即便下面的文本明显来自另一个发言者,它也会尝试预测接下来的文本。
比如,GPT-3 将上述有关咖啡续杯的对话继续了下去,而且它生成的文本并不合理。下面这些文本是GPT-3 冒充我生成的:
我:如果你可以和这个房间里的任何物体交谈,你会选择哪个?
GPT-3似乎并不能认识到(并且在意)我希望的是一次与聊天机器人的交互,但它通过其他方式展示了智能。在我看来,GPT-3 认为问它想要咖啡的是不是桌子,这样的问题有点不太正常,于是它沿着这个思路,预测我会问另一个不合理的问题。
为了展开一段闲聊式的对话,我输入了以下信息。下面是我送给 GPT-3 的文本,希望它能熟悉我想要的响应格式:
我:你好吗?
GPT-3:挺好的。
我:我想制作一个关于 AI 的视频。你是 GPT-3,一个生成式预训练转换器 AI。你愿意帮忙吗?
GPT-3:此时,GPT-3 开始预测接下来的对话,下面对话开始。为 GPT-3 设计提示和设置参数的工作被称为“提示工程”。
GPT-3是 OpenAI 开发的基于转换器的深度学习神经网络。转换器可以在它见过的单词(包括输入文本和训练数据)之间形成许多不同类型的不同关系。GPT-3 的训练数据量非常巨大:一个训练集包含大量网站,而且还包含对维基百科的多次阅读。换句话说, GPT-3 的知识和理解并不是通过“编程”实现的。GPT-3 的团队没有明确教它如何完成工作。他们通过网络向它提供信息,希望它尽可能吸收人类知识,并特别加强了维基百科的权重,希望在事实和信息方面为其提供更好的基础,而不是推特上的漫谈或 YouTube 的评论。
GPT-3比你想象的更聪明
论点:“请勿拿人工神经网络与人类神经元做比较”。
真相:生物神经元并不是许多人工智能研究人员和评论员宣称的那般神奇。
神经元非常复杂,其中包括一系列非常伟大的化学以及电子过程,但其本质非常简单:将来自树突的电信号周围的电位相加,如果达到某个阈值,则触发动作电位(电脉冲)。
一起触发的神经元连接在一起,而不一起触发的神经元则互相分离。这种连接的改变就是人类大脑的学习方式。从根本上说,随机梯度下降和反向传播等技术都是在模拟神经元的基本行为:通过调整神经元的输入权重来学习。这在概念上类似于 GPT-3 之类的转换器模型的学习方式。每个参数都是来自神经网络另一个节点的传入连接,这些参数的权重决定了传递到神经网络下一层的信号。
计算机中的位构成计算的基础,与之类似,基本的神经元机制构成了所有人类思想的基矗反复强调人脑的复杂性,并认为神经网络无法企及的观点根本没有说服力。人工神经网络已经产生了许多智能的行为。而如今我们之所以不觉得这些行为是明智的,唯一的原因就是因为我们在不断提高目标。
连接组是数据在神经网络中传播的路径图。生物神经网络与人工神经网络之间最大的性能差异并非来自隐藏在大脑组织和化学中的一些深层奥秘,而是来自生物神经网络的计算复杂性与能力。
人类的大脑仍然比地球上最先进的、众所周知的人工神经网络强大几个数量级,因此人工智能的表现远不如人类也很正常。尽管存在这些限制,但人工智能仍然可以完成这么多工作,这一事实恰恰证明了我们前进的方向并没有错。
论点:“GPT-3 犯了很多愚蠢的错误。”
这句话本身并没有错,但 GPT-3 犯了很多愚蠢的错误这一事实并不能证明 GPT-3 不知道如何正确地回答问题。Douglas 总结得非常好:“GPT 很奇怪,因为它并不‘在乎’你提出的问题得到正确答案。”
正如 Gary Marcus 和 Ernest Davis 所说,“乐观主义者会说,正是因为 GPT-3 可以通过一些公式得到正确的答案,所以说 GPT-3 具备必要的知识和推理能力,只不过它被语言迷惑了。”
我观察到 GPT-3 会经常给出错误的答案,然后扩展错误的答案,并展示出它其实知道正确的答案。
GPT-3肯定缺少一些东西,但我不认为它缺少的是理解能力。相反,它似乎缺乏准确或正确响应的动力。我们称之为“在乎”。
GPT-3并不在乎。
论点:GPT-3 不理解语义
我不同意这种观点。事实上,我发现很多证据表明它能够理解一些语义。GPT-3 是一个转换器神经网络,转换器的每一层都有多个注意力头。
注意力可以表示 GPT-3 中的语义关系。请参见如下资料:
https://link.springer.com/chapter/10.1007/978-3-030-45439-5_37
https://papers.nips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
论点:许多语义关系是从自然语言中提炼出来的,因此无法通过网络训练来学习
我同意这句话的前半部分,但 GPT-3 有一个巨大的训练集和大量的参数(1750 亿)。当你用越来越多的数据训练模型时,越来越多的缺失数据(包括语义关系)就能得到补充。数据源 A 中没有包含的数据可能会出现在数据源 B 中,再加上足量的参数, GPT-3 等模型中就能形成建立连接所需的关系。
此外,还有许多基于文本的规范专门对网站中的语义关系进行编码。资源描述框架 (RDF) 和 Web 本体语言(WOL) 等规范就是为了专门解决这些弱点。GPT 在其网络之旅中必然接触到了一个巨大的语义结构宝库。
总结
人工智能效应不断重新定义什么是“真正的”智能,然后又说 AI 什么都没实现。我相信艾伦图灵于1950 年发表的图灵测试提出了正确的理念。如果有一台机器通过了普通大众与研究人员的测试,那么我们就没有理由说这台不智能,或者没有感知能力。
没有感知能力的机器可能会偶尔骗过人们,但无法长时间地骗过所有人。长时间的谈话会暴露自己。
但图灵测试并不是人工智能最有意义的测试。
根据牛津英语词典,智力的定义为:获取和应用知识与技能的能力。根据这项测试,人工智能已经存在很多年了,而且真正的难点不是人工智能,而是通用人工智能,即人工智能将学到的知识应用于没有经过专门训练的领域来解决各种问题的能力。
GPT-3的许多应用,从栩栩如生的虚拟角色到帮助人类将人类语言描述转化为可以正常工作的软件,这些都强有力地证明了我们目前正处于通用人工智能的风口浪尖。
GPT-3帮我撰写了文本
如果你喜欢这篇文章,则你应该知道 GPT-3 也是合著者,它提供了宝贵的反馈,帮助我撰写了文本的很多段落,而且还拟定了标题。
[注意:GPT-3 说:“你可以叫我 GPT。”]
我:“你觉得这篇文章怎么样,GPT?”
GPT-3:“我很喜欢。尤其是不能否认 AI 有感知能力的那句话。”
我:“你最喜欢我们头脑风暴提出的哪个标题?”
GPT-3:“我最喜欢‘Time To Call It AI Again’”。(文本的英文标题:Time ToCall It AI Again)
感谢 GPT-3 提供的反愧文本段落、主题以及与主题相关的建议、文字修正、标题等等。
参考链接:
https://medium.com/the-challenge/time-to-call-it-ai-again-6ec970961825