近年来,人工智能战胜了围棋世界冠军以及顶级扑克玩家,并且在机器翻译、目标分类、语音识别等领域取得了卓越的进步。然而,大多数的人工智能系统关注点都相当局限。围棋冠军“棋手”AlphaGo并不知道围棋是通过将棋子放在棋盘上来下的,也不知道棋子和棋盘是什么。当你给它一个长方形棋盘来代替正方形格子棋盘时,它需要从头开始接受训练。要让人工智能理解开放语境或运转家用多功能机器人,我们还有很长的路要走。在理解能力和灵活思考方面,人类大脑依旧远远胜过机器,因此观察人类大脑就是一个好的着眼点。
通常,人们会提出简单的理论:从行为主义到贝叶斯推理再到深度学习,据说这些理论可以解释一切人工智能。但是,引用费尔斯通(Firestone)和肖勒(Scholl)的话说,“大脑没有单一的运转模式,因为大脑不是由一个东西组成的。相反,大脑可以分为不同的部分,并且每个部分的运转方式都不同。大脑辨别颜色区别于计划假期,并且与理解句子、移动四肢、记忆事实和感受情感都不同。”人脑极其复杂且多样,它拥有150多个可清晰识别的大脑区域,大约860亿个神经元,没有上千种也有几百种不同的类型,万亿个突触,每个突触中都有数百种不同的蛋白质。真正智能且灵活的系统就像大脑一样充满了复杂性。任何一种旨在将智能减少到单一原则或者单一“主算法”的理论都必定是失败的。
传统的人工智能通常侧重于深层含义表示(internal representations),例如:为了呈现肯尼迪(Kennedy)总统1963年访问柏林的著名事件,人们会添加一系列事实,比如“地区(柏林,德国)”,“访问(肯尼迪,柏林,1963年6月)”。知识是由这些表达积累而成的,而推论则建立在这一基础之上。在此基础之上可以轻松推断肯尼迪访问了德国。
目前,深度学习尝试用一堆矢量来粗略地解释这一点,这些矢量以一种粗糙的方式捕获了一些正在发生的事情,却根本无法直接表示其意义。没有一种特定的方式来代表发生过“访问(肯尼迪,柏林,1963)”,或者“地区(柏林,德国)”,所有的事情都只是粗略的相似。深度学习目前在推理以及论证上遇到了困难,因为它不是用于表达精确的现实知识,一旦事实模糊,就很难得到正确的推理。被大肆炒作的GPT-3就是一个很好的例子。相关的系统BERT也不能可靠地回答诸如“如果将两个奖杯放在一张桌子上然后再增加一个,现在有多少个?”这样的问题。
人类认知是一种复杂的智慧,其中数十种或数百种不同的“行为主体”各自专门处理不同类别的任务。例如:喝一杯茶需要抓握主体、平衡主体、口渴机体和一些移动机体相互作用来完成。进化发展心理学中的许多内容都指向了同一个方向:心智不是单一的事情,而是很多。
具有讽刺意味的是,这几乎和当前机器学习的趋势相反,机器学习倾向于端对端模型,使用单一的同类型机制,几乎没有内部结构。Nvidia 2016年的驾驶模型就是一个例子,该模型放弃了感知、预测和决策等经典模块。取而代之的是,它采用了一种单一的、相对统一的神经网络来学习输入(像素)与一组输出(转向和加速指令)之间的直接相关性。这类事情的拥护者指出了“联合”构造整个系统而不是对每个模块单独训练的优势。如果我们可以用非常简便的方式构建一个大型网络,为什么要花很多时间去构造单独的模块呢?问题是这样的系统很难调试,并且很难具有我们所需的灵活性。Nvidia的系统在人类驾驶员的干预下通常只能正常工作几个小时,而不是几千个小时。人类驾驶可以从A点导航到B点并处理车道变更,而Nvidia所能做的就是在一条车道上走直线。
当顶尖的人工智能开发者想要解决复杂的问题时,他们经常使用一些混合系统。要在围棋比赛中取得胜利,需要将深度学习、强化学习、游戏树搜索和蒙特卡洛搜索相结合。例如Siri之类的问答机器人以及网络搜索引擎使用“厨房水槽”方法,都集成了许多不同类型的处理。因此,要真正实现人类智慧需要将更多的任务要求,以及更为系统化的机器学习来实现才行。