人工智能的概念提出已经50多年,人类在此领域做了很多探索与尝试,也取得一些成绩。是的,对于人工智能的现今表现来说,只能算是“一些”。但是,不可否认,某些时候有点“智障”的人工智能早已在很多场景得到应用。未来,它的应用场景将会更广泛。
题图来自Unsplash,基于CC0协议
全文共 4962 字 5 图,阅读需要 10 分钟
BEGIN
谈到人工智能,相信各位读者都不会陌生,字面意思也很容易理解。
有些人眼里,人工智能已经是一种很成熟的计算机技术,可以帮我们做很大的事情,大到预测局部地区明天的天气如何、分析金融市场的股票交易波动;也可以帮我们做很小的事情,小到拍照时的贴纸自动追随人脸,推送我感兴趣的新闻或商品,这些都可以用人工智能实现。
但是在另一些人眼里,人工智能还是待在实验室的新事物,它离我们的生活还很远,我们现在接触的人工智能最多算是个人工智障,现在炒得大热的人工智能概念只是资本游戏的噱头,其实它什么都没有改变。
人工智能并非万能钥匙,并非所有事情都能用人工智能解决。但同样,人工智能也并非是虚无缥缈的新技术,它的身影已出现在生活中的方方面面。
在日常工作中,我发现很多身边朋友以及互联网从业者同样对人工智能存在不少误解,我尝试结合我过去的一些经验,聊一聊我的看法。
在此我们先聊聊,人工智能的概念为啥突然这么火。
一、人工智能为什么突然崛起?
很多人都误认为,人工智能是近几年才被创造出来的新概念。
实际上,最早提出“人工智能”这个概念是在1956年美国达特茅斯学院的一次学术会议上。虽然当时这个会议只进行了一个月,也没有取得什么实质性的进展,但是这个会议首次正式提出“人工智能”一词,并且沿用至今。
尽管在当时,对于人工智能的研究进展非常缓慢,但是经典的科幻电影《2001太空漫游》还是表达了当时的人们对人工智能的美好幻想。
又经过了近50年的发展,人工智能从电影的幻想逐渐走进了人们的日常生活,并且成为了各个领域的得力助手。
这个过程并非一帆风顺。
上世纪80年代前后,日本人研究了一种能够模拟人类专家决策能力的计算机系统,称为专家系统。这个专家系统实际上就是一个巨大的知识库,再通过一些推理规则让这个系统能够根据提问找到答案。
这种专家系统能够根据输入的问题提供回答,是当时人工智能技术的代表,一定程度上也是计算机“智能化”的表现。因此这个项目得到日本政府的高度重视,投入了大量的人力物力研究,希望能打造一个计算速度更快、知识储备量更高的专家系统。
受到日本人的刺激,同期美国和许多欧洲国家也纷纷进入到这个赛道中。
可以预见的是,专家系统最初取得的成功是有限的,因为它无法自我学习并更新知识库,维护成本极高。就像以前没有联网的车载导航系统一样,每年都需要更新地图;否则这个系统一年以后就废掉了,无法给出正确的指引。
专家系统的失败,也让人们对于人工智能的信任产生了巨大的危机。硬件市场的溃败和理论研究的迷茫,加上各国政府和机构纷纷停止向人工智能研究领域投入资金,导致了数年的低谷。
好在资本不再关注人工智能的时候,人工智能的理论研究还在缓慢进行中。
1988年,美国科学家 Judea Pearl 将概率统计方法引入人工智能的推理过程中,这对后来人工智能的发展起到了重大影响。
1989年,AT&T 贝尔实验室的 Yann LeCun 和团队使用卷积神经网络技术,实现了人工智能识别手写的邮政编码数字图像。
在此后近二十年,人工智能技术逐渐与计算机技术、互联网进行深入融合。得益于大规模并行计算、大数据、深度学习算法和人脑芯片这四大催化剂的发展,以及计算成本的降低,使得人工智能技术突飞猛进。
它利用计算机和互联网的发展机遇,化名为商业智能、数据分析、信息化、自动化等等,渗透到社会发展的每个角落。
一方面,互联网的推广为人工智能创造了很多落地应用的场景,体现出真正的价值;另一方面,计算机软硬件的升级为人工智能提供了强大的运算力,以前在理论上才能实现的算法得以落地,让人工智能在越来越多赛事上创造奇迹,甚至超越人类。
2011年,沃森在自然语言常识问答比赛中战胜人类选手,ImageNet 挑战赛上图像识别算法准确度超越人类;
2016年,AlphaGo 战胜李世石,成为第一个战胜世界围棋冠军的AI机器人;
……
二、是人工智能,还是人工智障?
近两年人工智能被人们诟病最多的地方是:人工智能体现不出智能。
很多人对人工智能的认知都是分裂的。
一方面媒体不断报道人工智能又取得了什么样的新成果,国外各路大咖让人们要警惕人工智能的发展,人工智能还被纳入我国发展的规划中等。
另一方面,新闻里传出自动驾驶发生事故,家里的智能家具表现地像个智障一样,资讯平台总是傻傻地推同样类型的新闻……这些现象都让我们疑惑,人工智能到底智能在哪里?
回答这个问题之前,我们有必要搞清楚:强人工智能和弱人工智能的区别。
最初,在达特茅斯会议提出人工智能一词时并没有强与弱之分,普遍认为人工智能就是让机器拥有思想,能够像人类一样决策。当时,各种算法的研究也是奔着这个目标而去,希望能够模拟人类决策的方式赋予机器真正的智能。
但很快就有人发现:在这种方式下实现的人工智能并非真正的智能,只是对人类智能的模拟。
美国哲学家 John Searle 提出了一个思维实验:中文房间(Chinese Room Argument),它是这样的:
想象一位只会英语的人身处一个房间之中,这间房间除了门上有一个小窗口以外,全部都是封闭的。他随身带着一本写有中文翻译程序的书,房间里还有足够的稿纸和铅笔。
写着中文的纸片通过小窗口被送入房间中。房间中的人可以使用他的书来翻译这些文字并用中文回复,虽然他完全不会中文。Searle 认为通过这个过程,房间里的人可以让任何房间外的人以为他会说流利的中文。
值得注意的是,这本书仅仅是语法的对应,并不涉及到任何语义的说明。房间中的人,只需要按照对应的回答,拼凑出相应的中文字符递出去即可。在这个过程中,他并不理解问题和他所写的答案是什么意思。
Searle 认为,人工智能就是这样工作的。他认为计算机根本无法真正理解接收到的信息,但它们可以运行一个程序,处理信息,然后给出一个智能的印象。
例如图像识别技术,它的工作原理就是将颜色变成数字编码,再从这些数字编码中找到特征,查找字典,找到对应的解释然后显示出来。实际上,计算机压根不知道自己识别的到底是飞机还是兔子,只是字典告诉它这个特征很大概率对应的是“飞机”这个单词。
绝大部分算法在本质上都是在玩概率的游戏,不同的只是在模型训练时需要的信息不同,以及计算出来对应“飞机”的判定方式不同。
当前所有被广泛应用的知名模型,都是通过矩阵运算训练数据来获得某种概率分布。复杂模型的概率分布通常是高维的,这里又会引申出各种数学方法,但本质的思想依旧是想通过概率分布来描述训练数据的特征。
有了这些,就可以使用相同的概率分布去描述同类的数据,从而实现所谓的“识别”或“预测”。
实际上,并非模型真的像人类一样理解了什么是“飞机”,只是通过这种方式,模型能够大概率得把长得像飞机的图片识别出来。后来业界也普遍认识到这一点,因此把人工智能这个概念又划分为强人工智能与弱人工智能。
强人工智能流派仍然追求让计算机拥有人类的心智与意识,具有自主选择行为。就像西部世界中从固化程序逐渐演化出自我意识的梅芙一样。但是强人工智能的研究难度较大,市面上还没有成熟的应用。
而弱人工智能更像是一个解决特定问题的工具。这类问题的特点是可以通过统计,归纳出经验并形成解决方案,而这种解决问题的实现方法被称为“机器学习”。
机器学习最基本的做法,是使用算法解析数据、从中学习数据的规律,然后对真实世界中的事件做出决策。与传统的编程方式不同,机器学习是用大量的数据进行训练,通过各种算法从数据中学习“如何完成任务”。
例如量化交易、人脸识别和 AlphaGo 都是擅长于单个方面的机器学习模型。在训练模型时,我们只教会 AlphaGo 下围棋的技巧,所以它只能会下围棋。如果你把一道数学题丢给 AlphaGo,它显然是无从下手的。
所有的机器学习模型都只能完成特定的任务,很多时候我们通过组合的方式满足更多的场景。例如智能音箱本质上是一个语音识别的模型结合NLP(自然语言处理)模型,它并非真的能听懂我们说的话代表什么含义,仅仅是能够把接收到的信息转化为模型的输入,在字典中找到对应的输出而已。
从机器学习的特点可以看出来,如果想通过统计归纳经验,数据的数量与质量是决定性条件。
没有数据,就没有人工智能。也就是说在你没有作出同类别行为,或者是与你行为相近的人群较少时,人工智能是没有办法作出判断的,这也是人工智能变成人工智障的重要原因。
当行为增加,数据慢慢变多,数据质量逐渐上升时,你会发现预测越来越准确,人工智能通过大数据也能做到真正的“想你所想”。
三、什么问题适合用机器学习解决?
前面我们说弱人工智能像工具,专门解决某个特定的问题。
但是否所有问题都适合用机器学习去解决呢?很明显答案是否定的。
适合用机器学习去解决的问题,主要有三个基本条件。
有规律可以学习:这类问题必须存在共性,有内在的规律等待被发现;
编程难以实现:数据之间关联关系复杂,很难通过穷举的方式列清楚规则;
有足够多能够学习到规律的数据:没有数据支撑,机器学习就像搭好了结构少了砖瓦的房子。
举个栗子:
我们熟知的垃圾邮件检测是一个使用机器学习解决的经典场景。最常见的垃圾邮件是各种类型的营销邮件,并且这种邮件的发送方通常是各类用邮箱注册过的网站。
在这个场景中我们发现,营销邮件一定是包含某些产品信息或推广信息,所以这类邮件有一定的规律。但是因为不同产品种类各异,我们很难用编程的方式把所有规则写出来。
就算能写出来,发送方也会设计各种规则躲避系统的检测。同时,我们很容易找到大量垃圾邮件与正常邮件作为样本数据。因此,这个场景非常适合用机器学习的方式解决。
但如果我们想判断新邮件包含多少个字符,恐怕就不太适用。虽然这个问题同样难以用编程解决并且有大量历史邮件支持,但包含多少个字符这个问题的随机性太强,没有规律可循,因此不适合。
由此可见,机器学习不是万能的,不是所有的问题都能用它去解决。
机器学习擅长通过已知经验找到规律去解决问题,如果面对的问题没有任何规律可循,完全是一个随机事件,那么就算使用再复杂的机器学习算法也无济于事。
值得注意的是,很多问题看似没有规律,实际上是因为人类处理不了数据量太大的情况,看起来杂乱的数据掩盖了背后的面目。这类问题并非真的无迹可寻,只是需要用正确的方法。
我们通过机器学习可以对大量数据进行分析获得规则,并利用规律对未知数据进行预测。不但能从数据中看到人类能看到的规律,更重要的是能在更短的时间内发现人类看不到的规律,我想这就是机器学习最大的应用价值。
在医学领域,通过图像识别技术,已经实现让计算机自动识别肿瘤细胞,帮助医生快速进行医学诊断;
在制造业,通过强化学习的方式自动检测产品缺陷提高出品率,帮助企业加快生产周期降低生产成本;
在金融领域,通过神经网络技术可以避免传统程序化交易因为无法根据实时发生的市场变动调整算法,从而造成资产损失的风险;
在零售、安防、航空、互联网等等不同领域,机器学习都有广泛的应用,它已经对我们生活的产生了巨大的变化。
最后,我们必须认识到,目前的人工智能并非真正的智能,只是一种模拟人类行为的智能。而真正的智能,离我们的生活还非常遥远。
但值得庆幸的是,仅是模拟人类行为的智能已经能够给我们的生活带来了如此大的便利。相信随着技术的发展,我们能够做出更多超越想象的场景。
/ END /