背景:人工智能作为引领第四次科技革命的战略性技术,给社会建设和经济发展带来了重大而深远的影响。人工智能在纯技术层面是价值中立的,但在实际应用中,兼具创造性和破坏性。可以看到,数据隐私、算法偏见、技术滥用等安全问题正给社会公共治理与产业智能化转型带来严峻挑战。
此背景下,张钹院士发表题为《人工智能的治理与创新发展》演讲,他强调:“特别是要讲发展第三代人工智能的必要性。”
首先,讲人工智能的治理。信息产业发展与技术发展过程,也出现过安全问题。信息系统安全性的问题,主要来自于大型软件设计漏洞或者缺陷,或利用缺陷对系统进行攻击,进而产生安全问题。
这时候,安全问题的性质主要就是由于设计的缺陷造成的,所以,相对来讲它是容易克服的,一旦发现漏洞之后,把漏洞补上就解决了。
到人工智能技术发展之时,出现完全全新的安全问题。这个安全问题不是来自于设计的考虑不周到,主要来源于算法本身的不安全。
所以,这个问题是非常难以解决的。
因为它是由算法本身造成的,所以必须对算法本身做一个彻底的改变,才能完全解决安全问题。人工智能的安全问题之所以这么被重视,主要原因就是它的安全问题更加本质,更加难以克服。
所以,我们要解决这个问题,主要是从两个方面入手。
一个方面就是治理。
治理有两个含义:一是防止人工智能技术被误用,就是无意识的误用,因为人工智能算法本身带来不安全问题,是很难被预先发现。
所以,有时候在使用过程中间会出现很多错误,如果我们在使用的过程中不注意到这个问题会产生无意识地错用,造成严重后果。
第二类问题是有意识(故意)地滥用人工智能技术,就是利用人工智能算法的不安全性,去造成对人工智能系统的恶意攻击或者滥用,这个必须要通过法律法规来解决,加以制止。
今天,我主要讲算法的不安全性如何来通过技术的创新,解决人工智能算法的不安全性问题。我们提出来发展第三代人工智能,得先说人工智能算法的安全性来自何处?
算法的不安全性,由于第二代人工智能引起,第一代人工智能并没有存在这个问题。
第二代人工智能我们用数据驱动的方法,基本上无论对图像处理,语音处理,文本处理是利用深度学习技术。
大家可以看到,在数据样本比较多的情况下面,识别率可以做到很高,无论是语音或者图像。但是,这里存在非常本质的问题就是,这个算法非常脆弱,非常不安全。举图像识别的一个例子,一张人类和计算机看起来都是雪山的图像,但是,在这张图像上加噪声,右边和左边的图唯一的区别是多一点噪声。人的眼睛看这张图像当然是雪山,但计算机系统把它认为是一条狗,而且算法的置信度是99.99%,从这里就可以看出来,人类的视觉跟计算机的识别完全是不一回事。同时,也说明这个人工智能的算法是脆弱的,容易被攻击的,容易被欺骗的。
原因何在?
非常简单。这个算法本身,我们通常讲的“黑箱学习算法”,一张马的图片,告诉计算机这是马,但其实,计算机根本不知道马在哪儿,不知道这个图里面马在什么地方。计算机怎么做“识别马”这个事情?
计算机提取这张图片的局部特征,来马跟其他动物区别开来,换句话讲计算机不是提取马本身的语义特征,而是提取这张图里(不仅仅是马)所有的底层特征,跟其他动物进行比较,计算机是用底层特征对动物加以区别。
所以,从原理上来看,存在根本性的问题,这种处理方法的局限性表现在:处理图像,是放在特征向量空间中来处理,放在连续数据空间里面进行技术处理,进行分类。
计算机这个分类根本跟“认知”完全不是一码事。换句话说,计算机不是去“认识”这个马,而是用分类的方法把马和其他动物区分开来。
这个算法本身就是不安全的,就是容易受攻击的,我们如何克服?
这是我们提出来第三代人工智能的动机。
发展第三代人工智能包含三个方面的内容:
一个方面的内容是最主要的,我们要建立一个可解释的鲁棒人工智能理论,人工智能发展至今,所以走过非常曲折的道路,进展比较缓慢,根本的原因就是它没有一个坚实的理论基础,这个跟信息科技的发展完全不同,信息科技的发展的初期所有理论都建立起来了,所以信息科技发展非常顺利,一路高速发展,因为三大理论,图灵机计算理论、通信理论、维纳控制论,都是在1936年,两个在1948年建立的,人工智能缺少这个理论。
我们必须要建立一个人工智能的理论,这是第三代人工智能一个任务,这样才有可能开发出来安全可信、可靠、可扩展的人工智能技术,这样才有可能推动人工智能的进一步发展。
如何把知识驱动和数据驱动结合起来,充分发挥知识、数据、算法和算力四要素的作用?
为什么把知识放在前头?因为知识对人工智能来讲它的重要性大于数据的重要性。
我们提出来的“三空间的混合模型”,意思就是说我们把对语义的处理,就是原来符号、知识的处理,原来知识处理是离散的符号空间里面来做的,这是第一代人工智能做的事情。
第二代人工智能是把数据放在连续向量空间里面来处理,所以,这两个空间是相互隔离的,没有办法在连续空间里面处理到语义。
换句话,讲我们没有办法认识在连续空间里的语义,比如,计算机处理图像,是没办法“认出”马。
如何做这个事情?
我们利用这个模型,把这两个离散空间的模型跟连续空间的模型打通,打通这个基本是两种方法:
一种方法是把所有处理的都放在一个连续空间里,作为向量进行处理。这个我们叫做范式一。
我们看怎么做,这是一个博士生做的工作。
为什么在连续向量空间中间用数据驱动的方法没有办法认识到这个问题的语义。
计算机怎么区别鸟?不是用鸟的外形,来区别鸟跟其他动物的不同,只是从中间提取了最明显的特征,就是鸟的头部里头有一点发白的这部分,用非常局部的特征来区分鸟跟其他的物体。
这个就产生一个问题了,这样的方法是非常容易受到攻击的。
怎么克服这个问题?
关键的问题是必须要把它加上知识,它为什么找不到,或者把别的物体看成是鸟,因为它根本不认识鸟,毫无鸟有关的知识。
我们现在一种办法做的比较多的,包括瑞莱智慧团队做的工作,是在原来数据驱动基础上面把相关的知识放到向量空间来处理,现在全世界最主流的工作也是这么来做的。
原来的深度学习方法,刚才说过是不安全的,很容易受到攻击的。
如何克服这一点?
我们的办法就是尽可能通过各种各样的途径加上知识,这个知识我们也想办法用概率或者向量的方法表达出来,这样可以跟原来算法结合起来。
介绍一些比较简单的工作,在训练的时候,把对抗样本进行训练,告诉计算机,这个样本尽管在某些局部特征上跟鸟是一样的,但不是鸟,我们就用这个对抗样本训练。
告诉计算机这个知识,就是说这个是对抗样本,你不可以把它识别为“真的样本”。我们可以看到,这个加上去是肯定有效的,但我们也可以看到这种办法只是治标,也就是你告诉他这种对抗样本不是真样本,他只对这种对抗样本有识别能力,对抗样本换成另外一种形式它就不行了。
我们正在这方面做的工作,清华大学团队瑞莱智慧的很大一部分工作属于这种性质。比如我们做的贝叶斯深度学习,把贝叶斯的一些相关的知识,相关的先验知识、后验约束等等加上去,这个做了肯定效果是更好。但我们清楚地知道,这个办法本身只是治标。
现在,全世界主要的工作沿着这个方向做,可以充分发挥深度学习的某些优势。因为深度学习它的优势就是可以利用各种各样数学工具,在连续空间里面处理的时候很容易用上各种各样数学工具来做处理。比如说,我们现在做的珠算平台里面很多算法,比传统深度学习算法,无论在可解释性、鲁棒性上面都有提高。
但是,应该看到这条路也是很艰巨的。
只能够针对一个特定条件下的特定工具找出一些办法,不是彻底解决问题。
但这条路也必须要走,因为对于计算机来做这件事情相对来讲,有很多优势,就是刚才讲的用连续向量进行处理的话,很多数学工具可以用上,计算机可以发挥很大的作用,但这种方法还是有很长的路要走。
一个根本解决问题的方法是把这两个空间打通,换句话讲,人类在图像识别的时候,并没有把图像分割来看。换句话讲,我们告诉计算机这是一个马的图像,但计算机并不知道马在哪儿,根本也不知道何处有马,也就是说“识别马”和“马的图像的分割”,这两步应该同时做。
我们现在并没有同时做这个事情,不认识马,分割马也很困难。当我们做图像分割的时候,可以把各个部分分割出来。
“计算机根本不知道马究竟在什么地方?”这个问题怎么来解决。
回到一个我们现在用的模型的问题,我们现在用的人工神经网络,跟大脑的神经网络就是视神经网络差别太大了。我们缺少了好多东西,如果简单前向神经网络只有前向来连接,人类大脑里面其他机制没有用上,反馈连接、横向连接、注意机制、多模态、记忆等等没有用上。
没有用上这个缺少什么?缺少一个最大的问题,知识和模型。
人类看马的图像,一下子知道马在什么地方,为什么?因为认识马。
我们通过什么手段认识马?是通过无监督学习,我们小的时候非常重要的任务就是做无监督学习,无监督学习的内容就是要建立你周围常见物体的模型,所以,实际我们两岁以前有了狗和猫的模型。人类认识了猫和狗,通过举一反三很容易建立起来马的模型。换句话讲,我们之所以能够识别马,就是因为早已认识马,人类的大脑里面留有马的模型。
现在问题是,这个模型在计算机里面怎么建立?
怎么通过无监督的方法进行学习?
这方面我们做了初步工作,这也是我们博士生做的工作,是主流的方法。想办法通过学习,把编码在那儿,所有马的模型建立在隐变量里面,学习了很多马的模型,采样隐变量。所以,实际上这个模型是通过无监督学习或者预训练来建立的,目前大家也做了很多工作。
我们建立三元生成模型来讲,利用这个建立起来的模型进行分类,分类的准确率也会提高。
我要告诉大家,这条路也还是非常艰巨的,因为你要建立刚才讲的物体的模型,特别是马这样的模型,马是非刚体的,会各种各样变形,所以如果涉及到不同马的形,不仅仅是视觉不同,可能躺下来的马跑起来的马根本不是一回事,所以建立什么样的模型?这还是需要探讨的问题。
换句话讲,我们的结论就是说,这个也可以通过强化学习的方法来建立。
所以,这条路也是非常艰巨的。这个模型怎么建立?建立什么样的模型,这个模型是确定性的,是概率,还是通过什么方式来进行学习?。
我表达的意思是,发展第三代人工智能是一项非常长期的任务,人工智能的安全和治理也是长期任务。问题是从算法本身的不安全性引起的,所以,要彻底的去解决这个安全问题有很长的路要走。
所以,在解决人工智能安全性问题必须两手抓,一手抓治理,这个治理也不是短期的任务,是长期的任务。第二手抓创新发展,这个创新发展要克服人工智能算法本身不安全性。这也是一个长期的任务。
虽然有两种途径,但是都非常困难。
所以,总体来讲建立第三代人工智能是一项长期的任务,无论是范式一,还是范式二都有很长的路要走。既要抓发展第三代人工智能,走创新发展的道路,也要抓人工智能的治理,两手并重,好的,谢谢大家!
注:演讲地点为,2021年8月2日-3日在京召开的首届全球数字经济大会之人工智能产业治理论坛作为大会的平行论坛。演讲全文整理后,并未能与张院士本人确认。