新智元报道
来源:Facebook AI
编辑:QJP
【新智元导读】Facebook AI 近期更新博客介绍了一篇新论文,即研究人员通过实验发现「易于解释的神经元可能会阻碍深层神经网络的学习」。为了解决这些问题,他们提出了一种策略,通过可伪造的可解释性研究框架的形式来探讨出现的问题。
人工智能模型到底「理解」了什么内容,又是如何「理解」的呢?
回答这个问题对于改进人工智能系统来说至关重要。而不幸的是,计算机科学家解释深层神经网络(DNN)的能力远远落后于我们用它们实现有用结果的能力。
一种常见的理解DNN的方法集中在单个神经元的属性上,例如,寻找出一个单独的神经元,这个神经元可以激活猫的图像,但不能激活其他类型的图像。
Facebook研究人员将这种对特定图像类型的偏好称为「类选择性」(class selectivity)。
「类选择性」之所以被广泛使用,一部分原因是因为它是直观的、易于理解的人类术语(也就是说,这些神经元是网络的「猫」部分)。
事实上,这些可解释的神经元,会自然而然地出现在经过各种不同训练的神经网络中。
例如,经过训练可以对许多不同类型的图像进行分类的DNN含有的某些神经元,这些神经元对拉布拉多寻回犬的激励最为强烈,也就是说,神经元是有选择性的。
研究人员发现强有力的证据表明「即使神经元在很大程度上不具有类选择性,DNN 也能很好地发挥作用」。事实上,易于解释的神经元会损害 DNN 功能,甚至使网络更容易受到随机畸变输入的影响。
Facebook 发现可以通过开发一种新技术,直接控制 DNN 的神经元的类选择性。如果这些方法没有经过严格的测试和验证,那么过分依赖于基于直觉的方法来理解DNN可能会产生误导性。为了完全理解人工智能系统,我们必须努力寻找不仅是直观的而且是经验性的方法。
「类选择性」:深度神经网络可解释性的工具
研究人员最近开始研究是否易于解释的神经元对 DNN 功能实际上是重要的,但不同的研究报告的结果有时是相互矛盾的。
为了解决这个问题,我们采用了一种新的方法来操纵类的选择性: 当训练一个网络来分类图像时,我们不仅指示该网络提高其分类图像的能力,我们还增加了一个动机来减少(或增加)其神经元的类选择性。
上图展示了操纵 DNN 中神经元的类选择性会如何影响 DNN 正确分类图像的能力(在 Tiny ImageNet 上训练的 ResNet18)。
每个点代表一个 DNN。点的颜色代表了 DNN 神经元中「类选择性」被使用或禁止的程度。X 轴显示 DNN 神经元之间的平均类选择性,Y 轴显示 DNN 对图像分类的准确程度。
灰点是中性的,既不使用也不禁止类选择性,代表了这种类型 DNN 中自然出现的类别选择性水平,用它作为比较分类准确性的基准。
通过阻止类别选择(蓝点) ,可以提高测试的准确性超过2% 。相比之下,鼓励类选择性(红点)对 DNN 的图像分类能力造成迅速的负面影响。通过放大数据的一个子集,以更好地说明减少和增加类选择性的影响。
通过在损失函数中添加一个类选择性来做到这一点。研究人员用一个参数来控制类选择性对网络的重要性。改变这个参数会改变我们是使用还是阻止易于解释的神经元,以及改变到什么程度。
通过调节参数,可以实现「类选择性」跨越所有网络层。实验结果如下:
1.当降低DNN的类选择性时,我们发现它对性能几乎没有影响,在某些情况下甚至提高了性能。这些结果表明,尽管 DNN 在任务和模型中普遍存在,但类选择性并不是 DNN 功能的一部分,有时甚至会对 DNN 功能产生负面影响。
2.当提高DNN的类选择性时,我们发现对网络性能有显著的负面影响。第二个结果表明,类选择性的存在并不能保证 DNN 正常工作。
走出实验室,生产环境中数据更复杂
与研究环境相比,部署在工业环境中的DNN通常需要处理更为嘈杂和更为扭曲的数据。
例如,一个研究用DNN可以从维基百科上看到非常清晰的猫的图像,而在工业中,DNN 需要处理一个黑暗的、模糊的猫逃跑的图像。
研究人员实验发现,类选择性的降低使DNN对模糊和噪声等自然失真更具有鲁棒性。而有趣的是,类别选择性的降低也使 DNN 更容易受到有针对性的攻击,在这种攻击中,图像被有意操纵以欺骗 DNN。
这个结果出人意料有两个原因: 第一,因为类选择性已经被广泛用于理解 DNN 函数; 第二,因为类选择性在大多数 DNN 中自然存在。
研究结果还表明,在缺乏类选择性的情况下,DNN自然地学习尽可能多的类选择性,而不会对性能产生负面影响。
所有这些工作都是 Facebook 进一步解释人工智能的一部分,包括为机器学习开发人员提供开源解释工具,以及与平台建立伙伴关系。
最终,这项工作将帮助研究人员更好地理解复杂的人工智能系统是如何工作的,并研发出更健壮、可靠和有用的模型。
参考链接:
https://ai.facebook.com/blog/easy-to-interpret-neurons-may-hinder-learning-in-deep-neural-networks