编辑/凯霞
准确指出神经活动如何随着学习而变化,不是黑白分明的。有人认为大脑中的学习或生物学习可以从优化的角度来考虑,这就是在计算机或机器人等人工网络中学习的方式。
由卡内基梅隆大学和匹兹堡大学的研究人员共同撰写的一篇新前瞻性评述(Perspective)文章,将机器学习与生物学习联系起来,表明这两种方法不可互换,但可以用它们来为大脑如何工作提供有价值的见解。
该文章以「How learning unfolds in the pain: toward an optimization view」为题,发表在《Neuron》期刊上。
大脑的变化如何导致学习?要回答这个问题,请考虑人工神经网络 (ANN),通过优化给定的目标或成本函数来进行学习。这种优化框架可能会提供有关大脑如何学习的新见解,因为神经活动的许多特殊特征可以通过经过训练,以执行相同任务的 ANN 来概括。
然而,在整个学习过程中神经群体活动如何变化的关键特征无法用优化来解释,也不是 ANN 的典型特征。在这里,详细介绍了其中的三个特征:
(1)整个学习过程中神经可变性的不灵活性;
(2)即使在简单任务中也使用多个学习过程;
(3)存在与任务无关的大型活动变化。
科学家认为,理解这些特征在大脑中的作用将是使用优化框架描述生物学习的关键。
优化框架下的人工和生物网络学习。
神经可变性塑造学习,但通常不灵活
大脑可以控制行为和神经变异吗?
众所周知,行为是多变的。但是,行为可变性实际上可能对学习至关重要,而不是成为嘈杂神经系统的意外后果,使我们能够充分探索奖励景观,并适应不断变化的环境。可以通过强化学习 (RL) 的视角来了解学习过程中行为可变性的潜在好处。各种研究表明:大脑调节行为可变性以促进学习。
大脑可以在多大程度上控制学习过程中的神经变异?当然,如果行为层面存在可变性,那么它也将存在于驱动该行为的大脑区域中。但令人惊讶的是,神经群体活动中存在的大量可变性似乎在学习过程中并未发生改变。多条证据表明,即使在限制性能的情况下,在数天或数周的实践过程中,群体协变的结构仍然有些不灵活。正如将在下面解释的那样,这种不灵活是学习环境中的一个重要考虑因素。
对神经变异性的限制限制了性能
脑机接口(BCI)学习研究提供了一组证据,表明总体协变结构可能是不灵活的。
猴子通过调节初级运动皮层中记录的 90 个神经元的尖峰活动,将计算机光标引导到八个视觉目标之一。神经活动与光标速度之间的关系由 BCI 映射定义。当引入新的 BCI 映射时,受试者必须学会修改他们的神经活动以提高性能(即,将光标引导到目标)。
感知学习的研究提供了另一条证据,即总体协变结构可能有些不灵活,即使它干扰了任务绩效。这与种群协变的存在有关,该协变干扰了从神经活动中解码信息的能力,即所谓的信息限制相关性。虽然信息限制相关性的大小可以通过学习来降低,但这些相关性即使在过度训练的任务中仍然存在。
神经变异的结构会影响学习的路径
即使神经协变的结构在很大程度上是固定的,它仍然可能是学习过程中神经群体活动如何随时间演变的关键组成部分。
为了解释为什么会这样,请考虑大脑必须使用来自任务的反馈来估计方向或梯度,在该方向或梯度中它应该修改其活动以提高未来的表现。在 ANN 中,可以使用微积分中的链式法则,在称为反向传播的算法中计算此梯度。然而,对于大脑而言,反向传播在生物学上可能不可信的原因有很多。研究表明,了解学习过程如何解释神经协变能力的结构,可能有助于了解观察到的学习路径。
神经群体协变影响学习路径。
生物网络和人工网络之间网络变异性的差异
大脑中的神经变异性通常与人工神经网络中的神经变异性大不相同。首先,如前所述,学习过程不一定会减弱或重构总体协变性,即使这样做会提高任务绩效。其次,考虑在具有相同预期运动的试验中存在大量人口协变,如 BCI 学习任务中所示。如果人工神经网络要作为大脑在学习过程中如何变化的模型,我们可能需要考虑能够捕捉上述人口协变特性的人工网络类别,例如基于随机速率的人工神经网络。
学习过程中大脑神经可变性的不灵活性,与可变性在强化学习 (RL) 方法中的典型作用形成对比。RL 代理通过有效探索其环境来发现最佳行为策略,其中探索表现为行为可变性。然而,学习期间人工代理网络活动的可变性可能与在大脑中观察到的可变性不同。
了解学习如何与大量神经可变性同时进行,可能会为 RL 智能体的开发提供信息。
多个神经学习过程始终在发挥作用
大脑中的学习涉及多个学习过程,即使是在简单的任务中
理解大脑学习的一个主要障碍是确定所观察到的神经和行为变化背后的学习目标。相比之下,在人工网络中,这不是问题,因为建模者决定如何使用任务的反馈来驱动学习。对于 ANN,建模者可以选择 ANN 在训练过程中尝试优化的目标函数。
确定潜在学习目标的问题很复杂,因为即使在简单的任务中,学习过程中的行为变化似乎也反映了多个学习过程。科学家将学习过程定义为具有自己的目标函数、学习规则/神经电路实例化的优化过程。由于行为是多方面的,因此可以优化行为的多个方面以实现给定的任务目标。各种研究表明,即使是将手伸向物体的简单任务,行为变化似乎也受到各种不同学习过程的驱动。
解开神经群体活动中多重学习过程的存在
正如上面所讨论的,即使是一个简单的任务,比如伸手去拿一个物体,也可能涉及多个学习过程。尽管从大脑的角度来看这可能是有益的,但它对寻求识别这些学习过程的神经基础的神经科学家提出了挑战。多种学习过程可能起源于不同的大脑区域,但多个学习过程的特征也可以在同一组神经元中共存。当这种情况发生时,作为神经科学家,如何将它们分开?
区分大脑中不同学习过程影响的主要方法之一是确定行为或神经变化的不同时间尺度。另一种是使用 BCI 范式的长期学习研究发现,经过数周的练习,受试者通过培养产生新的种群活动模式的能力。
BCI 学习过程中的快慢学习过程。
识别大脑关于学习的先验假设的重要性
生物体和人工体学习之间的主要区别之一是,对于生物而言,环境和奖励突发事件不断变化。为了处理在这样一个动态环境中学习的复杂性,大脑已经准备好了各种与生态相关的归纳偏差,而不是一堆优化工具的空白。
因此,理解大脑中的学习可能不仅涉及对任务所涉及的众多学习过程的描述,还涉及大脑归纳偏差的表征。总体而言,研究表明,在解释学习期间人口活动的变化时,大脑的归纳偏差可能与任务目标本身一样重要。
并非所有学习过程中神经活动的变化都是由任务绩效驱动的
人口活动的非特定任务变化可以与学习过程相互作用
在学习过程中,神经活动会发生变化以改善行为。理解这一过程的一种常见方法是:表征神经活动在学习经历期间或之后,在哪些方面发生变化或不发生变化。这种方法可以提供关于大脑不同部分如何有助于提高任务绩效的线索。
但并非学习过程中神经活动的所有变化都可以直接根据任务目标来解释。越来越多的研究观察到,学习过程中神经活动的变化并不总是由性能考虑驱动。我们将这些似乎与手头任务的细节无关的变化称为与任务无关的变化。在操作上,我们认为人口活动的变化是任务非特定的,如果它们在有或没有任何学习压力的情况下发生,或者如果它们在使性能变差的情况下发生。
存在任务非特异性变化时大脑中的逆向工程学习
我们怀疑,在尝试对大脑学习过程进行逆向工程时,考虑到任务非特异性的神经活动变化将被证明是一个关键因素。特别是,对于确定大脑学习目标的挑战,可能需要考虑人口活动中与任务无关的变化。
学习过程中神经群体活动的特定任务和非任务特定变化。
总的来说,对学习过程中神经活动如何变化的完整描述,可能需要考虑大脑在学习的同时管理的各种任务非特定过程的影响。鉴于许多任务非特定过程通常不受实验控制,这可能是一个挑战,导致这些过程对种群活动具有可变和潜在的影响。解决此问题的一种潜在方法涉及利用自然行为。
任务非特定活动的潜在好处
学习期间大脑中任务非特定的变化可以与 ANN 中的网络活动形成对比,其中任务非特定的变化通常很小或不存在。
为什么大脑会表现出如此大的非特定任务变化?回答这个问题可能会帮助我们建立更好的生物学习模型,同时也会激发人工学习的新方法。在执行任何给定任务时,大脑还必须管理一系列与任务执行没有直接关系的过程,例如唤醒、注意力和记忆。这些过程可能有自己的目标,虽然与它们所支持的任何过程相关,但与执行任务本身无关,因此会推动种群活动中与任务无关的变化。
大脑中任务非特定变化的另一个潜在好处是,它们可以通过使学习者对网络活动的大方差变化不敏感,或提供一种逃避局部最优或鞍点的方法,来鼓励稳健性。
总体而言,了解任务非特定活动在大脑中的作用,可能会启发开发灵活、强大的人工代理的方法。
挑战和未来方向
了解神经人群活动的突触可塑性
一般认为,大脑中的学习是由神经元之间突触强度的变化所控制的。类似地,ANN 经过培训,通过对人工神经元之间的突触强度进行修改来进行新任务。在这里,科学家扩展了这个观点,以考虑在神经人群活动的变化方面进行学习。
在可塑性与神经人口活动方面,研究学习的不同观点提高了未来研究的几个潜在问题。
首先,如何通过可塑性学习给定的任务是什么?
其次,只使用神经人群活动的记录可以理解哪些学习的方面?
第三,能否在学习过程中利用对神经种群活动的研究来指导寻找新的可塑性规则?
理解不完整或次优的学习
可能受益于数学优化和机器学习思想,对于生物学习,一个令人费解的方面是:为什么生物学习通常是不完整的问题。
如果大脑中的学习是通过优化过程发生的,我们如何理解这些失败模式?在前面提到了两种可能性:大脑的归纳偏差和任务需求之间的不匹配,以及神经活动中存在任务非特异性变化。其他可能的解释可能来自机器学习,其中已经广泛研究了不完整或失败学习的原因。
使用人工神经网络作为理解大脑的人工模型生物
使用人工神经网络作为人工模型生物(artificial model organisms),可能是理解大脑如何通过优化学习的关键工具。在这里,概述了人们可能采取的不同方法。
首先,人工神经网络可以作为开发新方法的测试平台,这些方法从神经活动的记录中推断出优化框架的组成部分。
其次,人工神经网络可以阐明优化框架的组件如何相互作用。
最后,人工神经网络可以帮助我们建立学习如何在动物一生中进行的模型。
结论
为了学习,大脑必须发现导致行为改善的神经活动的变化。我们如何开始理解大脑中驱动这些变化的复杂过程?学习优化框架表明,学习过程中神经活动的变化可以理解为目标函数、学习规则和网络架构的自然结果。正如我们在此提出的,将优化框架应用于生物网络需要我们关注大脑中的神经活动与典型人工网络中的网络活动不同的关键方式。特别是,我们提出了关于从神经群体活动研究中学习的三个关键观察结果,认为需要通过大脑学习模型来解释这些观察结果:(1)整个学习过程中神经变异性的不灵活性,(2)使用即使在简单的任务中也有多个学习过程,以及(3)存在与任务无关的大型活动变化。在考虑神经群体活动时,这些挑战很明显,但从突触权重变化或单单元调谐特性的有利位置很难检测到。
优化框架是理解大脑学习的一个有希望的起点。但正如我们所见,即使在相对简单的任务中,学习过程中神经群体活动的变化也并不总是很容易解释为优化过程。在理解更复杂、更自然的任务是如何学习的背景下,这种困难可能更加突出。
展望未来,将人口活动特征纳入大脑学习的新计算模型和新的实验设计,可能对大脑学习过程进行逆向工程的下一步有用。
论文链接:https://doi.org/10.1016/j.neuron.2021.09.005
参考内容:https://medicalxpress.com/news/2021-10-pain-machines.html
人工智能×[ 生物 神经科学 数学 物理 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。