人类一直梦想着能够直接通过思想与机器沟通。在科幻电影《黑客帝国》中,人类通过脑机接口直接将意识上传至数字世界;《三体》中的“思想钢印”则通过脑电波操控人类信念。如今,这些幻想正在被人工智能大模型逐步解构为现实。一场关于“读心术”的科技革命正在悄然展开。
人脑仅重约1.4千克,却承载着人类意识、记忆与创造力的终极奥秘。这个由860亿神经元、百万亿突触连接构成的神经网络,每秒钟进行着数万亿次电化学信号的传递,其复杂程度让最先进的超级计算机也相形见绌。
一般来说,检测大脑活动的手段有脑磁图(magnetoencephalography,简称MEG)、脑电图(electroencephalography,简称EEG)、功能性磁共振成像(functionalmagnetic resonanceimaging,简称fMRI)等,虽然这些技术能够捕捉到大脑活动的一些迹象,但对于深入理解大脑的工作机制,仍然显得力不从心。
最近,基于大语言模型(LLM,Large LanguageModel)的神经解码技术取得了突破性进展,耶鲁大学、达特茅斯学院和剑桥大学的研究人员开发了一种模型MindLLM,可以将功能性磁共振成像(fMRI)信号解码为文本。简单来说,就是MindLLM可以读懂你的大脑在想什么,并用文字描述出来。
这项研究将神经科学的注意力机制与大型语言模型(LLM)相结合,通过创新的方法提高了从fMRI信号中捕获多种语义的能力与准确性,对神经科学和脑机接口应用具有重要意义。
MindLLM如何“读心”
MindLLM的设计包括一个fMRI编码器和一个大型语言模型。
首先,fMRI扫描将大脑划分为称为体素(voxels,类似于3D像素)的微小3D单元。因为不同人的大脑结构不同,所以当我们运用标准化大脑图谱比对时,会出现很大的差异化结果,因此每个受试者需要不同的输入维度。
由于大脑功能在个体之间保持一致,即使体素分布不同,也有可能获取同样的信息。研究者们为此设计了一种具有注意力机制的fMRI编码器,可以适应不同的体素值,将体素的功能信息从原始差异化的fMRI数值中分离出来,从而提高了个体之间的一致性。
而要实现通用的fMRI到文本解码,需要一个合适的脑指令调谐(BrainInstruction Tuning,简称BIT)数据集,运用大模型LLM处理大量与图像相关的fMRI数据,并与相关的文本注释相关联,进一步增强了系统从fMRI信号中提取不同语义表征的能力。
fMRI数据包括受试者执行一些任务时的脑部扫描信息,这些任务包括让受试者查看图像并回答有关的简单问题。例如,给定一幅旁边有一些字母的时钟图像,受试者的任务可能是确定图像中的字母。又比如给定一幅棒球运动员投掷动作的图像,受试者则可能被问及投掷的是什么物体。
因此,只要给定fMRI数据,MindLLM就能生成文字,描述扫描到的大脑活动。
MindLLM的核心突破可以理解为给AI装上了两套“思维翻译神器”:
首先传统脑部扫描数据就像杂乱无章的无线电波,MindLLM通过引入注意力机制,对于fMRI数据进行创新处理,可以自动过滤掉干扰信号,精准锁定与思维相关的关键脑区活动。
另一方面,研究人员创建了BIT数据集,给AI进行了“跨学科特训”,既学习看图说话,又练习文字推理。这套包含感知、记忆、语言处理和复杂推理等模块的训练体系,相当于让AI掌握了破解不同思维类型的“密码本”,确保MindLLM可以解码人类思想的各个方面。
MindLLM的潜在应用意义重大。它可以用于开发脑机接口,让人们能够用自己的思想控制设备,从而彻底改变残疾人的辅助技术。该模型还可以提供对认知过程的见解,帮助研究人员更好地了解大脑是如何工作的。
虽然MindLLM在处理大脑活动信号方面展现出了巨大的优势,但该研究仍处于初期阶段,只能理解静态的图片,对于动态影像的处理还仍需探索,而且实际操作需要耗费大量的时间和人力物力,研究仅能存在于实验室环境中,对于大规模实际应用仍存在一定距离。
其他“读心术”研究
而在MindLLM之前,科学界在运用人工智能处理大脑活动信号方面还有许多其他的探索。
例如Meta推出的Brain2Qwerty通过分析大脑活动信号,将人的思维直接转化为文字。研究人员让受试者佩戴EEG设备,然后让他们阅读或思考一些语句。
Brain2Qwerty通过对这些大脑信号的分析,尝试将其转化为对应的文字输出。虽然目前该技术的准确率还有待提高,但已经展示出了将思维转化为文字的可能性,这对于那些因瘫痪等原因无法正常交流的患者来说,无疑是一个巨大的希望。
德克萨斯大学奥斯汀分校(Universityof Texas atAustin)的一个科研团队也在进行类似的研究。他们专注于利用人工智能大模型可以将患者的想法转化为连续的文字,而无需患者理解口语,这种方法最终可能帮助失语症患者。
未来应用广泛
虽然目前众多技术的准确率还有待提高,但已经展示出了将思维转化为文字的可能性,这对于那些因瘫痪等原因无法正常交流的患者来说,无疑是一个巨大的希望。
人工智能大模型在处理大脑活动信号方面的发展,具有重大的意义。不仅可以帮助研究者探秘大脑,帮助患者提高生活质量,还可能带来全新的交互方式和生活体验,改变我们与周围世界的互动模式。
这种解码思想的能力长期以来一直是科幻小说的主要内容,可能用不了多久它就会成为科学事实。但这种技术的狂飙也会带来很多问题,意识的私密性面临崩塌风险,脑电波可能沦为数据流,思维隐私安全如何确保?
Nature的一篇研究曾表明:大模型参数量越大,越倾向于用虚构答案掩盖无知,这种“脑雾”现象与人脑认知衰退的相似性,迫使人类重新审视智能的本质,如果AI的“幻觉”与人类的创造力同源,我们是否该容忍机器以错误探索真理?
参考资料:
[1]https://www.discovermagazine.com/mind/brain-scan-ai-system-can-describe-what-you-see
[2]https://medicalxpress.com/news/2025-02-brain-imaging-text-mindllm.html
[3]https://en.wikipedia.org/wiki/Functional_magnetic_resonance_imaging
[4]AlexHuth and his team create an AI system that can translate brainactivity into text - Texas Connect
[5]https://www.marktechpost.com/2025/02/09/meta-ai-introduces-brain2qwerty-a-new-deep-learning-model-for-decoding-sentences-from-brain-activity-with-eeg-or-meg-while-participants-typed-briefly-memorized-sentences-on-a-qwerty-keyboard/
[6]https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0105225
[7]https://en.wikipedia.org/wiki/Human_brain#Research
[8]JonesN. Bigger AI chatbots more inclined to spew nonsense-and people don'talways realize[J]. Nature, 2024.
编译:杨雨鑫
策划:刘颖 张超 李培元 杨柳
审核:苏湛中国科学院大学副教授,历史系副主任
中国科学技术史学会科学文化专委会主任