从AI绘图到ChatGPT,AI工具正在短时间内不断地突破我们的认知界限。
但这些AI工具的发展似乎仍旧没有停下来的迹象,反而越来越迅速,不断取得新的进展
就比如说,最近的研究发展让AI拥有了“读心术”。
前几天,twitter上的一则推文,介绍到“有研究团队成功让AI读取了人类的思想”,引起了一波互联网的轰动。
有网友表示,AI技术更新的速度是如此之快,而我们正在见证AI领域最疯狂的发展时期。
虽说一开始不太相信,但在看过具体的步骤之后,我也只能感叹道:真的太神奇了。
这项研究,是由大阪大学的前沿生物科学研究院的两位教授Yu Takagi和Shinji Nishimoto完成并发表的。
他们在去年的12月发表了这篇论文,而该论文目前已被CVPR 2023(世界顶级的计算机视觉会议论文期刊)收录。
准确的讲,研究团队让AI具备的是一种“读脑术”的能力。
研究人员通过fMRI(功能性核磁共振成像,相比于传统的MRI结构性成像更注重大脑的实时活动)获取大脑特定部位的活动信号,再将这些信号投入stable diffusion这一AI图片生成工具中,最终利用AI合成相关的图片。
就比如说,在看到这些小熊、飞机、风景等等照片之后
人眼所看到的事物
在一系列操作之后,AI能够呈现出以下这样的图像。
虽然相似度并没那么高,但AI已经准确的抓住了每张图片的特征,也能够让大家很好的辨识出来了。
AI所呈现的图像
但如果你觉得,这就像《哈利波特》中的“摄魂取念”一样简单?
那你就大错特错了。
实际上,想要实现这一目的的具体步骤非常复杂,在这我就简单描述一下:
首先,研究人员需要记录被实验者看到图片之后的大脑活动数据。
这些数据被分为两类,一类是较为初级视觉皮层信号,另一类是高级视觉皮层信号。
当然,仅仅只有这些视觉皮层的信号,是很难呈现一张完整的图像的。
这时候研究人员用到了能够生成图像的AI扩散模型Stable Diffusion。
或许很多人已经使用过这类以扩散模型(Diffusion model)为基础的AI绘图工具。
和大多数同类AI绘图工具一样,只要输入文字或者导入图像进行参考,就能生成想要呈现的图片。
咒文咏唱
不过在研究中,Stable Diffusion的详细使用方式则要复杂一些。
研究所用的Stable Diffusion主要由三个结构组成,分别是图片编码器、文本编码器和图片解码器。
前面提过,此前研究记录了初级和高级两类视觉皮层信号。
而在这一环节,研究人员将初级的信号记录到图片编码器上,再解码成一张图片(被称为z);同时也将高级信号记录在文字编码器上,解码成相关的文本(被称为c)。
最后,通过将解码之后的图片和文本再次结合,输入给Stable Diffusion,就能够得到一张最终生成的图片(zc)。
生成图片的流程
看到这里,你是不是已经感到头昏眼花了呢?
然而这仅仅只是我简化了之后的描述,实际上只要你点开文献,你就会发现要实现这一目的,其中还有更多的实验细节。
研究的整体流程
所以在此我也想再感叹一句:研究团队真的太厉害了。
可以发现,如果单单只是看由图片编码输出的图片(z),很多情况下只是颜色和结构相似,但完全不能呈现实物;而只由文字编码输出的图片(c),内容是符合的,但整体画面和原图重合度并不是很高。
只有将两者结合,才会生成一张既符合图像布局和结构,又符合实物的画面,更接近真实所看到的图像。
不同情况所生成的画面,zc重合度最高
事实上,一直以来,就有着不少研究团队致力于研究将大脑信号生成图片。
像是早在2011年的时候,加州大学伯克利分校的研究团队就已经完成了解码大脑信号并生成图片的重建。
不过由于当时fMRI获取信息技术和图片生成模型并不成熟,研究过程中所生成的图片并不是很清晰,虽然轮廓有了,但往往看不清实体。
左:实际片段 右:大脑活动生成的片段
而随着人工智能的发展,AI在图片生成的应用,也让这一研究取得了巨大的进步。
去年一月份,有团队利用GAN模型,同样通过fMRI收集到的大脑信号,重建所看到的人脸图像。
说起来,其实GAN才是AI绘图的“鼻祖”。
最初的GAN难以生成高质量的图像,而现在的GAN已经可以这些模型从生成模糊的人脸到具有不同约束的高清逼真图片。
GAN模型生成的图片
这一团队利用GAN作为图片生成模型,能够很好的还原出大脑所见的人脸形象,具有一定的辨识度。
左边的stim是显示给测试对象的人脸,S1S2是不同测试对象从fMRI数据中生成的面孔
不过,随着以Dall-E、Stable Diffusion为主的“扩散模型”的横空出世,这类AI图片生成工具,不论从真实程度亦还是想象、理解能力,都更为符合人类的想象。
大阪大学的这项研究,首次利用扩散模型进行实验,并且得到了一个还算不错的成果,我想也算是在“AI重现大脑记忆”这一领域立了一块不小的里程碑。
对于这一研究,不少人报以积极的想法,并且开始畅想它能够对社会做出的帮助:
通过大脑直接透露信息,可以让我们更好的去了解一些无法进行口头交流的人的思想,例如中风患者、植物人、渐冻症病人等等。
或许每个人都想知道自己的梦境。通过这种“神经可视化”的方式,也能够更好的帮助我们理解和重现梦境中的意义和象征含义。
甚至这种不需要依靠语言交流的方式,还有可能实现不同物种之间的对话相信在未来,当这种“心灵交流”的APP上市后,一定会成为养宠人的必备应用。
但另一方面,不少网友也对此发出了反对的声音,表示这一技术“细思极恐”。
网友们截然相反的想法
在对于AI未来方向的讨论中,有的人提出了可以通过提取记忆,用来在法庭上提供证据。
在《黑镜》的一集《鳄鱼》中,就构建了这样一个“没有冤案”的乌托邦社会。
在这一集里,人类研究出了一款能够挖掘记忆的机器。这个“取证器”在案件审查时得到了广泛的使用。
每当有案件发生,通过提取当事人和其他目击者的记忆,整个事件能够被完整的还原,因此办案效率也得到了大大的提升。
但是,当人类能够查看别人的记忆,那么同时藏在记忆深处的个人隐私也要面临被迫暴露的风险。
在剧集中,你会看到,几乎每一位使用取证器的人,都有自己的隐私和秘密暴露在大众的眼光下。
出车祸小伙的秘密是和一面之缘的路人一见钟情,但他从未挑破彼此的感觉;而牙医的秘密是偷窥对面楼酒店的裸男洗澡,危及到了个人的声誉
当提取人类的记忆用于取证时,顺带的是他所有被遮掩和隐藏的信息也会被揭示出来,无法再保持隐私性。
随着科技的发展,不仅仅是AI的“读心术”面临着隐私暴露的问题,近年来讨论热度非常高的“脑机接口”同样有着此类的担忧。
脑机接口是一种直接将人脑信号与计算机或其他外部设备相连的技术,通过捕捉和解读脑电信号,使人们能够通过意识控制外部设备,比如电脑、轮椅、假肢等。
但在通过脑电波等信号,将人的内部思维活动转化为可以被外部设备读取和解读的形式之后,脑机接口也将让人类的思维变得更加“透明”。
在科技服务于人类的同时,人类似乎在朝着“思维透明”这一方向同步前进着。
在大刘的《三体》系列小说中,描述了三体人“思维透明”的概念。
三体人的思维是完全公开和透明的,他们不会撒谎,同时没有任何隐私或秘密。这种透明度的实现是通过三体人之间共享意识的方式实现的,他们能够像网络一样共享彼此的思想。
但在我看来,这种透明化在人类社会是完全不适用的。
这意味着其他人可以轻易地获取到我们的个人信息和思想,从而侵犯我们的隐私和安全。黑客或者恶意组织可以利用这种能力来获取重要的信息或者进行攻击,这会对个人和社会造成极大的威胁。
不仅仅是个人隐私的泄露,思维透明化还可能导致一些潜在的人权问题和道德问题,对于社会的打击也是巨大的。
在大数据时代,越来越多的数据和信息被数字化和互联网化,个人隐私的泄露也一直困扰着所有人。
就拿最近火爆的赛博COSer来说,也已经有人扒出这些AI图片是由一位韩国女博主的真人照片集体训练的,甚至已经有人拿她输出了不少不雅的图片。
再说回AI拥有“读心术”这回事儿。
现在看来,想要真正实现“心灵交流”,似乎还有很长一段路要走。不过,这一新兴的研究方向必定会带来许多潜在的伦理问题,特别是涉及到个人隐私和权益的保护方面。
而这时,我想研究人员也该采取一系列措施,引导研究向着合乎伦理和社会价值的方向发展。