"基于人工智能的科研第五范式正在崛起。"
本文为IPO早知道原创
作者|苏打
“在每一次工业革命转折点或者拐点之前,都有漫长的科学革命、技术革命的序章,这个序章可能持续十几年、几百年,甚至上千年。而这个时间的发展对于我们每一个人来讲可能都要注意,在这个几十年之前的科学革命,可能是几十年之后工业文明的伟大基础,我们这一群人恰逢这样一个伟大的科技革命的时代机遇,因为科研范式正在升级,这是每个人可以抓住的机会。”
2007年,图灵奖得主Jim Gray提出了实验科学范式,时间范畴在一千多年前到几百年前;随后,一群天才科学家在几百年前推理演绎出现代物理的理论体系、电子力学,这一阶段被称为第二范式;第三范式和第二范式的类似之处在于,有很多推理过程没有办法算出来。其典型范例比如天气预报、地质演变等。
第四个范式则是最近二十年的事情,即数据科学范式,依靠现有数据总结、归纳、推理出一些结论,然后看看这个范式是否合理,从而引导我们走正确的科研方向,这一方法如今非常流行。
“但真实世界的复杂程度远超想象的,当人们面临更大的问题、更海量的数据时,解决方法可能就超出了第三、第四范式的范畴。”7月7日,在2023世界人工智能大会上,IDEA研究院工程总监、AI平台技术研究中心负责人谢育涛表示,“比如,今天的科学家都在面临一个问题,就是数据量大到一个地步的时候,都觉得不知道怎么处理。”
以下为谢育涛的演讲(有删节):
以1TB为参照来看,欧洲大型的强子对撞机的数据是1TB,中国的天眼射电望远镜一天是500TB,储存可能是一件小事,但是处理起来非常不容易。清华大学的脑成像系统一天大概产生2800TB,这是2015年互联网一年的数据流量。
这里面可能有很多重复、冗余和无效的数据,对于计算范式、大数据范式来讲都是很难处理消化的。而在科学研究的范围内,更多视频、声音、图像之类的数据会不断出现,人们的想法会不断丰富。
另一类数据是文献。自然语言作为高度浓缩的知识形态,跟观测的数字、数据不一样,它非常重要,所以一篇论文里面包含的信息量往往非常庞大。
进入到21世纪以后,发表的论文篇数以指数级在往上涨,科研的人数也在剧烈增加,大量的数据、大量的高质量、内容很高的论文怎么处理?这对科学家来讲也是很大的难题。一个科学家做科研的时候在做什么事情?有海量的数据,还要进一步创新的时候该怎么办?
目前的技术正在帮助科学家来进行突破。这是一个闭环、不断循环的演进。第一步往往是明确问题,从现状和背景做一些调查研究,看看有什么问题值得去进一步探索,然后进行一些评估。
接下来是进行假设,在这个基础上可以做什么方向的研究。假设出来以后,就要开始设计实验,来证实或者证伪。最终获得结果后,便可以发论文、发报告。
这个过程的每一个步骤都离不开数据。去年,微软提出了科研的第五范式口号,即人工智能的科学范式,真正用智能的方式处理新的知识,对于海量的数据用人工智能的方法进行归纳、总结。其中,对于数字化的数据,可以使用很多大数据处理的方法或者机器学习、深度学习的方法来处理;对于文本的数据,我们发现以GPT为代表的技术,对于文本的理解已经达到一个新的高度。
2023年初GPT出来的时候,我们知道,它所展现出来的对于自然语言的处理,是一场巨大的革命。
自然语言为什么这么重要?我们往往讲“懂语言者得天下”,因为语言是高度智慧的浓缩,对于语言的理解让人类可以被理解,人的知识可以被理解,机器可以来理解人类要理解的知识,所以这是一个非常大的突破。
微软认为虽然GPT-4还不完整,还有很多欠缺的地方,但是可以被称为通用人工智能的早期版本,这是科学家对这个事情的初步看法是这样。
根据它所表现出来的能力,我认为非常适合科研人员的需要,为什么?因为科研人员有大量的文献根本来不及读,读了以后不一定读不懂,读懂以后也不一定可以跨学科,对于GPT这样的能力,基于自然语言的综合能力和推理的能力,非常适合这样一个群体,所以我们可以畅想在AGI或者AI新时代的驱动下,科研的第五范式到底能给科研带来多大的生产力提升。
事实上,人们有不同的猜测或者不同的畅想,比如说在2009年的时候,《Science》杂志发表了一个文章叫从实验数据中提炼自由形式的自然规律,想讲的观点就是机器可以发现新规律,不用科学家了。但在两个月之后,一位物理学家也在《Science》上发表了一篇文章题目叫做“机器离科学革命还有距离”,他认为没有任何机器可以制造革命。
我认为,在人类智慧创造力这件事上,暂时还没看到能被替代的可能性。但是生产力这件事情是绝对可以加速创新的提升科学家的生产力,让他们更快地创新。所以我们今天在此次论坛中提出的是“AI for Scientists”,让AI这样最先进的工具来帮助最聪明的人,带来更多创新,为经济发展带来强劲动力,或许也有机会真正实现AI for Scientists。
其中,有这样几个改变将是显而易见的。第一是效率提升,因为AI会伴随着整个科研的流程,从提出假设到做实验,再到归纳总结,让科学家变得更高效;第二是当生产力大幅度提升时,一定会有更多人参与到科研中。比如,以前我读不懂一篇学术文章,有AI帮助后不仅能读,更能拿来用。
第三是总结写完了,写得好不好,这件事AI是不是可以帮?我们来看一看现在的技术已经可以大家做什么。
一个是读。我会问模型一些问题,比如说,Attention is all you need的第一作者后面有发表什么文章吗?很多问题GPT-3.5和GPT4.0都回答得非常好,甚至能够给我一些观点。当然也有一些不足的地方,实际应用到科研生产力场景的时候还是有很大挑战的。
二是微调训练,哪一块还做得不够好或者微调的数据不够,这是我们的观察,即读的场景。很多开源的工具,基本上都是调用GPT-4的能力,所以会受益于GPT-4,也会受限于GPT-4。
比如说有一篇文章是对于Scaling Law提出了观点,我想知道后面有哪些工作进行了扩展研究,有没有提出一些相反的观点。但GPT3.5和GPT4的回答得基本上没有办法满足我的需要。
从这个例子中我们也看得出来,它在学术领域的训练可能不足,优化过程可能不足,我觉得这样的问题在很多的垂直领域都有这样的问题。
另外,我看到开源社区的一个工作,这个是做有一篇文章,快要发表了,明天要投稿了,那么我就问问AI,让它提建议。这是很难的事情。GPT3.5和GPT4虽然指出了一下问题,但并不是很明确。
这几个场景好像都有希望,可是做得不够好,怎么办?
所以我们研究院提出了打造一个学术领域的专业模型,满足各个场景的需要,因为现有的通用模型好像有各种各样的局限性。
首先是通用模型的训练。最优秀的代表就是GPT-4模型,但是它不开放,所以没有办法在上面做进一步的开发。从通用模型之后几件事情来看,非常重要的是扩大脑容量,具体讲就是把海量的学术资料、论文以及用户的评价、讨论都塞给它,让它可以去学习、了解,先读懂所需要的知识,这是学术大语言继续训练的工作。
这是预训练之后的第一步,我们会评估通用能力和领域专业能力,之后就进入指令微调,回答不同的问题就通过不同的指令。第二部是让很多用户的高质量标注数据进来,做质量微调和下一步的强化学习,使得答案符合人类的标准。
数据会直接影响到模型质量,同时算力也是非常巨大的需求,算法也需要调和研究,所以这是很庞大的工程,但是这个事情是有意义的,因为做出来了以后会有好的效果。
我们也做了一些早期的研究,看看是什么样的情况,可以举几个例子,就是做完这个之后可以怎么样,我们往前走的时候到底这个AI给科研生产力带来了多大的想象空间,我们碰到的这些问题是不是可以得到解决,这个方法是不是正确。
比如说在阅读的时候,我们有一个产品叫ReadPaper,可以识别文章结构、总结文章内容,还可以主动提一些问题、思考。它可以在文献之外提出全局性的问题,这个能力是ChatGPT不具备的。
另外是论文润色。这个部分很多人和很多工具也在做,我们是从科研的角度,用大模型基于对于科研领域的知识深度理解,提一些建议。比如,AI模拟审稿员会帮你总结一下是不是这个意思、缺点有什么、优点是什么,最后告诉你大概的论文打多少分;同时提供多达三、四十条的润色建议。标题、摘要部分,ReadPaper也可以提供帮助。
我们相信GPT-4已经显示了很强大的能力,虽然它并不是完美无瑕的,但确实打开了我们想象的空间,正在驱动各个行业的变革,科学也不例外。
我认为,科研当中首先能够被替代,而且应该被替代的,就是那些重复性高、有固定流程的工作。这个不需要科学家来做,比如说论文格式、标点符号等,都可以由机器来帮忙。
其次能被替代的,是对于知识的理解、推理部分。比如说论文综述可以来帮忙,科研选题可能有点难,但是也可以提供一些好的建议,实验设计完全可以想象,有了知识以后建议你怎么来做实验设计。
人类的创新力是人类智慧的核心,我认为暂时不可以被替代,但生产力的提升一定可以加速创新的过程。所以我们想借助人工智能提高科研效率,把科学家从非创新性的劳动中解放出来,让科学家发挥创造力,集中精力做他自己的事情,可以让给更多人的因为有工具可以做更多的工作。AI for Scientists做好了以后,对于科学家和你我而言,你只需要有一个好的想法。