今年12月初,谷歌的DeepMind团队发布了AlphaFold2,它能够预测蛋白质空间结构,而且准确率非常高。我们希望通过这场研讨会给做大众一些简单的介绍与科普,也对发现的社会意义和科学意义做一些初步的探索。
智平方论坛第一期讨论现场:从左到右分别为:龚新奇、李海涛、鲁白、王宏伟、代季峰。图源:智平方论坛
导 语
11月30日,谷歌旗下DeepMind公布AlphaFold系统在第14届国际蛋白质结构预测竞赛(CASP)夺魁,平均项目拿下92.4中位数的高分甚至可与实验方法一较高下。而用实验方法解析蛋白是结构生物学家的工作范畴。AlphaFold是结构生物学的革命还是会革了结构生物学的命?为什么AlphaFord在一众人工智能中遥遥领先?它的成功和普通人有什么关系?
2020年12月6日,智识学研社与智源社区策划的 “智平方” 论坛,邀请到清华大学生命科学院教授、2019科学探索奖得主王宏伟,清华大学医学院教授李海涛,中国人民大学数学科学研究院教授龚新奇和商汤研究院研究执行总监、智源青年科学家代季峰,再次探讨人工智能与人类的未来。本讨论由知识分子创始人、清华大学药学院教授鲁白主持,科技新闻独家直播。
整理 | 戴威
主持人鲁白:大家好,欢迎大家来到这场非常特殊的、也是非常及时的一个研讨会。研讨会的题目是 “AlphaFold:人工智能对生命科学的颠覆性挑战和冲击”。
今年12月初,谷歌的DeepMind团队发布了AlphaFold2,它能够预测蛋白质空间结构,而且准确率非常高。我们希望通过这场研讨会给做大众一些简单的介绍与科普,也对发现的社会意义和科学意义做一些初步的探索。
结构生物学,主要工作是什么?
鲁白:我们先邀请几位嘉宾分别谈谈自己的专业背景,为什么来到了这里,和我们今天的话题有什么关系。
王宏伟:大家好,我叫王宏伟,是清华大学生命科学学院教授。我的背景是生物物理学,我现在研究用新的方法,主要是冷冻电子显微学对蛋白质和其他的生物大分子结构进行解析。
什么是结构生物学?打个比方:我们开一辆汽车,如果想知道为什么方向盘向左打车会向左转、为什么挂档的时候车有不同的方向和马力,我们就要把车打开看里面的零件是什么样,这些零件是怎么连接和运转的。结构生物学,从某个意义上来说就是我们对生命体、对组成身体的蛋白质和其他的分子里面的原子空间组成方式,和这些分子相互之间的位置关系的分析。这些结果会帮助我们理解细胞怎么工作的,生命是怎么发生发展,形成各种各样生命的现象。
蛋白质是组成人体的主要成分,在我们的身体中有十几万种。蛋白质的基本组成单元是叫做氨基酸的有机分子。自然界有20种天然氨基酸,这些氨基酸之间可以通过肽键的方式连接成线性的多肽链。如果把每个氨基酸比拟成一个小珠子的话,多肽链就像项链一样由不同的珠珠连成一条线。不同的多肽链中的氨基酸的种类和排列不同,形成一维的序列。由不同排列组合的珠珠连起来的多肽链在三维空间中折叠扭曲,最终形成具有三维空间结构的蛋白质,具有特定的形状,这就是蛋白质的结构。
上个世纪50年代一个科学家叫 Christian Anfinsen(1916年3月26日1995年5月14日),通过实验发现珠珠在多肽链中的排列方式会让这根 “项链” 自发折叠形成固定的三维形状。他因此提出蛋白质中氨基酸排列的一级序列决定蛋白质的三级结构。他后来因为发现这个原理而获得了诺贝尔化学奖。
美国科学家Christian Anfinsen因发现特氨基酸序列与生物活性构象之间的关联获1972年的诺贝尔化学奖。图为Anfinsen在实验室。图源:https://ihm.nlm.nih.gov/images/B01171
李海涛:大家好,我是清华大学医学院的李海涛。我的背景是三大结构解析手段之一的晶体学,我关注的科学问题是表观遗传。结构生物学的重心在生物学,我们最终的目的是用结构解析手段解决生物学问题。大家所熟知的中心法则中,遗传信息解读首先是从DNA到RNA到蛋白质的序列信息传递,最后特定的序列还要形成一个特定的结构,才能发挥特定的功能。这里面一些规律正是我们希望探索的科学问题。
说到结构生物学,王宏伟老师举了一个很好的例子,比如我们想知道汽车是怎么开的、怎么动的。大家知道DNA是遗传信息的存储者,从某种意义上讲就像一个图纸,不代表是一个执行者。结构生物学主要关心的是怎么样把图纸变成汽车、变成大楼,光看图纸不会感受到汽车的便捷,也不会享受到建筑物的温暖。结构生物学关注的是很切合我们生活实际的科学问题,是想了解遗传信息怎么变成功能执行者的科学。
AlphaFold为什么比竞争对手更强?
鲁白:我简单总结一下结构生物学的两个基本点:第一,王宏伟老师说的所谓的线性的氨基酸的排列组合,决定一个蛋白质的空间结构;李海涛老师说的是,蛋白质的结构决定了它的功能,也就是它能做什么。
我们问一下AI的专家,先问一下龚老师,这个CASP大赛为什么重要?这次DeepMind的团队,又做出了什么样的突破?
龚新奇:大家好,我是龚新奇,中国人民大学数学科学研究院教授,主要做蛋白质结构预测和蛋白质相互作用的预测。这次CASP的竞赛是国际蛋白质结构预测竞赛,有19个国家的215个小组参加,用自己的方法从蛋白质的氨基酸序列预测蛋白质的三维结构,并跟实验学家解析出来的那个蛋白质结构做比较。第三方中立的评估机构去评估你预测的这个结构和实验的结构之间的差别,并打分排序。这次的突破在于,这个竞赛从1994年开始到现在进行了14轮,这么多年全世界这么多科学家,包括有诺贝尔奖得主、各个国家的院士参加,准确率提不上去,大家开始打鼓,这个问题能解决吗?人类是不是找不到唯一解?
结果,这次谷歌公司AlphaFold2突然一下子就比后面的人好了非常多,大部分结构解析程度达到90分以上,可以替代实验解析蛋白质结构的水平。大家突然看到这个问题原来可以解决,数学方法、计算方法能把这个问题破解掉。
AlphaFold2预测的结构(深蓝色)与实验验证的结果呈高度一致
鲁白:我再请青年科学家代季峰博士。代博士,你觉得AlphaFold2算法里面有什么特别的地方?为什么它是第一名?第二名跟它差的太远了。它在算法上面有什么特殊的地方?
代季峰:非常感谢。我叫代季峰,来自于商汤科技研究院,是研究执行总监。我从做深度学习或者做机器学习的角度来跟大家解释一下。
首先需要说,AlphaFold目前并没有正式报告或者正式发表的论文,我们目前的资料是DeepMind放在网上的博客以及参加比赛的人录的一段视频、做的一个报告。我们是基于有限的资料对它做一个分析和判断。
感谢生物学家们帮我们定义了一个很好的应用问题。从深度学习的角度来看,输入就是一段蛋白质氨基酸的序列,输出是要知道这个序列经过各种生物学的过程,最后生成的蛋白质、它的三维结构长什么样子。这在机器学习领域就成为一个数据集,我们结构生物学家已经解析出来上万条氨基酸序列以及对应的三维结构,构成我们计算机科学家的一个训练集。测试的时候会在几十条、或者上百条还没有公布三维结构的蛋白质氨基酸序列上去看,从前人发现的上万条序列上学得的一个模型,面对新的序列的时候,性能怎么样。
谷歌的这套系统利用了最近深度学习领域很好的模型进展,它基于 “变形金刚”(transformer)模型,这个模型基于“自然语言处理”(NLP)(把人说的一段话从英语翻译成中文、对自然语言整个文本的理解,等等)提出来的。而NLP生来就是处理序列模型的。这次AlphaFold2借助了最新的强大模型,用了这个模型,并且非常好地将其修改加入处理氨基酸序列的领域知识,达到了很好的效果。这是深度学习技术在重要领域一个非常成功的应用,带来了一个具体的重要学科领域的大的进步。
为什么比竞争对手做得好?这跟科研的普遍规律一样,首先会有一些科研能力或者愿景非常好的人,他们很好地设计一个模型和算法,把最新的AI进展以及这个领域很重要的知识结合起来。还有很重要的一点,他们有很强大的工程师的能力,他们作为一家公司能够调动比大学等更多的人力。
龚新奇:这次竞赛很多大牛公司都参加了,微软、腾讯、百度和华为等。谷歌这是第二次参赛了。他们做得这么好,里面还有它独到的技术。他们的摘要中30个作者里面,很多都是各个领域的顶尖人物,不是只一个顶尖人物,有卷积神经网络的发明人,还有一些对蛋白质结构理解很厉害的一些人。30个作者中19个是并列第一作者,而且这19个人都有自己的特长。还有很重要的一点,他们把我们能用到的生物信息,比如说氨基酸序列信息、结构信息、宏基因组的信息,整合在一起,这个能力一般人做不到。
鲁白:听上去他们方法学上或者从概念上、理论上,并没有什么特别创新的,只是说他们用的资源比较多,或者用的人比较牛,或者他们的工程能力比较强,落实的能力比较强,是这样吗?
代季峰:能够把这些做得很强就是非常困难的事。从创新的角度来看,很多时候一个大突破所需要的理论和基础技术。以AlphaGo为例,它所需要的强化学习技术,是上个世纪八九十年代就已经在教科书了、到现在没有太多变化。还用到了深度学习,它是非常好地把二者结合起来,取得应用上的突破。并不是说非要突然一个很创新的理论才能做到这件事情,而是要把之前最好的突破,和以前没有人看到的方法结合起来。探索结合有非常多的可能性,需要非常有眼光的人以及工程执行能力,还要有足够多的资源,才能够找到两个特定的结合,做出突破。
AlphaFold是革命?革了结构生物学的命?
鲁白:有人说AlphaFold的出现至少是结构生物学革命性的变化,不知道说的过不过分。
王宏伟:我不赞同这是革命的说法。我认为这可以说是一次跃迁,包括技术的跃迁和我们科学研究范式的一种跃迁。我自己是做冷冻电子显微学研究的,这也是结构生物的方法。蛋白质结构预测包括AlphaFold,这次是在结构生物学工具层面上的很重要的突破,但我不认为算一次真正的革命。很多概念、很多理念在前期有很多积累,这次AlphaFold2的成功有它独到的地方,但还没有到革命的程度。
鲁白:AlphaFold2后面还会有AlphaFold3,AlphaFold4。这是第一次做的出乎人们意料的好。算不算结构生物学的一次革命,海涛你怎么看?
李海涛:我感觉从技术层面讲,可以算是一个突破。原来很多结构很难解、很难预测准确。现在通过人工智能手段实现,显然是一个突破,我承认这一点,也很高兴看到这一突破,省了我们很多事。我们做结构生物学的,解完结构之后还要花很大功夫分析结构,解释它的功能。如果计算手段能让我们更快拿到想要的结构,那我们想做的事情能快很多,对蛋白质功能的机理认识能深刻很多,从这个意义上AlphaFold出现的革命性还是可以成立的。
从理论层面,AlphaFold只是提出问题,为什么能够成功预测出来结构?这里面有着更深层的理论问题需要进一步探讨。这方面还没有真正突破,有很多规律我们是不知道的,这像一个黑匣子:我们能运用黑匣子,黑匣子内部究竟是怎么样的?问题更多。
鲁白:我听好几位人工智能的专家说,你们结构生物学家,以后不需要再解析结构了,就没啥事了。但你们确还有很多事情要做,还有很多问题没搞明白,不会失业的。我想听听做计算的人士怎么看,这是不是带来一个革命性的突破?
龚新奇:我觉得是革命性的东西,我刚开始学结构生物学,就被教育说氨基酸序列决定蛋白质的结构,这是第二遗传密码,如果把这个密码找到,就是跟中心法则一样重要的东西。现在终于找到了,终于能解决了,这是第一。第二,一个很现实的问题,自然界有这么多蛋白质序列。我们拿到的解析出的结构,不到所有蛋白质序列的千分之一。测蛋白质序列很容易,解析蛋白质结构很困难。你测个一个蛋白的序列,我就能算出它的结构。结构多了以后,对生命科学,对药物研发,都很有意义,能做的事情更多。第三,我们做数理的人发现,这个东西真能解决了,以前总是心里在打鼓,到底能不能行。现在解决了,我们觉得这里是一个突破。
代季峰:在我看来,AlphaFold2应该算是应用层面的一个巨大的突破和创新,而不是理论层面。
王宏伟:第一,利用蛋白质序列现在可以精准地把一些三维结构预测出来这件事情本身绝对是一个好事情。就像刚刚海涛讲到的,现在有了这样一个工具之后会让结构生物学的研究和发现变得更加便利。研究者不需要花大量时间在解析结构本身的实验过程中,而能把更多的精力和时间放在回答生物学问题上,比如对功能、机理的揭示和新的药物与治疗手段的研发方面。这样的新技术对生物医药产业的发展尤其可能有非常大的帮助。
李海涛:鲁老师刚才好几次说到失业或转业,我觉得其实该换成一个词:“解放”。失业是痛苦的,转业是无奈的,解放是幸福的。AlphaFold让老师和同学们都解放了,我们不再受制于结构解析的手段,能够很快的拿到这个结构之后真正探讨结构生物学的核心问题,这个太重要了。如果说我和学生的眼里因此含着泪水,含着的应该是高兴的泪水、解放的泪水,我很欢心于这个新突破。
和普通人有什么关系?
鲁白:我还想问一个问题。这个事情跟我们今天晚上这么多的观众,跟他们有什么关系?这个事件的发生,可以解决我们结构生物学中蛋白质结构问题,在计算机科学领域,也没有理论上或者方法学上的突破。这跟老百姓有什么关系?对未来的人工智能的发展,又有什么意义?
李海涛:“小” 的事物可能很重要。比如我们盖一幢大楼,这个大楼的基石虽然小,但是很重要,能撑起整个大厦。我十分佩服科技的发展,现在人类对生命的认识已经深入到原子层面,从十亿到百亿分子一米尺度看生命,依然是大千世界。从这个角度讲,AlphaFold 加速了人们对生命的深刻理解和认识,可谓是基石性突破。大家想想基石有多重要大厦的安全。考虑到生物大分子与人类健康与疾病的密切联系,人工智能在结构预测方面的突破肯定对人类生活的各个方面有着很大的影响。
龚新奇:这是我们人对智力追求的一种欣赏,一种不断更高更快更强的追求。这是一个精神上的,主要是大众精神上的愉悦。它也有实际的意义,可能今后的药更便宜,到医院检查更快一点。
王宏伟:我觉得这是非常有意思的话题。AlphaFold这次的表现确实很惊艳。其实上次的AlphaGo出来之后打败了围棋高手,而后来的AlphaZero更是下出了很多围棋大师们没有见过的战法,就体现出现有的人工智能的能力发挥到某种极致状态是可以突破我们人类认知极限的。我期待AlphaFold不管是2还是3,有一天它会预测或设计出来一个蛋白质的结构,是我们人类尚未发现的,然后我们实验手段解析出来跟它预测出来是一样的。这样的新结构如果还有特定的功能,它就是突破了我们科学家认知的极限。因为我们人类的认知是容易受到我们自己的经验的束缚的,我希望人工智能帮助我们突破固有经验,帮助我们更好地认识自然界,探索宇宙。
鲁白:这个观点很有意思。那推而广之,我能不能更大胆地畅想一下:AI能够设计出世界上不存在的全新的蛋白,而蛋白质是生命的基础,那是不是有一天,AI能够设计出新的物种,新的生命?
李海涛:我在想,刚才代博士说的很好,用语言学习做比喻。我们有文字,文字组合是无穷多的,实际上我们看到的文章是有限的,而且大家都读的懂。文字的排列有语法和规律并且可以被人类所理解,这体现了语言对文字组合的约束,这种约束性是蛮重要的事情。人工智能之所以能够实现自然语言处理和学习,其实在有意无意的遵照和运用了这种约束。文字的排列组合空间很大,掌握了一门语言后,你想做诗还是想写散文,有很多事情值得去创意。在人工智能惊艳的时代,我们关注什么对象,研究什么序列,写什么样的文章,还有很多的精彩值得期待。
龚新奇:现在其实人工智能可以做一些新的设计,设计一些新的分子,只是因为计算设计难以被实验证实,不像预测那么受关注。对我们学科,未来是去搞清楚人工智能的数学模型,基本的数学原理一直我们在关注的事。现在看到了这么做是可以达到好结果的,我们就可以死心塌地去挖掘里面的原理,原来我们不太敢。
代季峰:我对人工智能的展望是,目前这一代人工智能算法主要的特点是实现 “大数据、小任务” 领域里极大的成功。比如说分析一段基因,AlphaFold整个空间只有20多个氨基酸的可能性,还是定义非常完善的具体的任务,加上大量数据,这一代人工智能可以做的非常好,但没有理论上的原创性突破。AlphaFold2是非常好的例子。不知道有没有其他有意思的学科,你把重要的最基石性的问题定义成“大数据、小任务”这种类型。AI算法还是希望走向少量数据的情况下,以及任务不是那么具体的时候,看看 “小数据、大任务” 的时候工作的怎么样?现在这代算法分析的是一种关联性,不善于分析因果性以及做推理,这也是下一代算法需要解决的问题。
鲁白:再次感谢今天几位专家。今天我们从小的结构生物学的问题,说到对生命科学,对药物研发,以及最后对我们AI本身和我们老百姓对人的智力有什么冲击。这次AlphaFold事件后,我们还会继续关注人工智能以及生命科学问题。北京智源和智识学研社,以及我们人工智能和生命科学专家,会继续通过这样的方式或者其他的方式进行交流,推动我们这个领域的发展,也给我们的社会带来福祉,谢谢大家!
关于智平方论坛
智平方论坛由智识学研社与智源社区发起,是一个面向大众的交流平台,将定期邀请人工智能及相关交叉学科学者展开对话与交流,以促进大众对于人工智能领域的了解。
智识学研社是由清华大学教授钱颖一、北京大学教授饶毅和中国科技大学教授潘建伟联合发起的非营利性社会组织,致力于传播科学知识,弘扬科学精神,从科技出发探索人类命运共同体,打造面向未来的开放平台,介绍国内外前沿科技进展,在公共政策中提供科学家的专业判断,提出驱动未来的科技创新方案,帮助推进科学、技术与创新,促进科学文化在中国逐步建立。智识学研社旗下的媒体包括 “知识分子” 和 “赛先生”,是公认具有权威性、公信力和影响力的两大科学新媒体品牌。
智源社区是北京智源人工智能研究院打造的一个内行、开放的AI 实名社区,致力于促进AI 交流。