百度的AI也能设计mRNA新冠疫苗了。
2020年5月,百度研究院推出全球首个mRNA疫苗基因序列设计算法 LinearDesign,是专门用于设计优化mRNA序列的高效算法。针对新型冠状病毒mRNA疫苗,LinearDesign能在11分钟内完成序列设计。计算模拟表明该设计能大大提升疫苗设计的稳定性和蛋白质表达水平。
此次跨界合作缘起何处?百度的AI未来给医疗行业带来哪些新变化?对此,百度美国研究院副总经理李幸女士、百度美研深度学习实验室主任黄亮博士接受了生辉的采访,并表达了他们的看法。
百度已有布局生物计算上游打算
生辉:是什么契机,让百度研究院产生了展开本项研究的想法?
黄亮:百度研究院对于本项研究的想法并不是一蹴而就的。我们在几年前即预见到计算生物学和生物信息学的重要性,并于 2018 年前瞻性的开展了 RNA 二级结构领域的研究。在这两年的时间内,百度研究院先后推出了全世界最快速的 RNA 结构预测算法 LinearFold,以及全世界最快速的 RNA 配分方程和碱基对概率预测算法 LinearPartition 等。这些研究成果在业内受到广泛重视,并相继被计算生物学领域顶级会议 ISMB 接收。
正是因为长期的、前瞻性的研究积累,百度研究院才能在疫情爆发后,迅速响应、在短短两个月内即完成了 LinearDesign 这一重大成果。
同时,百度研究院非常重视跨机构、跨学科的高水平合作。我们与斯坦福大学生物化学系 Rhiju Das 教授、罗彻斯特大学 RNA 生物中心主任 David Mathews 教授等世界顶级的 RNA 研究专家早在几年前就开始合作。充分的、高水平的合作也是 LinearDesign 产生的催化剂。
具体而言,在疫情发生后,Das 教授和我们关注到现有的 mRNA 疫苗研发存在一个巨大的挑战,即 mRNA 疫苗的稳定性问题。稳定性低的 mRNA 疫苗非常“脆弱”,很容易在保存和运输过程中因为降解而失效,并导致蛋白质表达效率的大幅降低。
针对这一问题 Das 教授提议一种解决方案:通过人海战术,使用我们的 LinearFold 算法为结构分析引擎, 发起疫苗设计的公开竞赛(OpenVaccine Challenge),找到适合疫苗生产的比较稳定的 mRNA 序列。百度则提出了一种更为直接和高效的解决方案,即通过算法直接设计 mRNA 序列。也就是我们所说的 LinearDesign。
生辉:AI 在生物计算领域的应用近年来一直备受关注,百度未来有提供技术上游服务的计划吗?如果有,您觉得百度入局生物计算市场,最大的优势将是什么?又有哪些方面需要重点布局?
李幸:非常高兴您提到这个问题。百度不仅仅有提供技术上游服务的计划,而且已经全面的实施了这一计划。
正如刚才所介绍的,百度研究院已经先后推出 LinearFold 和 LinearPartition 两个 RNA 分析算法。这些算法现已被多家研究机构和公司关注,并得到非常积极的反溃在疫情期间,我们百度研究院力推 LinearDesign 这一 mRNA 疫苗设计算法,并已与多家中外学术机构和业内领先的生物制药企业就疫苗研发开展交流和合作。同时,百度已与中国疾病预防控制中心病毒病预防控制所签署战略合作协议,联合设立“中国 CDC 应急技术中心 - 百度基因测序工作站”。这一联合工作站在 6 月北京新发地疫情中第一时间测出了病毒全基因组序列,发挥了重要作用。
我们拥有杰出的科学家和算法工程师,在 AI 算法设计领域具备无可比拟的优势。而这种算法设计能力,正是其他生物制药企业所不具备且急需的,这一领域是一片值得深耕细作的蓝海。实际上,在生物计算领域布局,百度研究院借助自身算法和工程方面的特长,并结合分子生物和医药领域专家的经验,逐步摸索形成了 “专家提问题,百度想算法,专家给反馈” 这样一套行之有效的合作模式。
未来,百度将在深度和广度两个维度上,继续依托我们在 AI 算法领域的深耕优势,深化与学术界和生物制药企业的合作。
“一个倾宇宙‘洪荒之力’也无法完成的任务”
生辉:您能简述一下算法开发的整个过程和您的主体思路吗?整套系统工具从研发到落地一共经历多长时间?
黄亮:两个月。具体细节是,疫情爆发后,百度研究院组织 AI 科学家们讨论如何能将我们的技术实力,转化为社会所需。在此期间,我们关注到在疫苗研发领域,mRNA 疫苗具有研发、生产周期快,无感染风险的优点。
然而,mRNA 疫苗与传统疫苗相比,存在稳定性低的问题。为了解决 mRNA 稳定性这一棘手问题,很多知名学术机构和疫苗研发企业尝试了很多不同的手段。如斯坦福大学使用百度研究院此前开源的 LinearFold 和 LinearPartition 算法,搭建了一个疫苗设计竞赛平台。让人类设计者以参与游戏的方式设计稳定的 mRNA 序列。
斯坦福大学之所以想到让人类设计者进行 mRNA 疫苗设计,是因为解决这一问题所需要的计算量实在是太大了。举个例子,如果我们要从可能的新冠病毒刺突蛋白 mRNA 序列中找到最稳定的那个序列,潜在的可能序列有2.4 乘以10 的 632 次方个之多。这是什么概念?如果我们使用一台超级计算机,每秒钟计算一个可能的序列,那么自宇宙诞生之日起到现在的 130 亿年的时间里,我们连这些可能的序列的亿万分之一都没有计算完成。
那么,除了使用人类设计者设计 mRNA 序列的 “人海战术” 之外,使用计算机 AI 技术是否可以更高效的解决这个问题?
答案是肯定的。经过百度研究院科学家们的共同努力,我们在短短两个月时间内即研发出了一套设计最优 mRNA 序列的新算法LinearDesign。这个算法将原来使用宇宙 “洪荒之力” 也无法完成的任务,在短短的十几分钟就能完成设计。
生辉:期间有哪些技术难题,又是如何克服的?
黄亮:这一问题的技术难点,一个是我们如何能将原本需要万亿年的海量搜索、计算,压缩到可以在十几分钟内就完成。另一个是它的解决需要分子生物学、免疫学、生物信息学和计算理论等多个学科的领域知识,需要算法设计、软件开发、生物医药等多个技术领域的综合能力。
针对搜索空间大这个难点,我们使用动态规划算法成功解决了这一问题。这一算法也用于我们之前的 LinearFold 和 LinearPartition 算法。
具体而言,首先,我们使用确定有限状态机(DFA)来表达氨基酸和蛋白质,这样不同位置上的密码子的选择就可以被抽象为计算理论中经典的 DFA 图;同时,我们借助计算语言学中的另一个常用工具,随机上下文无关语法(SCFG)。使用 SCFG 构建语法树来表示 RNA 二级结构。
在我们用 DFA 抽象表示多个 RNA 序列后,我们通过取 DFA 与 SCFG 的交集,利用动态规划算法将原先 2.4 乘以 10 的 632 次方级别的搜索空间,压缩到多项式级别的 mRNA 序列搜索空间。这样我们的算法就可以在很短的时间内找到最稳定的 mRNA 序列。
具体来说,我们用 DFA 来表达氨基酸和蛋白质,这样不同位置上密码子的选择就可以抽象为计算理论中常用的 DFA 图。如下图,我们分别把三种氨基酸(A: methionine, B: valine, C: serine)以及终止密码子(D)抽象为 DFA 图。
(来源:受访对象提供)
下一步,我们将氨基酸的 DFA 串联起来,从而得到一段蛋白质序列的DFA图。下图是蛋白质序列 “methionine leucine stop” 对应的 DFA 图。
图丨蛋白质序列 “methionine leucine stop” 对应的 DFA 图(来源:受访对象提供)
接下来,在有了 DFA 图后,我们如何通过 DFA 找出二级结构最稳定的 mRNA 序列呢?在这里我们借用了随机上下文无关语法(SCFG),这个计算语言学中的工具。RNA 二级结构可以通过SCFG构建语法树来表示。
概括而言,mRNA 疫苗序列设计优化问题实际上是将单个 RNA 序列的二级结构计算(RNA folding)推广到多个 RNA 序列。在用 DFA 抽象表示多个 RNA 序列后,我们就可以借助上文所说的,通过 DFA 与 SCFG 的交集,来从多个 mRNA 序列中找到具有最稳定二级结构的序列。
下面是一个例子。我们通过 DFA 和 SCFG 相交,生成出序列 “methionine leucine stop” 最优的 mRNA 序列为 “AUGCUGUGA”。
(来源:受访对象提供)
在将搜索空间压缩到多项式级别后,我们借用之前 LinearFold 的思想,将计算复杂度从三次方降低到线性,进一步压缩设计 mRNA 序列所需要的时间到十几分钟。
除此之外,我们的算法还将衡量mRNA序列蛋白质表达效率的指标,密码子适应指数(CAI),与序列稳定性进行联合优化。这样我们就可以设计出理论上既稳定,密码子适应指数又好的疫苗序列。
这个算法提出后,引起了世界顶级 RNA 专家、美国罗切斯特大学 David Mathews 教授的兴趣。他已加入到这个研究项目当中,在我们的算法研发过程中提出了很多宝贵的意见,并担任论文的共同作者。David Mathews 教授高度评价这个算法:“LinearDesign 是一种算法,它设计了一组结构更稳定的序列,并使用优化的密码子。此算法高效的运行速度是优化序列设计的关键,可以通过实验检验这些序列作为疫苗的效果。”
生辉:目前这一工具是否有 mRNA 药物企业正在使用?对方的反馈如何?
黄亮:LinearDesign 上线之后,立刻吸引了多家疫苗公司和研究机构的关注。目前我们正在验证 LinearDesign 设计的序列在生物实验条件下的稳定性和蛋白质表达水平,如果进展顺利,相信在未来的mRNA疫苗研发中将会广泛使用LinearDesign 技术。
生辉:我看了关于 LinearDesign 算法相关报道,报道指出针对新冠 mRNA 疫苗序列,LinearDesign 能在 11 分钟内大大提升疫苗设计的稳定性和蛋白质表达水平,在不同的人体环境内,蛋白质表达是一个十分复杂的过程,存在较大的不确定性,请问 LinearDesign 利用哪些方式、又如何解决这一不确定性问题?
黄亮:您提到体内蛋白质表达,的确比较复杂且存在较大不确定性,它仍是生物学和制药领域的一个重要的研究课题。
目前业内一个新的研究成果来自于世界 mRNA 疫苗研发的领头羊,美国Moderna 公司。他们最新的研究表明,mRNA序列的能量越低,即二级结构越多,其基因序列越稳定,蛋白质表达水平越高。刚才我们已经介绍了LinearDesign如何在较短的时间内找到二级结构多的,同时密码子适应指数高的序列,这是我们算法的精髓。
当然,能提升 mRNA 蛋白质表达水平的指标还包括密码子适应指数(CAI),非翻译区(UTR)序列的选取等因素。
值得重点强调的一点是,我们的 LinearDesign 算法可以将这些影响因素综合考虑,
设计出二级结构多、密码子适应指数好,并且符合各种不同优化条件组合的 mRNA 序列。
生辉:LinearDesign 算法的衡量指标如何?
黄亮:在这里我就举一个最重要的衡量指标,mRNA 序列所对应二级结构的能量稳定性。刚才我们提到,根据 Moderna 的最新研究成果,能量低的、稳定的二级结构将直接提升 mRNA 的蛋白质表达水平。
请参看下图中的几个 mRNA 序列例子,
图丨mRNA序列结构(来源:受访对象提供)
从上面的对比图可以看出,在新冠病毒的刺突蛋白序列上的实验表明,LinearDesign 算法可以设计出比天然序列(Wildtype,图 A)稳定得多的结构(能量分数越低越稳定)。其中全局最优序列(图 C,三次方时间算法)设计时间只需要 1 小时 ,而如果进一步应用近似算法,则只需要 11 分钟就可得到与全局最优序列能量相差仅 0.6% 的近似最优序列(图 B,线性时间算法)。同时,如果进一步考虑到 5‘ 端前 15 个核苷酸在与 Ribosome 结合时,需要保持相对较少的二级结构,我们也可以定制化的设计出 5’ 端结构松散的序列(图 E、F) 。
“AI 技术未来将对生命科学发挥更大的价值”
生辉:未来 LinearDesign 会应用于其他疾病药物 / 疫苗的研发吗?有计划正在推进中吗?有深耕生命科学领域的初步意向及计划吗?
李幸:我们的算法是一个优化序列的算法。凡涉及到序列设计的,各种疾病的药物/ 疫苗研发,我们的算法都将有用武之地。
因此,LinearDesign 不仅能用于新冠病毒 mRNA 疫苗的研发,还能用于个性化肿瘤药物等其他 mRNA 药物、抗体和疫苗的研发。
目前已经有几家公司和机构在和百度洽谈构建 mRNA 生物计算平台的计划,百度研究院长期致力于推动 AI 算法技术与生物制药行业的深度结合,将 LinearFold,LinearPartition,以及 LinearDesign 等优秀算法推广到药物 / 疫苗研发等广泛的应用场景中。
未来在生命科学领域,我们相信人工智能、生物计算技术还是大有可为的,它可以缩短新药研发的周期、降低新药的研发成本,提高医疗诊断的准确性和效率,这些将使人类在面对健康问题时更加主动。
生辉:百度研究院近几年的规划,以及未来的愿景是什么?
李幸:百度研究院拥有行业内最优秀的科学家团队,并与业内最优秀的科研学术机构和相关企业保持长期和高效的合作。
我们将继续以构建国际级领先水平研究院为使命,持续保持在 AI 算法领域的长期竞争力。通过与优秀的科研机构和业内领跑企业的合作,保持高效率的研发状态,并持续将所研发出的最新成果通过与业内机构的合作进行落地。
同时我们会不断拓宽百度研究院的领域,将 AI 能够驱动的新的行业和研究机会纳入进来。
-End-