10月9日晚,国际顶级学术期刊《自然》旗下子刊《机器智能》发表了百度飞桨螺旋桨联合百图生科研发的文心生物计算大模型的又一重大成果《A method for multiple-sequence-alignment-free protein structure prediction using a protein language model》,提出了全球首个开源并提供在线服务,无需MSA输入的蛋白结构预测大模型HelixFold-Single。
该项研究是百度在生物计算领域继HelixGEM和Linear Design两项重磅工作之后,在蛋白领域的又一突破性成果。该工作打破了AlphaFold2等主流依赖MSA检索模型的速度瓶颈,将蛋白结构预测速度平均提高数百倍,实现了秒级别预测。同时,该项成果也为产学研各界带来了使用门槛更低、适用范围更广的蛋白结构预测解决方案,有望促进我国生命科学、生物医药、蛋白研究等领域进一步发展。
近年来,AI一直致力于突破蛋白质的结构预测问题,并在预测精度方面取得了重大进展。特别是 AlphaFold2将蛋白质预测推向了一个新的前沿,但以AlphaFold2模型为代表的主流蛋白质结构预测方法严重依赖于多序列比对(MSAs Multiple Sequence alignments)和模板(Templates)提取的协同进化信息。
本项研究打破了依赖MSA检索模型的速度瓶颈,相比AlphaFold2,HelixFold-Single模型推理速度平均提升数百倍,实现了秒级预测。高效的HelixFold-Single模型不仅能更好地适配到蛋白设计、大规模虚拟筛选等需要频繁预测蛋白结构的任务中,且在多肽、抗体、纳米抗体等与大分子药物设计更相关的高可变蛋白场景上,效果更是优于AlphaFold2。
HelixFold-Single目前已经落地在国家超算成都中心,通过超算平台赋能川渝地区蛋白领域的科学研究机构。在大分子药物的应用场景上,HelixFold-Single也已经整合进入百图生科AIGP平台,为百图提供更高效的蛋白分析能力,助力其探索大分子创新药。
另据研发团队介绍,基于HelixFold-Single和HelixFold研发过程中积累的经验,团队针对更具挑战性的抗原抗体、多肽蛋白的相互作用场景,研发了更具通用性和鲁棒性的复合体结构预测算法HelixFold-Multimer,相比业界同类方法,精度提升了数倍,该工作也将在近期上线到paddlehelix.baidu.com平台,为用户提供服务。
当前,AI大模型技术正驱动生物计算领域的高速发展。基于文心生物计算大模型技术打造的飞桨螺旋桨PaddleHelix平台,将帮助生命科学领域的研究人员更便捷、更高效地应用大模型技术,更好理解生命体的构成和变化规律,以帮助研究者进行更多开拓性研究,如探索针对特定癌症、病毒类感染疾病的治疗方法,开发新的抗生素、靶向药,或者研发更高效率的工业酶等等,为人类健康与产业发展贡献源源不断的价值。
上游新闻 杨昕华