封面新闻记者 赵雨笙
6月18日,封面新闻记者从中国科学院获悉,该院上海药物研究所郑明月课题组近日在《自然-机器智能》上发表研究论文,利用“数据+知识+AI”实现新靶标药物虚拟筛眩
据介绍,该团队利用等变图神经网络来整合蛋白质-配体相互作用相关的物理先验知识,并使用多种数据增强、数据去冗余策略来避免模型过拟合潜在的数据分布偏差,构建了通用蛋白质-配体相互作用评分方法EquiScore。在药物虚拟筛选场景和先导化合物优化场景中,对训练未见的新靶标表现出良好的泛化性能。此外,可解释性分析为基于结构的药物设计提供了有价值的线索。
精准评估蛋白质-配体相互作用对药物发现至关重要。然而,开发可靠的评估方法是学术界和工业界的挑战。近年来,人工智能技术在这一领域已取得进展。以AlphaFold为代表的深度学习方法在蛋白质三维结构、蛋白质-配体复合物结构预测方面表现优异。
EquiScore架构图。图据中国科学院
然而,在新靶标的药物虚拟筛选场景中,高精度的活性预测评分方法仍然匮乏。研究表明,深度学习模型倾向学习数据中的分布偏差,对分布内的数据可给出较好的性能指标。而在实际应用中,尤其面对训练集未见的新靶标和化学多样性空间,深度学习模型却无法展现出良好的泛化效果。
该研究从两方面来提高深度学习评分函数对新蛋白的预测能力。科研人员收集更多的阳性样本,并使用重对接来生成更多样的阳性样本。同时,该研究使用交叉蛋白对接、分子生成模型来生成更多具有欺骗性和多样性的诱饵分子,以减少构建训练数据集时可能出现的类似物偏差、数据分布偏差及人工富集偏差。该研究通过使用新构建的数据集和等变异质图网络来训练最终的评分模型EquiScore。
在训练集中未见过的蛋白质上的虚拟筛选能力能够更好地反映评分方法在实际应用中的泛化性能。为了进行充分比较,科研人员选择了21种不同的评分方法作为基准。
研究表明,在严格测试下,EquiScore的综合排序能力超过现有方法。此外,对新蛋白的富集能力超过传统评分方法和深度学习方法。
进一步,科研人员在外部的先导化合物优化数据集上比较了EquiScore与其他方法对结构类似物的活性排序能力;使用不同对接方法生成蛋白-配体复合物结合构象,评价了EquiScore作为评分方法的鲁棒性。此外,研究人员分析了模型的可解释性。