——背景——
药物-靶点相互作用(DTI)注释是药物开发的一项重要任务。揭示新的蛋白质配体结合位点有助于识别潜在的副作用、毒性和药物重新定位。近年来,标记DTI数据,特别是药物-靶点结构数据的快速增长,引起了人们对采用机器学习方法预测DTI的兴趣。DTI预测任务被认为是一种二元分类任务,它集成配体和目标特征,提取潜在信息,表明它们之间的相互作用。以往的研究试图利用包括化学和生物学描述符在内的高级特征来捕获相互作用表征,这些方法严重依赖人工特征。2022年10月,Ka-Chun Wong课题组在Briefings in Bioinformatics上发表了CoaDTI模型的相关工作,与最先进的模型相比,在三个公共数据集上取得了具有竞争力的性能。
——方法——
图1是基于多模态共同注意的框架CoaDTI。对给定药物SMILES序列使用GraphSage来生成分子图嵌入,并结合了Transformer编码器来捕获含有隐藏全局信息的蛋白质表示。之后CoaDTI结合了深度共注意机制来处理多模态特征。首先,利用自注意分别编码药物特征和蛋白质特征。然后,两个特征向量分别经过两个共同注意层,即DPA和PDA。DPA层查询药物对蛋白质的影响,而PDA层估计蛋白质对药物的关注权重。
图1。CoaDTI的框架。CoaDTI有两个输入:蛋白质氨基酸序列和药物SMILES序列。将氨基酸序列分别输入词嵌入层和位置嵌入层,并将两个嵌入层的输出相加。然后将求和后的向量输入变压器编码器输出蛋白质特征向量。SMILES序列首先用r-半径子图表示,然后输入GraphSage图,得到药物特征向量。CoaDTI集成了协同注意模块来学习交互信息。
(1)使用GraphSage表征药物分子
对于每个药物分子SMILES字符串,将原子作为节点,化学键作为边,构造数据图后,采用r-半径子图方法表示复合图。子图数据被输入到GraphSage模型中,利用邻域信息获得化合物的嵌入。GraphSage作为一种基于空间的卷积GNN,可以利用节点特征高效地生成图嵌入。更新过程表述如下:
(2)使用Transformer表征蛋白质
将蛋白质表示为氨基酸序列,由于残基的位置信息对提取蛋白质特征至关重要,这里使用的transformer由两个嵌入层组成。第一个嵌入层是一个习得的嵌入层,它将输入标记转换为维度为的向量。第二个嵌入层是具有相同尺寸的位置嵌入层。采用不同频率的正弦和余弦函数来计算相对位置,再对两个嵌入层的输出进行求和。Transformer的编码器包含多头自注意层和位置前馈层,在两个子层周围有残差连接。对于每个输入的蛋白质序列,Transformer输出蛋白质表示:
其中FFL为前馈层,MHA为多头自注意层。
(3) Co-attention模块:
考虑到蛋白和药物的特征向量存在交互,下一步是将两种模式的信息进行连接,进行交互表示。在该工作中,采用attention机制整合蛋白质和药物信息,以达到分类的目的。注意机制的思路是利用有限的注意资源从大量数据中快速过滤出高价值的信息。图2展示了本研究的三个注意机制单元:
自注意(SA)、药物-蛋白质注意(DPA)和蛋白质-药物注意(PDA)。
——预测效果——
在Human数据集和C.elegans数据集上分别对CoaDTI和CoaDTI-pro进行了测试,并比较了SOTA模型的性能。此外,还进一步将实验扩展到Bindingdb数据集,以考察CoaDTI在现实数据设置下的通用性和鲁棒性。
如表1所示,具有不同Co-attention模块的CoaDTI模型在Human数据集和C.elegans数据集上与最先进的模型具有接近或更好的性能。所有的CoaDTI模型在AUC上均优于SOTA模型。CoaDTIstack在AUC上的表现最好,而CoaDTIencoder在Human dataset上的召回率最高。此外,CoaDTI-pro在AUC、精度和召回率上达到0.982、0.952和0.950,在所有三个指标上都优于基线模型。CoaDTI和CoaDTI-pro的性能优于其他深度学习模型。这表明,共注意模块使模型能够学习详细的蛋白质和药物相互作用信息。
在BindingDB dataset数据集上,AUC和PRC测量的实验结果如表2所示。与SOTA模型相比,具有不同共注意模块的CoaDTI在所有指标上都实现了较高的性能。推测Co-attention层可以同步测量药物和蛋白质的相互作用,并迭代更新交叉信息,在一定程度上可以模拟真实的生化过程。通过预先训练的蛋白质transformer,CoaDTI-pro的性能提高到一个前所未有的水平,AUC和AUPRC分别为0.959和0.957。
同时还利用BindingDB数据集来验证了CoaDTI可以解决未知化合物与未知蛋白质相互作用这一具有挑战性的问题。根据训练数据集中是否观察到蛋白质或药物,将测试数据集分为四个子集,包括可见的药物和可见的蛋白质亚群、可见的蛋白质和未见的药物亚群、可见的蛋白质和未见的药物亚群和未见的蛋白质和未见的药物亚群。将CoaDTI-pro与三种基线模型进行了比较,包括基于相似度的方法Tiresias,基于深度学习的方法DBN,该方法由堆叠受限波尔兹曼机(RBM)组成,以及包含LSTM和GCN的端到端神经网络E2E。四个子集的AUC和准确性如图4所示,含有未见蛋白或未见药物的子集分类难度相对较大,而CoaDTI-pro在所有子集和所有指标上始终表现出稳健的识别能力。
尽管可用的无标签数据爆炸式增长,但由于财政和劳动力的限制,有标签的DTI数据是有限的。如图5所示,展示了CoaDTI-pro是通过利用预训练的transformer学习了隐藏在大量未标记数据中的知识,从而解决了有限标签的问题。
为了实现模型的可解释性,选择了两个和SARS-CoV-2 3CL Mpro有相互作用的药物:GC373 (PDB ID: 6WTK)和ML188 (PDB ID: 7L0D)来进行说明。注意机制可以得到解释蛋白质特征向量和化合物向量焦点的注意权重。图6为GC373与SARS-CoV-2 3CL Mpro相互作用的化合物-蛋白评分和蛋白-化合物评分。化合物的原子对蛋白质序列的关注是发散的(图6a),而蛋白质关注分子的特定原子(图6b)。位于SMILES序列顶部的原子所强调的区域相对平均,而其他原子可能会关注位于蛋白质序列左侧的氨基酸。蛋白质序列集中在第9位和第27位附近的原子上,呈现出一种整体注意的模式。
相互作用如图7所示,其中高度关注的氨基酸用红色突出显示,化合物的原子用绿色突出显示。可以观察到,结合口袋内或周围的蛋白质残基和分子原子具有较高的关注分数。对于3CL Mpro和GC373共晶配合物(PDB ID: 6WTK),模型识别的关键残基包括HIS41、GLY143、CYS145和GLU166与相互作用位点有很大重叠。其中两个残基(GLY143和GLU166)与分子形成氢键,其他残基通过范德华力和碳氢键等其他机制与分子相互作用。这表明,共同注意机制能够阐明有意义的交互信息。
点击左下角的"阅读原文"即可查看原文章。
作者:陈佳晓
审稿:幻 幻
编辑:黄志贤
GoDesign
ID:Molecular_Design_Lab
( 扫描下方二维码可以订阅哦!)
还没有评论,来说两句吧...