基于结构的药物设计与几何深度学习

编译 | 刘名权
审稿 | 陈睿哲

本文介绍一篇来自于苏黎世联邦理工大学的Gisbert Schneider等人的关于几何深度学习的综述《Structure-based Drug Design With Geometric Deep Learning》。

基于结构的药物设计利用大分子的三维几何信息，如蛋白质或者核酸，来识别合适的配体。几何深度学习，一个基于神经网络的新兴机器学习概念已经被应用到大分子结构中。作者介绍了几何深度学习在生物有机化学和药物化学中的最新应用，突出它在基于结构的药物发现和设计中的潜力。

介绍

分子表示

大分子结构的表示取决于有关机器学习任务和所选结构。近期文献中所用到的三种最常见的大分子表示分别是：网格、曲面和图。这三种表示具有独特的几何形状和对称性。

3D网格 定义为由三维空间中的体素组成的欧氏数据结构。网格中的每一个体素都有固定的的邻域几何特征。即(i)每个体素都有相同的邻域结构(由邻居的数量和邻居间的距离)，和(ii)体素具有通过网格的空间维度定义的固定顺序。

3D表面 由多边形(面)组成网格坐标的三维排列(“网格空间”)。这些多边形可以根据它们的化学特征以及由局部网格的几何特征进行区分。

3D图 定义为是由节点(用单个原子)和它们的边构成的非欧氏数据结构。图形的非欧氏几何起源于单个节点具有不同的邻域结构，即每个节点可以有不同数量的邻居和不同举例。节点和边一般没有顺序。

对称性

根据分子的输入表示和目标性质，将对称性注入到深度学习架构中能更有效的进行学习。和分子系统最相关的三个对称群分别是：欧式群（Euclidean group，E(3)）、特殊欧式群（Special Euclidean group SE(3)）、排列群。E(3)和SE(3)都包括3D坐标系统中的旋转和平移变换，此外，E(3)还包括反射变换。因此，如果一个网络需要对手性输入给出不同的结果，需要考虑SE(3)。排列群主要和节点顺序对神经网络性能的影响有关。通常，使用排列不变的池化（求和，取极值）操作。

分子性质预测

主要讨论基于大分子（包含配体）结构预测标量的一些方法。比如配体结合能预测或者对接姿势评分。

基于网格的方法

几种使用3D网格大分子表示和卷积神经网络（CNNs）来预测想要性质的方法。KDEEP通过使用3D网格表示蛋白质-配体复合物来预测绝对结合能，其中每一个体素的特征由编码药理性质的通道所决定。由于3D-CNN缺少旋转不变性，通常将输入进行90°旋转作为数据增强。3D可控CNNs在传统的3D-CNN基础上进行扩展，它能提供SE(3)等变卷积对类网格数据进行处理。SE(3)等变性可以通过可控核的线性组合实现。

基于分子表面的方法

HoloProt，一种用于预测结合能和蛋白质方程的方法，它通过结合基于序列、表面、结构的图表示，在不同长度规模上进行编码。表面级别的图利用三角化的蛋白质表面上的节点，这些节点富含物化和几何信息，但是结构级别的图则利用氨基酸残基节点捕获3D结构。最后，使用多级消息传递网络对两种表征进行聚合并结合配体图输出最终想要的物理量（用于结合能预测）。

基于3D图的方法

各种方法使用3D图捕捉大分子的结构并且将它和配体信息结合，要么使用额外的配体编码要么直接对大分子-配体复合物进行处理。通过使用3D图而不是直接对笛卡尔坐标进行操作，这些方法通常关于输入结构的旋转平移操作不变。

有不同的方法建立3D图。他们要么使用节点距离的编码作为边特征，要么使用不同的边类型（例如，分子类和分子间的边应当不同），要么如果两个节点之间的距离小于小于某个阈值作为一条边。这些方法并不相互排斥，可以任意组合使用。

直接使用节点间距离作为边的一个例子是，SIGN通过迭代的使用带有角度或者距离考量的相互作用层来预测分子结合能，从而在消息传递阶段加入空间朝向知识。

通过结合直接距离编码和不同的边特征，PIGNet旨在于预测结合能。为了达这个目的，PIGNet使用门-增强的图注意力网络建模含有物理信息的成对的相互作用过程。

使用不同的边类型方法包括PotentiakNet和InteractionGraphNet用于结合能预测，区别在于使用共价和非共价，分子内和分子间的图卷积。另一种方法是使用无监督的自编码器生成具有代表性的结合口袋表征，随后使用基于欧几里得距离cutoff的蛋白质级别的图卷积对蛋白质-配体对进行分类。

区别于直接使用蛋白质结构的3D图最近提出的一种方法“蛋白质-配体相互作用图（PLIGs）”直接将蛋白质环境的信息加入到配体图的特征中，因而减小了问题规模。

结合位点/界面预测

结合位点预测旨在于预测大分子结构的部分区域，这些区域可以作为小分子、类药物配体的结合位点或者其它大分子的反应界面。

基于网格的方法

DeepSite是一种早期的方法，它使用常规的3D网格表示蛋白质，其中，每一个体素特征由相邻原子类型的药效特性决定。使用滑动的子网格，该网络输出每一个子网格可能接近结合位点的概率。Rnet扩展了这种方法来预测RNA和配体的结合位点。

基于分子表面的方法

MaSIF(分子表面相互作用指纹)以及它的可微分版本dMaSIF使用大分子表面表示用于结合位点预测，同样也可用于分类。基于表面的方式在测地空间中对蛋白质表面上的每一个点进行描述，这样表面上的两个点间的距离由分子表面决定，而不是欧式距离。该方法可以分成三个阶段，表面首先分解成独立的块。每一个块中的点的特征由几何和化学性质决定。使用测地线卷积将这些特征转换为数值向量用于下游任务。以上两个步骤对于最初的方法来说非常昂贵，但是dMaSIF是端对端可微的并且直接作用于原子类型和坐标。

基于3D图的方法

作用于分子结构3D图表示的网络已经被广泛地用于结合位点和相互作用界面的预测当中。一个例子是，使用旋转平移等变的方式利用边特征（包含距离和角度）让模型获得几何理解，随后使用空间图卷积或者图Transformer预测成对的残基级别的作用势。

其它方法

ScanNet使用E(3)不变的几何深度学习模型通过基于结构的线性高斯核滤波器预测蛋白质-蛋白质和蛋白质-抗体结合位点。

结合姿势生成/分子对接

对接姿势生成，即生成两个大分子之间或者大分子和配体之间的结合构象。

基于图表示和混合表示的方法

EquiDock使用一种SE(3)等变的消息传递网络，并结合最优传输以一种刚体、盲对接的方式来预测两个蛋白质分子的结合构象。该网络预测一个旋转矩阵和平移向量来移动一个蛋白质结构得到结合姿势，保持另一个蛋白质固定，从而保证最终的构象与两个参与者的初始朝向和位置无关。EquiBind对该方法进行扩展，通过改变初始结构的键角，考虑小分子配体的灵活性。DeepDock为小分子结合姿势预测构建了一个几何深度学习模型，其中，结合位点是用多面体网格表示，小分子使用3D图表示。DiffDock使用基于扩散的生成模型进行分子对接。该方法在两个阶段生成可控数量的结合姿势：首先，评分模型使用逆扩散过程将随机初始的配体姿势通过旋转、平移、改变键角转换为预测的姿势。其次，置信模型预测一个二分类标签表明生成的配体姿势的均方误差是否小于阈值，以此来评估结合姿势的正确率。其中，评分模型使用蛋白质表示是残基级别的3D图，置信模型使用的是原子级别的3D图表示。

从头设计

分子设计旨在于从头设计出具有想要的生物和物理性质的分子结构。

化学语言模型

当前，用于分子从头设计的最成功的深度学习模型是所谓的化学语言模型（CLMs），它们使用基于序列的分子表示（例如SMILES序列）。使用CLMs进行基于配体的从头设计在生成想要的物化性质的分子中取得重大成功。这样的基于配体的深度生成模型已经被拓展到可以利用显式的靶蛋白信息。如下图所示：

此外，还有人使用基于3D网格的蛋白质结合位点表示作为输入，用于学习隐空间然后被编码成序列。

基于图的方式

现如今，已经有人提出了根据大分子结合位点的3D结构直接生成配体分子潜在的3D结构。结合位点可以使用3D图进行表示。他们顺序的从预先学习到的的分布中采样出原子，并且已经被证明具有一系列的分子性质。最近提出了一种E(3)等变的扩散模型，它能够通过对正态分布的点降噪生成分子的3D图。该过程也被拓展到在结合位点内进行分子的从头生成，例如DiffSBDD和TargetDiff。DifferLinker为结合口袋中的片段生成合适的连接器。尽管这些基于图的3D从头设计模型能构建大部分新型的分子，它们的实际应用仍然需要探索。

未来展望

以前的研究表明，结合物理学的某些方面和模型中的对称性往往会增加准确性、普遍性和可解释性。作者进一步期望基于结构的药物设计的深度学习研究将跟随制药行业的趋势进行发展。

最近的工作表明，许多深度学习架构仅在 PDBbind 数据集上训练，仅仅只是记住训练数据而不是学习蛋白质-配体结构之间有意义的映射和结合亲和力，导致泛化能力差。该领域的未来工作可能会受益于合适的基准数据集，以及构建此类数据集的指南。

3D 感知模型，例如基于归一化流的方法，可能会出现在未来生成模型领域最前沿的研究。全面评估在现实世界中的效用药物设计背景的新模型，最重要的是实验验证建议的分子结构。因为并非所有在该领域工作的研究组都会有专业知识、设备来执行所需的实验测试、和实验人员的合作将是非常有价值的。

参考资料

https://arxiv.org/abs/2210.11250

宙飒天下