改进的方向主要有以下几点:
1.输入信息:除骨架坐标外增加了关于N,
Cα, C, O,以及虚拟Cβ原子(表示主链二面角特征)的距离信息,模型表现提升到49.0%。这表明使用pair-wise等有朝向性的特征能更好地捕捉到蛋白内部的相互作用信息;
2.在encoder中引入了边的更新机制,增加了Cα的邻近神经网络数目(32-48个时模型表现达到饱和)信息的交互,让模型表现小幅提升至50.5%。与蛋白质结构预测任务不同,序列设计任务中氨基酸的优化更多地取决于即时的蛋白质环境。
3.为了使模型广泛应用于单链/多链等设计任务,MPNN对decoder中解码顺序进行随机采样,替代了传统的语言模型固定的N->C端解码,模型提升0.2%。虽然性能提升不大,但是这种机制可以在蛋白序列设计中引入已知的motif或受体等固定信息。
4.为了让模型对多链顺序等变,模型新增了相对位置的编码信息与链号标记信息;在同源多聚体的任务中,同一位点的氨基酸可以被偶联被同时解码,从而完成对称性或multi-state等相关的设计任务。
——性能评估——
在402个单体骨架测试集上使用Rosetta PackRotamersMover 和ProteinMPNN 设计序列, ProteinMPNN 的平均序列恢复率为 52.4%,而 Rosetta 为 32.9%,且耗时远小于Rosetta(单个 CPU 上处理100 个残基1.2 s VS 258.8 s)。
Average Cβ distance
for 8 closest neighbors表示包埋程度,左侧为疏水核心层,序列恢复率达到90-95%, 右侧为界面层,序列恢复度仅有35%(图2.A),这表明模型能从主链特征学到了表面残基和内核残基的相对概念,由于表面的残基由于缺乏邻居信息,因此多样性比内核层高。大量事实也表明:内核层残基的序列十分保守,突变容易导致蛋白稳定性下降或不表达,而大量的表面疏水残基可以被重新设计或赋予新的功能。
Violin plot展示了ProteinMPNN在690 个单体、732 个同聚体、98 个异聚体测试集上的sequence recovery,中位序列回收率分别为单体 52%,同聚体 55%,异聚体和界面残基 51%,同聚体 53%,异聚体 51%(图2. B)。
图2 ProteinMPNN序列恢复率与Rosetta相比及在三个测试集中表现
并且,对ProteinMPNN设计出的序列进行结构预测(AlphaFold),相比天然蛋白预测准确度提升。
天然蛋白质sequence recovery只是一个评价基准,序列设计方法的真正价值仍体现在实验测试中。研究者基于之前失败的设计,保持原有的主链骨架,用ProteinMPNN重新进行设计,在大肠杆菌中进行表达,并进行了结构和生化表征。
团队首先表达了之前发表的Hallucination protein(和天然蛋白无关的“幻想”蛋白,基于AlphaFold构建的骨架及采用Markov Chain Monte Carlo生成的序列),发现大部分都不可溶。而用MPNN对幻想骨架进行序列生成,表达出的蛋白质大部分都是可溶的(96条设计序列,73条可溶)。并且热稳定性好,能维持寡聚状态。
对一条序列解析晶体结构,该α-β蛋白(包含 5 个 β 链和 4 个 α 螺旋)晶体结构与设计结构高度吻合,内核侧链电子云密度几乎完全符合,准确度极高。
因此,ProteinMPNN 可以稳定而准确地设计单体和环状低聚物的序列。
重复组装的多体蛋白
对C 5 /C 6环状低聚物进行实验表征,Rosetta设计的序列仅有40%可溶,且无 SEC-MALS 验证的正确寡聚状态,而ProteinMPNN 设计的集合中,88%(总共 18 个)是可溶的,27.7%具有正确的寡聚状态。结构由negative stain EM实验解析,图像均值与设计模型高度一致。
ProteinMPNN最后挑战了之前Rosetta设计失败的例子:polyproline II helix motifs 与 SH3 domains识别的复合物结构。SH3-binding motif (PPPRPPK)富含脯氨酸,但在自然界十分罕见。
首先使用RIFDOCK将高度稳定的helix scaffold对接到复合物的表面,并使用RosettaRemodel将motif和scaffold进行重组和Rosetta
layer设计,但实验未表现出高结合力。而ProteinMPNN对主链进行重新设计,设计序列中两个天冬酰胺侧链和表面相互作用,实验检测出高亲和力,而点突变为天冬氨酸后无亲和力。设计结果表明MPNN可以对蛋白packing进行纠错,并产生更稳定的相互作用,也验证MPNN设计的正确性和准确性。
图5 B图使用的是生物膜层干涉技术biolayer
interferometry,验证了设计复合物的亲和力
蛋白质序列设计无法成功的因素有很多:无法折叠,亲和力低,不可溶,稳定性低等等。遍历所有的构像空间不可实现,基于物理的 Rosetta在限制,描述中会有ambiguity。所以用Rosetta设计序列后还需要进一步采用计算验证(如ab initio folding,
MD),或加入人为经验的调整。而ProteinMPNN的学习方法虽然不透明,但完全基于结构和序列,实现了一步到位。它展现出的逻辑和认知相符:比如蛋白质核心的残基会受到更多相邻残基的影响,对于蛋白质正常折叠而言至关重要,进化中不会轻易突变;而表面上的残基受相邻残基的影响小,可以引入更多变化。
对蛋白质设计的任务本身而言,之后或许可以采用ProteinMPNN代替FastDesign,packing等步骤,但目前看来MPNN仍需要一个比较靠谱的初始化主链,或许在不久的将来,人们可能会更多倾向于讨论如何生产高可设计性的主链生成。MPNN的构架可能也会为其它蛋白质相关任务提供新的思路。
Github code已开源,地址https://github.com/dauparas
learning–based protein sequence design using ProteinMPNN. Science
& Jaakkola, T. Generative models for graph-based protein design.
点击左下角的"阅读原文"即可查看原文章。
还没有评论,来说两句吧...