通过深度学习将 L1000 图谱转换为类似 RNA 的图谱

编辑 | 萝卜皮

L1000 技术是一种具有成本效益的高通量转录组学技术，已被应用于分析一组人类细胞系对 > 30,000 种化学和遗传扰动的基因表达反应。目前总共有超过 300 万个可用的 L1000 配置文件。这样的数据集对于发现候选药物和靶标以及推断小分子的作用机制非常宝贵。L1000 检测仅测量 978 个标志性基因的 mRNA 表达，而通过计算可靠地推断出另外 11,350 个基因。缺乏全基因组覆盖限制了一半人类蛋白质编码基因的知识发现，以及与其他转录组学分析数据整合的潜力。

在这里，西奈山伊坎医学院的研究人员提出了一个深度学习两步模型，该模型将 L1000 配置文件转换为 RNA-seq 样配置文件。模型的输入是测量的 978 个标志性基因，而输出是 23,614 个 RNA-seq 样基因表达谱的向量。

该模型首先使用应用于未配对数据的修改后的 CycleGAN 模型将标志性基因转换为类似 RNA-seq 的 978 个基因图谱。然后使用完全连接的神经网络模型将转化后的 978 个类似 RNA-seq 的标志性基因外推到全基因组空间中。在 LINCS 和 GTEx 程序生成的已发布的 L1000/RNA-seq 数据集上进行测试时，两步模型的 Pearson 相关系数为 0.914，均方根误差为 1.167。处理后的 RNA-seq 样配置文件可供下载、签名搜索和以基因为中心的反向搜索以及独特的案例研究。

该研究以「Transforming L1000 profiles to RNA-seq-like profiles with deep learning」为题，于 2022 年 9 月 13 日发布在《BMC Bioinformatics》。

转录组学分析是目前在全基因组范围内分析细胞分子状态的最全面和准确的方法。成本的持续下降和质量的提高使全基因组转录组学成为生物医学和生物学研究的核心方法。通常，转录组学分析通过将对照条件与扰动条件进行比较来产生基因表达特征。

由于扰动而差异表达的基因可以提供有关潜在分子机制的线索。建立基于网络的集成细胞特征库 (LINCS) NIH 共同基金计划是为了通过在这些细胞受到干扰之前和之后使用组学技术分析人类细胞系来加速小分子疗法的发现。

L1000 检测是一种低成本的转录组学技术，可用于高通量，为 LINCS 生成数百万个基因表达特征。Broad 研究所的 LINCS 转录组学数据和特征生成中心 (DSGC) 使用 L1000 分析产生了超过 300 万个表达谱，测量了经过 30,000 多种化学和遗传扰动处理的人类细胞系的基因表达。该数据集有可能促进候选药物的快速发现，并显著加速科学家对小分子和遗传扰动诱导的分子机制的理解。

尽管 L1000 检测产生了高质量的数据，但它只测量了 978 个标志性基因的 mRNA 表达。这些标志性基因是根据它们与转录组其余部分的正交性预先选择的，以最大限度地提高计算推断其余基因表达的能力。目前，通过计算可靠地推断出另外一组 11,350 个基因。但是，这留下了大约一半的蛋白质编码 mRNA 表达水平缺失。这限制了研究人员正确识别差异表达途径、将 L1000 数据与其他转录组学数据整合以及研究许多未测量和未推断基因的表达和活性的能力。

为了减轻当前可用的 L1000 配置文件的缺陷，将数据从一种格式转换为另一种格式的计算模型可能会很有用。近年来，深度学习在计算机辅助语言和图像翻译方面取得了重大进展。例如，使用 CycleGAN 的未配对图像到图像转换用于使用无监督方法学习一个图像域到另一个图像域之间的映射。CycleGAN 采用由两个生成器和两个鉴别器组成的生成对抗网络（GAN）架构。生成器从一个域中获取图像并将其转换为看起来像是来自另一个域。鉴别器试图预测给定图像是真实的还是生成的。鉴别器和生成器相互对抗，直到鉴别器不再能够区分真实图像和生成图像之间的差异。CycleGAN 引入了循环一致性的概念。第一个生成器输出的图像用作第二个生成器的输入，其中第二个生成器的输出应与原始图像匹配。

几项研究使用 GAN 和前馈神经网络来转换基因表达谱以用于各种任务，包括分析 L1000 数据。例如，GGAN 是一个条件生成对抗网络模型，具有一个生成器和一个鉴别器，它以 L1000 个标志性基因的基因表达为输入，并预测 9520 个未测量基因的基因表达。

生成器将标志性基因的基因表达谱作为输入，并生成 9520 个基因的表达。鉴别器预测剩余基因的基因表达谱是真实的还是生成的。D-GEX 是一个多任务多层前馈神经网络，它也将具有里程碑意义的 L1000 基因表达谱作为输入，并预测 11,350 个基因的表达。GGAN 和 D-GEX 改进了 Broad 研究所 Connectivity Map (CMAP) 团队开发的原始推理算法，该算法使用线性回归，可能会丢失已知存在于基因表达数据中的非线性关系。

此外，Ghahramani 团队使用 GAN 来降低单细胞 RNA-seq 配置文件的维数并预测扰动。Lee 和 Ahn 使用 CycleGAN 架构将来自肿瘤的基因表达模式转换为相应的正常组织图谱，而其他几个小组在该领域开发了其他应用程序。然而，这些先前的方法被应用于为同一域中的给定输入生成基因表达谱，而不是用于跨实验平台转换谱。先前的实现也适用于一组有限的基因，缺少许多蛋白质编码和非编码 mRNA 的测量。

在这里，西奈山伊坎医学院的研究人员提出了一个两步深度学习模型，该模型可靠地将 L1000 配置文件转换为 RNA-seq 样配置文件。该模型的第一步将测量的 978 个标志性基因的基因表达水平作为输入，并使用改进的 CycleGAN 模型将这些向量转换为类似 RNA-seq 的 978 个基因向量。该模型的第二步使用完全连接的神经网络（FCNN）模型将类 RNA-seq 978 基因载体外推到 23,614 维类 RNA-seq 全基因组谱中。这是第一次尝试使用深度学习将 L1000 配置文件转换为完整的 RNA-seq 样配置文件。

图示：模型架构。（来源：论文）

这里介绍的两步深度学习模型有效地将 L1000 配置文件转换为 RNA-seq 样配置文件。该模型的第一步使用改进的 CycleGAN 模型将 L1000 配置文件转换为标志性基因空间中的 RNA-seq 样配置文件。使用完全连接的人工神经网络模型将第一步预测的 RNA-seq 样图谱外推到全基因组空间。

图示：不同时期的训练进度。（来源：论文）

研究人员表明，即使没有通过 L1000 和 RNA-seq 测量的用于训练的配对转录组样本，该模型可以将 L1000 配置文件转换为具有未配对数据的类 RNA-seq 配置文件，这些数据丰富，可通过任一技术（即 L1000 和批量 RNA-seq）获得数百万个样本。此外，从 RNA-seq 样谱计算的签名可用于从可用的 L1000 谱中获得有关当前缺失的蛋白质编码基因的新知识。同样的方法可以扩展到预测非编码基因的表达。

L1000 测定旨在测量 978 个标志性基因的表达，同时推断其余基因的表达。目前，所有已发表的推理方法结果仅提供了另外 11,350 个蛋白质编码基因的表达。因此，单基因搜索仅适用于一半的人类编码基因，而不适用于非编码基因。尽管执行 RNA-seq 的成本正在下降，但在统一的环境中使用批量 RNA-seq 生成超过 3M 的基因表达谱仍然非常昂贵。

图示：在 978 地标空间比较预测和真实轮廓之间的相似性。(来源：论文)

此外，将 L1000 制成 RNA-seq-like 可能更好地在这两个平台上整合这些数据。大多数进行基因表达分析的个体研究人员使用批量或单细胞 RNA-seq。因此，预计使用转换后的 RNA-seq 类数据搜索所有 L1000 数据将产生更准确的搜索结果。

为了证明转换后的 L1000 特征的潜在效用，该团队开发了一种 Appyter，它可以预测可能上调或下调靶基因表达的药物和单基因扰动。通过使用基因 SFRP2 和 LGI3 查询 RGCSRS Appyter，这两个基因在衰老组织中始终存在差异表达，研究人员注意到已知会影响衰老过程的药物被高度优先考虑。其他研究较少的小分子和遗传扰动也排名很高，可以测试它们对衰老过程的影响。或者更直接地，SFRP2 和 LGI3 的蛋白质产物可以被抗体靶向，或作为重组蛋白或 mRNA 载体引入，以检查它们对衰老过程的影响。这些案例研究为许多其他应用打开了大门，以阐明其他生物学和药理学背景。

然而，类 RNA-seq 转换数据的用户应该意识到此类数据的局限性。例如，预测的 RNA-seq 样谱很难从 shRNA 和 CRISPR 敲低谱中预测目标单个基因的表达。预计 shRNA 或 CRISPR 谱中受扰动的敲低或敲除基因的表达低于其在对照谱中的表达。分析表明，两步深度学习模型可以很好地预测敲低或敲除基因如何影响全局整体表达谱，但无法很好地预测特定单个受干扰基因的表达。

将一个数据集转换到另一个域的整体方法可以扩展到其他应用程序。例如，预测长链非编码 RNA (lncRNA) 的表达和功能，或将用微阵列收集的表达谱转换为 RNA-seq 样。特别是，优先考虑可能调节 lncRNA 表达的小分子和单基因扰动可以阐明这些未充分研究的基因的作用。

此外，从一种组学分析技术到另一种的转换也可以促进其他多组学数据集之间的转换。将微阵列转换为 RNA-seq，将转录组学转换为蛋白质组学，将基因组学转换为转录组学，将单细胞 RNA-seq 转换为批量 RNA-seq，反之亦然，将显微镜成像转换为组学，或将组学转换为显微镜图像，即使没有匹配的配对样本也是如此。

论文链接：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04895-5

人工智能 × [ 生物神经科学数学物理材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。

欢迎关注标星，并点击右下角点赞和在看。

点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。

ZhouSa.com-周飒博客