人类细胞中的基因调控?人工智能来揭示

转录因子可以理解为基因表达的调控开关。这些基因表达调控关系到整个细胞的变化。医学人员正致力于了解和操纵细胞中各类调控信号,这是发现某些疾病新疗法的有效方法。然而,人类细胞内有众多转录因子,并且不同组织细胞内依赖的转录因子可能不同,可能需要多年的研究才能完成。

人类细胞中的基因调控?人工智能来揭示

芝加哥伊利诺伊大学的一个科学研究小组开发出一种基于机器学习算法软件系统——贝叶斯推理转录因子活动模型 (Bayesian inference transcription factor activity model,BITFAM)。该系统可以帮助科学家更有效地从scRNA-seq 数据中识别基因的转录因子,预测单个细胞中哪些转录因子最活跃。研究人员在肺、心脏和脑组织细胞中测试了系统。

该研究以「A Bayesian inference transcription factor activity model for the analysis of single-cell transcriptomes」为题,于2021年6月30日发布在《基因组研究》(Genome Research)杂志。

人类细胞中的基因调控?人工智能来揭示

单细胞 RNA 测序(Single-cell RNA sequencing,scRNA-seq)是一种强大的实验技术,可用于研究组织内单个细胞的转录组异质性,并发现具有不同生物学功能的新细胞亚群。当前,大多数分析方法都是使用某种形式的「基因表达数据转换」,来生成 scRNA-seq 低维数据表示,从而识别细胞间的距离。然而,这种基于低维空间中单个细胞的接近度来识别细胞簇的方法,并没有考虑到生物学背景。因此,基于这些表征的下游分析不一定能识别具有明确生物学功能的细胞亚群。此外,这些方法没有办法直接揭示已识别的细胞亚群中的调节机制。

研究人员提出一条思路,可以整合转录因子结合位点的已知生物学数据,然后再分析 scRNA-seq 数据。于是,引入了贝叶斯分层模型。该模型可以使用现有的转录因子 ChIP-seq 数据,来推断 scRNA-seq 数据中的转录因子活性,进而可用于下游分析。因此,BITFAM 是基于「单个细胞的 scRNA-seq 谱差异会反映不同潜在转录因子的活性状态」这一基本生物学原理设计的,模型原理如图示1所示。

BITFAM模型可以(1)将单细胞转录组谱分解为转录因子活性,(2) 确定每个 scRNA-seq 数据集中转录因子靶基因的排序,以及 (3) 执行下游分析,例如细胞亚群的聚类。

人类细胞中的基因调控?人工智能来揭示

图示1:BITFAM模型的概述。(来源:论文)

研究人员研究了 BITFAM 为每个细胞推断的转录因子 (TF) 活性是否具有生物学意义。在「Tabula Muris 肺数据集」和「血细胞发育数据集」两个数据集中展示了结果示例,它们代表了离散和连续情况下的两种实验研究典型场景(图示2)。

人类细胞中的基因调控?人工智能来揭示

图示2:由BITFAM推断出的转录因子活性对应于已知的生物功能。(来源:论文)

研究人员利用 GTRD 数据库,进一步检查了 BITFAM 模型中「学习权重矩阵 W 」的生物学意义。GTRD 数据库整合了从不同细胞类型和生物条件获得的 ChIP-seq 转录因子结合数据。在如此全面的转录因子靶基因列表中,许多转录因子可能有上千个潜在的靶基因;然而,在任何给定的细胞类型中,很可能这些潜在靶基因只有一小部分是真正被转录因子靶向的。BITFAM 学习每个数据集中潜在转录因子目标基因对的权重。这允许 BITFAM 根据权重的后验分布的平均值为任何给定的转录因子生成目标基因的排名(图示3)。

人类细胞中的基因调控?人工智能来揭示

图示3:BITFAM使用scRNA-seq数据生成首选转录因子靶基因的排名。(来源:论文)

研究人员还探讨了,推断的转录因子活性如何用于下游分析,以及活性模式是否会反映细胞亚群的不同功能。将 Louvain 算法应用于推断的转录因子活性,评估细胞间推断的转录因子活性距离,并识别细胞簇,这些距离通过 t-SNE 进行可视化。在 Tabula Muris 心脏数据中,BITFAM确定了六个细胞簇,并将它们与生物学定义的细胞亚群(例如心肌细胞、心内膜细胞、成纤维细胞和内皮细胞)进行比较(图示4)。

人类细胞中的基因调控?人工智能来揭示

图示4:通过推断转录因子活性的细胞亚群聚类。(来源:论文)

研究人员还在 CRISPRi 数据集中应用了 BITFAM,并使用基于 AUROC 的方法来评估性能。BITFAM 通过结合 ChIP-seq 预测的靶基因的经验知识,推断转录因子活性。为了确定 ChIP-seq 输入数据的重要性,研究人员用随机选择的输入基因替换 ChIP-seq 预测的靶基因,并将 BITFAM 应用于CRISPRi 和 Tabula Muris 肺数据集(图示5)。

人类细胞中的基因调控?人工智能来揭示

图示5:当先验知识变化时 BITFAM 的性能。(来源:论文)

研究人员将基于BITFAM和SCIENT推断的转录因子活性谱的聚类质量,与其他常用方法(如Seurat、SIMLR和SC3)的聚类结果进行了比较。基于三个指标评估聚类质量:调整的兰德指数(ARI)、兰德指数(RI)和归一化互信息(NMI);在 Tabula Muris 肺、心脏和大脑数据集中,与其他方法相比,基于 BITFAM 的聚类方法在 ARI、NMI 和 RI 方面显示出优势。

人类细胞中的基因调控?人工智能来揭示

图示6:BITFAM与其他方法的比较。(来源:论文)

综上所述,该团队开发了一个贝叶斯因子分析模型来推断单个细胞中的转录因子活性;这种方法可以开发关于每个细胞中调控转录因子的关键生物学假设,同时可以研究细胞亚群的生物功能。在未来,这项技术可能在心脏病、阿尔茨海默病等疾病的治疗中发挥重要作用。

展开阅读全文

页面更新:2024-06-10

标签:基因   细胞   转录   人工智能   图示   推断   研究人员   因子   生物学   下游   活性   模型   人类   来源   方法   数据   论文

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top