用scDALI建模方式,对单细胞的等位基因异质性进行研究

在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持。

前言

遗传变异对基因表达等分子性状的功能影响可受到细胞类型或细胞状态的影响。特别是增强子元件中的非编码变异可以影响基因在一个组织中的表达,而不是在其他组织中。群体规模的遗传学研究,使用跨个体的大规模测序,已经确定了许多这样的组织特异性的和发育阶段特异性效应,这通常涉及罕见的遗传变异。

即使是仔细解剖的组织也是由异质细胞类型组成的,因此激发了单细胞测序的应用来揭示遗传效应的细胞状态依赖性。最近在体外模型中进行的单细胞RNAseq研究揭示了不同细胞过渡中的遗传依赖性的变化。

单细胞的等位基因

大多数现有的单细胞遗传学研究的分析策略,都是基于最初为批量测序数据开发的计算方法,需要细胞状态的离散化,因此可能无法检测到更细粒度的调控差异。

计算策略允许对细胞状态特异性效应的无偏性识别才刚刚开始出现,目前依赖于对大量基因多样性个体的分析,这尤其限制了体内分析和非人类模型系统。后者可以通过测量等位基因特异性信号来解决,即分别量化每个单倍型的分子性状。

这原则上允许在单个个体中识别遗传效应。结合等位基因特异性定量与单细胞技术的使用可能是一种强有力的策略,来解剖复杂组织中包含的多种细胞类型内和跨遗传变异的功能影响。

先前的研究已经在单细胞水平上量化了等位基因特异性,以表征基因表达的转录爆发和随机性然而在单细胞水平上揭示等位基因调控的等位基因特异性的模式分析才刚刚开始出现,并且没有建立这一任务的原则性计算方法。

为了解决上述挑战,我们开发了一个通用的计算模型和分析框架,scDALI(单细胞差异等位基因失衡)。scDALI利用单个细胞中的等位基因特异性定量来识别和全面测试不同类型的等位基因效应,包括在所有细胞状态中共享的同质效应或特定于某些细胞状态的异质效应。

直观地说,我们的模型在精神上与差异表达测试相似,但旨在识别表现出异质性等位基因失衡的位点,而不是总表达的变异。重要的是,该模型不需要先验地定义细胞状态或簇,并且可以处理离散的细胞状态或连续的过渡。

此外scDALI可以从单个细胞的稀疏测序数据中估计等位基因的不平衡,从而促进等位基因调控的可视化和下游解释。scDALI适用于从不同的模式和测序技术中获得的单细胞数据集。

我们应用scDALI研究了黑腹果蝇F1发育胚胎中单细胞染色质可及性数据(sciATAC-seq)的等位基因特异性变异,在那里我们发现了数百个在特定细胞类型或发育阶段存在等位基因失衡的调控区域。

在这些效应中,我们确定了在不同细胞系中具有相反等位基因失衡的假定增强子区域,这被批量分析所遗漏了。然后我们利用scDALI,通过评估单细胞转录组的等位基因调控,精细绘制了人类诱导多能干细胞(iPSC)群体队列中已知表达数量性状位点(eQTL)的细胞类型特异性。

与以前的方法相比,scDALI提供了更高的检测能力,并揭示了细胞状态的细微差异如何显著影响等位基因调控。因此,scDALI适用于不同的物种和数据类型,并利用单细胞技术来避免细胞分选,从而提供了以系统和无偏不倚的方式发现和量化细胞状态特异性遗传效应的功能影响的方法。

使用模拟数据进行模型验证

最初,我们使用模拟数据验证了我们的方法,该数据旨在模拟一个非常异构的样本(来自整个胚胎的单细胞数据),通过适应来自整个黑腹果蝇胚胎的经验sciATAC-seq档案的关键参数连续和离散的细胞状态。

然后我们通过模拟相应的零模型来评估所有三个scDALI测试的校准,确认了均匀分布的P值。值得注意的是,使用二项式而不是-二项式观察模型的scDALI-Het的一个变体并没有在从真实数据估计的过分散水平上进行校准。

我们还考虑了两种对经验等位基因率建模的替代检验(母亲计数除以总计数,单向方差分析、离散聚类之间的差异检验和基于普通最小二乘回归模型(OLS,方法)的多自由度似然比检验。当方差分析模型被校准时,OLS模型导致了膨胀。

接下来,我们模拟了scDALI模型中的等位基因计数,改变了均质和异质等位基因不平衡的比例,正如预期的那样,scDALI-Joint识别了这两类的影响,概括了个别测试scDALI-Het和scDALI-Hom。

然后我们继续模拟等位基因计数,或假设连续状态,从这些状态得到的离散细胞状态簇,或它们的加权组合,我们将scDALI与基于离散细胞状态表示的方差分析检验进行了比较,发现scDALI-Het在存在额外的连续变化的情况下提供了实质性的优势,而方差分析最适合检测纯离散效应。

我们还考虑了一系列额外的设置,改变了过度分散的水平,和核方差,发现scDALI对一系列不同的参数具有鲁棒性。scDALI是作为计算效率高的开源软件实现的,可以扩展到具有多达数万个单元格的大型数据集的分析。

scDALI鉴定了scATAC-seq发育过程中的异质等位基因失衡

在验证了该模型后,我们将scDALI应用于黑腹果蝇f1杂交胚胎的胚胎发育过程中的开放染色质区域。我们通过sciATAC-seq分析了F1胚胎的单细胞染色质可及性,这是通过将同一母亲与四个基因不同的父亲交配获得的。

确保我们捕获监管变异与主要发展事件,我们收集胚胎从四个F1交叉胚胎发育的三个关键阶段,对应阶段当大多数细胞是多能的,或进行血统承诺,或组织分化,分别对得到的12个sciATAC-seq库进行测序,生成了一个包含35,485个单细胞的数据集(每个杂交细胞在8000到10,000个细胞之间)。

这些数据集通过了严格的质量指标,总的来说我们的数据集具有高质量sciATAC-seq的所有特征,包括适当的核小体条带模式,并与之前从参考菌株中的时间匹配的sciATAC-seq数据集中识别出的峰高度一致。

为了推断所有时间点和交叉的共同细胞状态表示,我们采用了之前为scRNA-seq数据开发的scRNA-seq来表示scATAC-seq。

简单地说,VAE是一种具有概率瓶颈层的神经网络,它通过将高维观测值压缩到低维潜在空间来学习数据的分布。我们的实现包含了一个针对scATAC-seq数据的二进制性质的大小因子调整的伯努利似然模型。

该模型不仅集成了跨数据集和批次的测量值,而且还允许显式地对开发数据集的不同采样时间的建模信息。这种扩展使我们的模型能够通过耦合VAE目标函数与一个回归问题来推断细胞的连续时间顺序,从而从潜在的细胞状态表示中预测采样时间。

我们使用所有交叉点和时间点上的前25,000个最容易接近的峰值来训练该模型。VAE为所有F1杂交产生了一个良好对齐的潜在空间。我们使用VAE潜在空间来定义scDALI的细胞状态协方。

为了注释单元格类型,使用Leiden算法,基于这种低维表示对单元格进行了聚类,然后基于胚胎发生过程中特定组织的增强子的体内时空活性和已知组织特异性表达基因的富集进行组织身份分配。

四个可能对应于条形码冲突的具有模糊注释的较小的集群被排除在进一步的分析之外。这个注释过程解决了代表主要胚胎谱系的7个细胞群,包括肌肉、神经系统和外胚层接下来,我们在等位基因特异性的水平上量化了染色质的可及性。

我们应用WASP [13]来避免等位基因映射伪影,过滤了7-8%的映射读取。等位基因特异性的染色质可及性在以ATAC峰为中心的1 kb区域内被量化,要求每个读取至少重叠一个杂合子变异。

这导致了20%的reads的单倍型分配,丢弃山峰后与低等位基因覆盖率(平均数读取可以分配给等位基因< 0.1),我们获得8040和12861开放染色质峰每交叉进一步分析导致组合39530峰测试。

大多数与疾病相关的变异影响非编码区,破坏了增强子和启动子等调控元件的功能。由于增强子调节基因表达的时间和地点,增强子内的遗传变异自然具有细胞类型特异性的效应。然而,捕捉和理解这些基因效应是一个巨大的挑战。

为了解决这个问题,我们开发了scDALI,一个计算框架,以无偏不倚的方式从单细胞测序数据中表征遗传效应的细胞类型特异性。我们的模型提供了一个原则的策略利用两个独立的信号,可以从相同的测序实验,无论是基因表达或表观遗传数据。

我们用来获得细胞类型和状态,和等位基因的量化基因效应的基因特性,如基因或ATAC峰值的可访问性。结合这两种测量方法,我们可以测试普遍的、均匀的不平衡和细胞状态特异性的异质性效应,而不需要预先定义细胞类型或细胞状态。

虽然我们的方法揭示了许多新的假定增强子,但它也有其局限性。这项工作的重点在于表征已知数量性状位点的细胞状态特异性效应,以及来自少数可用个体甚至单个样本的遗传效应的定位。

特别是,我们没有测试细胞状态和遗传变异的存在之间的相互作用,这阻止了我们的模型发现与细胞状态特异性等位基因失衡相关的潜在因果位点。虽然原则上,可以将等位基因分析与基因型数据相结合来确定因果关系。

基因组生物学这需要更多的独特基因型。此即使是使用单细胞测序的群体规模研究,主要的兴趣是鉴定已知的位点,而不是发现新的效应。这些考虑的原因是在批量和单细胞数据中检测eQTL的能力的差异,以及目前可以使用单细胞读数分析的样本大小。

结果

所有基因的总基因表达计数和4470个先前鉴定的snp-基因对(4422个eQTL先导变异)的等位基因特异性定量,简单地说,reads最初被定位到每个细胞中每个杂合子SNP的参考和替代等位基因上,然后使用已知的相位信息相对于每条染色体的基因型进行分配。

展开阅读全文

页面更新:2024-04-01

标签:单细胞   特异性   等位基因   胚胎   建模   基因   效应   细胞   模型   状态   方式   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top