MSigDB数据库
http://software.broadinstitute.org/gsea/msigdb
定义了已知基因集,包括H和C1-C7八个系列(Collection/cluster),每个系列内容为:
H: hallmark gene sets (效应)特征基因集合,共50组;
C1: positional gene sets 位置基因集合,根据染色体位置,共326个;
C2: curated gene sets:(专家)共识基因集合,基于通路、文献等(包括KEGG);
C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分;
C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;
C5: GO gene sets:Gene Ontology 基因本体论(包括BP/CC/MF);
C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 未发表芯片数据;
C7: immunologic signatures: 免疫相关基因集合。
后续做分析时需要从中选择感兴趣的基因集。
很显然,这个数据集里,各数据中包含的“兴趣爱好”基因不论是从名称、功能、还是数量上都是有所不同的。
这个数据库,最明显的优势依据是,认为生物的所有的工程,绝非是一个基因或者几个基因导致结果;必然是一群基因协作的结果。
从Hallmark到C7,免疫集合。
另外,看到哪个集合,可以点击后,大体看看有些什么基因。也可以直接提取出来,做ven图之列的交集分析。
再专门记录上这个页面的网址:
https://www.gsea-msigdb.org/gsea/msigdb/genesets.jsp?collection=C7
1. H: hallmark gene sets
该类别包含了由多个已知的基因集构成的超基因集,每个H类别的基因集都对应多个基础的其他类别的基因集。比如HALLMARK_ADIPOGENESIS对应36个基因集。
说明一下:Hallmark gene sets 一般都会有结果。
其他的,只能看运气。
另外就是在gene名称转换的时候,如果丢失太多,会影响结果。
2. C1: positional gene sets
该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。
3. C2:curated gene sets
该类别包含了已知数据库,文献和专家支持的基因集信息,包含5个二级分类
在应用中,如果实在是无法在8个现有的基因集中找到某个符合自己研究方向的有意义的分析结果,那么还可以用随机GSEA来分析。尤其如果想做一些开创性的研究,可以用这个"RGSEA"package试验一下。http://www.bioconductor.org/packages/release/bioc/html/RGSEA.html
4.x版本后的装载
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("RGSEA")
页面更新:2024-03-16
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号