GSEA最常用的公用MSigDB数据库

MSigDB数据库

http://software.broadinstitute.org/gsea/msigdb


GSEA最常用的公用MSigDB数据库


定义了已知基因集,包括H和C1-C7八个系列(Collection/cluster),每个系列内容为:

H: hallmark gene sets (效应)特征基因集合,共50组;

C1: positional gene sets 位置基因集合,根据染色体位置,共326个;

C2: curated gene sets:(专家)共识基因集合,基于通路、文献等(包括KEGG);

C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分;

C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;

C5: GO gene sets:Gene Ontology 基因本体论(包括BP/CC/MF);

C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 未发表芯片数据;

C7: immunologic signatures: 免疫相关基因集合。

后续做分析时需要从中选择感兴趣的基因集。

很显然,这个数据集里,各数据中包含的“兴趣爱好”基因不论是从名称、功能、还是数量上都是有所不同的。

这个数据库,最明显的优势依据是,认为生物的所有的工程,绝非是一个基因或者几个基因导致结果;必然是一群基因协作的结果。


GSEA最常用的公用MSigDB数据库

从Hallmark到C7,免疫集合。

另外,看到哪个集合,可以点击后,大体看看有些什么基因。也可以直接提取出来,做ven图之列的交集分析。


GSEA最常用的公用MSigDB数据库

再专门记录上这个页面的网址:

https://www.gsea-msigdb.org/gsea/msigdb/genesets.jsp?collection=C7

1. H: hallmark gene sets

该类别包含了由多个已知的基因集构成的超基因集,每个H类别的基因集都对应多个基础的其他类别的基因集。比如HALLMARK_ADIPOGENESIS对应36个基因集。

说明一下:Hallmark gene sets 一般都会有结果。

其他的,只能看运气。

另外就是在gene名称转换的时候,如果丢失太多,会影响结果。

2. C1: positional gene sets

该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。

3. C2:curated gene sets

该类别包含了已知数据库,文献和专家支持的基因集信息,包含5个二级分类

GSEA最常用的公用MSigDB数据库

在应用中,如果实在是无法在8个现有的基因集中找到某个符合自己研究方向的有意义的分析结果,那么还可以用随机GSEA来分析。尤其如果想做一些开创性的研究,可以用这个"RGSEA"package试验一下。http://www.bioconductor.org/packages/release/bioc/html/RGSEA.html

4.x版本后的装载

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("RGSEA")
展开阅读全文

页面更新:2024-03-16

标签:数据库   本体论   染色体   癌症   基因   免疫   文献   芯片   特征   定义   类别   位置   名称   专家   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top