GSEA最常用的公用MSigDB数据库

MSigDB数据库

http://software.broadinstitute.org/gsea/msigdb

定义了已知基因集，包括H和C1-C7八个系列（Collection/cluster），每个系列内容为：

H: hallmark gene sets （效应）特征基因集合，共50组；

C1: positional gene sets 位置基因集合，根据染色体位置，共326个；

C2: curated gene sets：（专家）共识基因集合，基于通路、文献等（包括KEGG）；

C3: motif gene sets：模式基因集合，主要包括microRNA和转录因子靶基因两部分；

C4: computational gene sets：计算基因集合，通过挖掘癌症相关芯片数据定义的基因集合；

C5: GO gene sets：Gene Ontology 基因本体论（包括BP/CC/MF）；

C6: oncogenic signatures：癌症特征基因集合，大部分来源于NCBI GEO 未发表芯片数据；

C7: immunologic signatures: 免疫相关基因集合。

后续做分析时需要从中选择感兴趣的基因集。

很显然，这个数据集里，各数据中包含的“兴趣爱好”基因不论是从名称、功能、还是数量上都是有所不同的。

这个数据库，最明显的优势依据是，认为生物的所有的工程，绝非是一个基因或者几个基因导致结果；必然是一群基因协作的结果。

从Hallmark到C7，免疫集合。

另外，看到哪个集合，可以点击后，大体看看有些什么基因。也可以直接提取出来，做ven图之列的交集分析。

再专门记录上这个页面的网址：

https://www.gsea-msigdb.org/gsea/msigdb/genesets.jsp?collection=C7

1. H: hallmark gene sets
该类别包含了由多个已知的基因集构成的超基因集，每个H类别的基因集都对应多个基础的其他类别的基因集。比如HALLMARK_ADIPOGENESIS对应36个基因集。
说明一下：Hallmark gene sets 一般都会有结果。
其他的，只能看运气。
另外就是在gene名称转换的时候，如果丢失太多，会影响结果。
2. C1: positional gene sets
该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。
3. C2:curated gene sets
该类别包含了已知数据库，文献和专家支持的基因集信息，包含5个二级分类

在应用中，如果实在是无法在8个现有的基因集中找到某个符合自己研究方向的有意义的分析结果，那么还可以用随机GSEA来分析。尤其如果想做一些开创性的研究，可以用这个"RGSEA"package试验一下。http://www.bioconductor.org/packages/release/bioc/html/RGSEA.html

4.x版本后的装载

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("RGSEA")

展开阅读全文

页面更新：2024-03-16

标签：数据库本体论染色体癌症基因免疫文献芯片特征定义类别位置名称专家数据

1 2 3 4 5

脚洗菜无孔不入的恶毒

武汉东湖学院食堂档口“品味轩”工作人员，存在用脚洗菜和捡地上香肠的情况。看到这种新闻，我不知道是对文中描述的太形象生动还是还是“过度”联想；总之觉得在外面吃的东西，都不干净!心底的恶心突然就来了。本来说是晚饭

劣等文化钱是万能通行证

而钱成为通行证，你还拿它没办法，只能接受。这是比钱是通行证更加可怕的劣根性。人本来是具有精神文化、科学追求的动物。不只是只是“吃、喝、拉、撒、睡、性……”的动物基本元素的生命。然而你看看，看个房，也要验资，你要

揭开自卑的深层原因

normal的生活，每个人都期待，然而并非易事。今天中午因为工作原因，到同事家里“就近顺便吃饭”。吃饭中，家里同事的父亲，一个人“躲在一个房间里吃”，而同事的家里饭桌1.8米长，1米宽。我“叔叔，你来这里大家一起吃吧，你对我还不

R语言裂解数据提取特定的基因字段——不断尝试就能成功

library(GEOquery)GPL6244

如果不幸福你为什么要将就

千万不要得到的结论是：懒！what are you waiting for？拿失火举例，每年都有人因火而丧命，给短暂的人生按下快捷键。如果房子着火了，火势不大，你需要立即救火，而不是看着火势变大烧掉你关心的一切；如果你发现着火的时候，救火已经太

亲子关系里难以把握的关心过度

首先，咱们不学那些自以为高人一等的人，凡事都要杠，找特殊，搞特色，喜欢与全世界为敌。他们坏，咱不学他们。我们只谈常人、大多数。那些搞特色、另类，实则是骗子、霸权咱不跟他们谈！话不投机半句多！~父母做错了，就是错位的父母。

人生的苦大概是回不去了

记忆里的冬天很温暖。小时候，每当冬天天来临，必然要有大雪纷纷的日子，什么鹅毛大雪，什么飘飘雪砂子，什么屋檐吊着冰，什么千树万树梨花开，什么小伙伴一下课就出去滑雪，打雪仗，校园里很快是漫天白色被踩上的脚印，街道上的店铺门口

每个人都他的胆怯地方

每个人都期望在自己的主场中，肆意发挥，自由生活；然而人并不是总能心想事成，恣意妄为的。毫无疑问，全世界，政要权力大，而以美国的政要权力更为大，谁叫人家是世界第一经济体呢？亚利桑那州，被拿下了。即便是大船也有翻的时候。贵及

单细胞研究网站及其他R语言——像一头牛一样拖着车

重要的东西直接放cellmarker 网站http://biocc.hrbmu.edu.cn/CellMarker/index.jsp记录一些各种网站查阅到地代码（目的就是让自己不断的理解别人的代码，当一下子能够看懂别人代码的时候，说明自己的水平快要达到所看代码

福听阅读器ヾ(ToT)Bye~Bye~了

电脑上装个pdf阅读器，是必然地。然而，有些阅读器，不知道哪里来的底气，界面奇差，还一直要打广告第一页。对于笔记本电脑屏幕不是很大的人来说，你在这个800像素的宽度上，自己站了200多的宽度，你让大家不断的下拉，于心何忍呢？你的

河北衡水中学折射出学校的思维和眼界

当一匹马在一群奔跑的马群里的时候，它会不由自主的和马群一起奔跑，可能终究成为驰骋草原的千里马；但是，它若是和一群拉货的马儿在一起，终究只能沦落为奋力向前的驮着重物的马匹。……yourworld 20201207当一个人在一群喜欢

想骗90后接盘炒房比骗80后难度大了很多

独生子女最擅长是自私！却不自信！九十后独生子女很多，爱他们的人，从前是爸爸妈妈爷爷奶奶，甚至还有外公外婆，被一群人手心里捧着，他们从小被人哄着多了；被哄习惯的人，不容易被你那广告哄骗。你想让他们为了“荣耀、虚伪”而买房

瑞雪兆丰年：对猪好为肉对鱼亲为钓对麦子感冒为来年

人类从游牧到农耕，看起来是在发展生产的步调上不断的推陈出新。但是即便动机没变：总是为了些什么。没有无来由的对你好的人！甚至父母养你的目的也不会单纯：为了给自己存一点基因，为了实现自己未能完成的愿望，为了你给他们养

自信和自卑

人无完人，再大的成就也终归黄土；再不济的人，也是十月怀胎的生命壮举。自信的人只关注自己的优点；而自卑的人极限的放大自己的缺点。——yourworld 20201211在这个日益激烈的社会，自信的人越来越少；因为人们从小学到大学，都发

头条号是我心灵窗口

我把头条号当做一个自我思想情感表露的阵地，想要战胜的敌人就是那些人性中不完美、文化中不智慧、行为里令人不悦……这个号是我的日志本吧。很多时候，我是遇见什么不平事，就说甚事情；想什么就说什么，不做违心的加工，不做虚

上滑加载更多 ↓

GSEA最常用的公用MSigDB数据库

脚洗菜无孔不入的恶毒

劣等文化钱是万能通行证

揭开自卑的深层原因

R语言裂解数据提取特定的基因字段——不断尝试就能成功

如果不幸福你为什么要将就

亲子关系里难以把握的关心过度

人生的苦大概是回不去了

每个人都他的胆怯地方

单细胞研究网站及其他R语言——像一头牛一样拖着车

福听阅读器ヾ(ToT)Bye~Bye~了

河北衡水中学折射出学校的思维和眼界

想骗90后接盘炒房比骗80后难度大了很多

瑞雪兆丰年：对猪好为肉对鱼亲为钓对麦子感冒为来年

自信和自卑

头条号是我心灵窗口

R语言裂解数据提取特定的基因字段——不断尝试就能成

纽哈顿国际早教专家 | Julie老师：用热爱承载孩子的未来

早教专家：这3种类型的孩子更容易受欺负，家长需要注意

限前20名，不会育儿家长福利，专家亲手指导，一堂课走出育儿

现金会“缩水”，房子也会贬值？专家“坦言”：手握2样东西

三胎真要来了？二胎“催生”无效后，专家呼吁：实行高考加分

“楼市崩盘”前夕，日本“这些现象”正在上演？专家“8字

房产税来了？专家提出“免征面积”，人均超过40平，每年要交

10年后，这“3类房子”或很难出手？对此，专家一句话解释很

下半年起，楼市或进入“冷却期”？对此，专家14字回应，不用争