生物信息数据挖掘用symbol而不用unigene_Hs.1

最近在以生物数据为研究对象,同步研究R语言软件。

发现学习这个事情,不论是对于小学生还是小学生的老师,都是难度类似的。尤其是按照自己既往的各种经验学习的还是,还强迫症不愿意借助Excel表格来实现的时候,深感难上加难。

生物信息数据挖掘用symbol而不用unigene_Hs.1

我观察到多种GEO生物学芯片的probe数据里,有些既有symbol数据同时也有Hs.98379等数据。


生物信息数据挖掘用symbol而不用unigene_Hs.1

在这个字母列里面,第一个||位置中间就是unigene的样子。第二||的位置为symbol的基因的名称。

可以看得见的是,这个unigene,往往会和symbol基因是一一对应的。

因为在如图这个表格GPL芯片数据中心,是混在一起的。需要用R来裂开,提取各自的基因名称。

那么用哪种呢?这里有坑。

如果我直接选择用第二个的symbol基因名称,发现这里有共27847个基因;然而我要是用hs.这unigene来的话,就能转换成更多的基因数。

但是问题来了,当我用pbmd进行个别验证的时候,和肉眼所遇见是一样的效果:例如上面有一些symbol为“RNA”类似的缺乏具体基因名的文件。


生物信息数据挖掘用symbol而不用unigene_Hs.1

最后,我认为自己R语言水平还不够。所以,还是采取直接用symbol数据。因为用unigene数据转换后的symbol数据有些和原来的芯片数据对应不上。应该是unigene的格式问题,因为即便unigene里面有一个空格,在c(“”)引号内的空格,R语言也会认为这里有数据,会给填补一个、符号进去。而改变了symbol的基因名。

下面的数据是我试验时候的代码。有些乱。但是逻辑简单。

c(probe11061$FDAS)

unigene9=as.character(unigene9)

unigene9=c(" RNA","PELI3","SRPK1")

unigene9=c(" RNA","PELI3","SRPK1")

unigene9=c("Hs.523789","Hs.523816","Hs.443861")

cols=c("ENTREZID","SYMBOL","UNIGENE")

select(org.Hs.eg.db,keys = unigene9,columns = cols,keytype = "UNIGENE")


生物信息数据挖掘用symbol而不用unigene_Hs.1

输出效果如上图。这里的数据会和原来的数据有差距。

在我验证之后,因为临近双11,要为赚钱最快的马云、马化腾添砖加瓦,所以,就暂时放弃了用unigene转换symbol基因的努力。但是我会再抽空搞清楚,如何让这堆混在一起的数据的“unigene”在R语言转换的时候,保持原样,不要因为多了空格什么的,导致找到的对应的symbol发生了改变。

unigene基因足足有3万5千行,而直接提取symbol只有2万7。少了大几千基因,对于后续数据的分析的影响可想而知。

尤其是对于这些较为旧的数据,因为科研的进步,之前没有具体symbol的数据,后来是有了对应的symbol的名称的,对于数据挖掘的话,用unigene显然更加高效、更可能挖到之前研究者不曾发现的数据。

然而,历史遗留原因,各种数据都是有困难的。

等我过完双11,过完双12。静下心来,好好研究通,再分享。


生物信息数据挖掘用symbol而不用unigene_Hs.1

这个时代,是大数据,是代码时代,即便如我一样七老八十的人,也是需要学习代码的。各位读者朋友,锻炼自己的大脑,给自己大脑一点点的刺激,就能减少老年痴呆,减少将来对老伴的依靠,对儿女的负担,学习代码也行,看书也行,总之啊,不要让生活太安逸了。

展开阅读全文

页面更新:2024-03-27

标签:添砖加瓦   空格   基因   小学生   表格   芯片   大脑   类似   名称   位置   效果   语言   代码   生物   发现   数据   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top