学习R语言,RStudio使用中,总会遇到各种问题;尤其是这种应用型计算机语言,应用虽多,但是学精不易的codeing,有1.7万packages的语言,只能是靠自己的不断摸索。遇到问题,就去找寻问题。
这次就遇到一个问题。我看到基因名称是这样的。文件是“ENSEMBLTRANS”。
在我下载的GEO GLP数据中,有colneme是GeneName,然而这些name又不是下面人类基因注释文件中的任意一项目,而且还有杂项。
> keytypes(org.Hs.eg.db)
[1] "ACCNUM" "ALIAS" "ENSEMBL" "ENSEMBLPROT" "ENSEMBLTRANS" "ENTREZID" "ENZYME" "EVIDENCE"
[9] "EVIDENCEALL" "GENENAME" "GO" "GOALL" "IPI" "MAP" "OMIM" "ONTOLOGY"
[17] "ONTOLOGYALL" "PATH" "PFAM" "PMID" "PROSITE" "REFSEQ" "SYMBOL" "UCSCKG"
[25] "UNIGENE" "UNIPROT"
欲将“ENSEMBLTRANS”转换成“SYMBLE”文件,以便后续分析。
代码如下:
ENSEMBLTRANS<-c(probe1021$V6)
cols<-c("SYMBOL","GENENAME")
select(org.Hs.eg.db,keys = c(probe1021$V6),columns = cols,keytype = "ENSEMBLTRANS")
结果如下:
可以看到很多NA,但是这总比不转换的要好,因为源文件中去重后有2万五的gene,其中一些没有名字的ensemble数据有2千多行,这些如果不转换,后续的GO.。KEGG等分析,就无法使用其中的基因,可能造成最终的富集有缺失。
因为这些芯片是几年前的芯片,当时一些基因还没有symbol名字,导致了整个文件不连续。
R语言4.0.3版本,昨天刚刚由R 4.0.2升级。
遇到问题想办法解决,每天进步一点点。
页面更新:2024-03-03
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号