基因名称更换ID注释代码ENST文件转symbol

学习R语言,RStudio使用中,总会遇到各种问题;尤其是这种应用型计算机语言,应用虽多,但是学精不易的codeing,有1.7万packages的语言,只能是靠自己的不断摸索。遇到问题,就去找寻问题。

这次就遇到一个问题。我看到基因名称是这样的。文件是“ENSEMBLTRANS”。

基因名称更换ID注释代码ENST文件转symbol


在我下载的GEO GLP数据中,有colneme是GeneName,然而这些name又不是下面人类基因注释文件中的任意一项目,而且还有杂项。

> keytypes(org.Hs.eg.db)

[1] "ACCNUM" "ALIAS" "ENSEMBL" "ENSEMBLPROT" "ENSEMBLTRANS" "ENTREZID" "ENZYME" "EVIDENCE"

[9] "EVIDENCEALL" "GENENAME" "GO" "GOALL" "IPI" "MAP" "OMIM" "ONTOLOGY"

[17] "ONTOLOGYALL" "PATH" "PFAM" "PMID" "PROSITE" "REFSEQ" "SYMBOL" "UCSCKG"

[25] "UNIGENE" "UNIPROT"

欲将“ENSEMBLTRANS”转换成“SYMBLE”文件,以便后续分析。

代码如下:

ENSEMBLTRANS<-c(probe1021$V6)

cols<-c("SYMBOL","GENENAME")

select(org.Hs.eg.db,keys = c(probe1021$V6),columns = cols,keytype = "ENSEMBLTRANS")

结果如下:

基因名称更换ID注释代码ENST文件转symbol

可以看到很多NA,但是这总比不转换的要好,因为源文件中去重后有2万五的gene,其中一些没有名字的ensemble数据有2千多行,这些如果不转换,后续的GO.。KEGG等分析,就无法使用其中的基因,可能造成最终的富集有缺失。

因为这些芯片是几年前的芯片,当时一些基因还没有symbol名字,导致了整个文件不连续。

R语言4.0.3版本,昨天刚刚由R 4.0.2升级。

基因名称更换ID注释代码ENST文件转symbol

遇到问题想办法解决,每天进步一点点。

展开阅读全文

页面更新:2024-03-03

标签:注释   基因   名称   代码   文件   杂项   源文件   缺失   要好   芯片   昨天   名字   版本   语言   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top