基因名称更换ID注释代码ENST文件转symbol

学习R语言，RStudio使用中，总会遇到各种问题；尤其是这种应用型计算机语言，应用虽多，但是学精不易的codeing，有1.7万packages的语言，只能是靠自己的不断摸索。遇到问题，就去找寻问题。

这次就遇到一个问题。我看到基因名称是这样的。文件是“ENSEMBLTRANS”。

在我下载的GEO GLP数据中，有colneme是GeneName，然而这些name又不是下面人类基因注释文件中的任意一项目，而且还有杂项。

> keytypes(org.Hs.eg.db)

[1] "ACCNUM" "ALIAS" "ENSEMBL" "ENSEMBLPROT" "ENSEMBLTRANS" "ENTREZID" "ENZYME" "EVIDENCE"
[9] "EVIDENCEALL" "GENENAME" "GO" "GOALL" "IPI" "MAP" "OMIM" "ONTOLOGY"
[17] "ONTOLOGYALL" "PATH" "PFAM" "PMID" "PROSITE" "REFSEQ" "SYMBOL" "UCSCKG"
[25] "UNIGENE" "UNIPROT"

欲将“ENSEMBLTRANS”转换成“SYMBLE”文件，以便后续分析。

代码如下：

ENSEMBLTRANS<-c(probe1021$V6)
cols<-c("SYMBOL","GENENAME")
select(org.Hs.eg.db,keys = c(probe1021$V6),columns = cols,keytype = "ENSEMBLTRANS")

结果如下：

可以看到很多NA，但是这总比不转换的要好，因为源文件中去重后有2万五的gene，其中一些没有名字的ensemble数据有2千多行，这些如果不转换，后续的GO.。KEGG等分析，就无法使用其中的基因，可能造成最终的富集有缺失。

因为这些芯片是几年前的芯片，当时一些基因还没有symbol名字，导致了整个文件不连续。

R语言4.0.3版本，昨天刚刚由R 4.0.2升级。

遇到问题想办法解决，每天进步一点点。

展开阅读全文

页面更新：2024-03-03

标签：注释基因名称代码文件杂项源文件缺失要好芯片昨天名字版本语言数据

1 2 3 4 5

基因名称更换ID注释代码ENST文件转symbol

R語言library包無法寫入問題

keytypes(org.Hs.eg.db)基因的各种样子

Lenovo联想电脑系统重装U盘制作和辟坑指南

竟无一人是公心

变化是永恒的

legend画图R语言学习笔记single cell 网站

困在各自内心的自卑才是分手的缘由

装上英文版win10操作系统内汉字乱码不识别汉字的解决办法

笔记本电脑键盘被酒精擦拭之后坏了

喂奶若上坟卖房第一名

关闭EIST Support后i3 8100CPU频率快而稳

我们的世界竟然是灰烬的产物

对于生命来说活下去是最难的，人的话尤其是穷人

为什么network要找核心子网络

不服务能不能不缴费

keytypes(org.Hs.eg.db)基因的各种样子

legend画图R语言学习笔记single cell 网站

R语言中装载digest、export、GitHub包

R语言cbind、rbind对矩阵和数据库的数据合并逻辑

R语言装载officer其实就因为是免费所以维护成本高

生物信息数据挖掘用symbol而不用unigene_Hs.1

GSEA最常用的公用MSigDB数据库

R语言裂解数据提取特定的基因字段——不断尝试就能成

单细胞研究网站及其他R语言——像一头牛一样拖着车

R语言装packages心得体会笔记