北鲲云为基因测序数据分析提供算力基石

我国十三五期间对150万人进行了基因组测序,每个人大约产生300-500GB的数据,基因数据总量在十三五末期达到EB级别。而对于宏基因组学,仅1克土壤样品的宏基因组测序就可以产生50TB的原始数据。当前基因组数据正以12-18个月10倍以上的速度增长,远远超过了著名的摩尔定律。

北鲲云为基因测序数据分析提供算力基石

如何高效处理大规模基因测序数据是高性能处理生物信息分析必须面对的课题,而对大规模的生物信息数据的研究将有助于突破健康医疗、环境污染、新能源等领域传统方法的限制,为相关行业的发展提供新的解决方法。

基因测序数据分析需要海量算力的支持

基本的数据处理和分析涉及以下四步:第一步,对测序获取的短序列进行比对拼接;第二步,比对拼接后,进行全基因组基因注释。包括基因组组分分析,SNP分析,编码基因预测,重复序列注释,Non-codingRNA基因注释,MicroRNA基因注释等;第三步,对预测的基因进行功能注释;第四步,比较基因组和分子进化分析,如快速进化分析、共线性分析、基因家族分析等。常用的进化树分析软件如 MEGA。

北鲲云为基因测序数据分析提供算力基石


在整个过程中,需要用到近百种软件。各个软件资源使用特征又差别很大,例如,拼接软件需要大量的内存消耗,比对软件则是典型的数据密集型计算。复杂的生物信息计算使得生物测序数据的处理和分析需要海量的计算资源,这对高性能计算平台提出了更高的要求。

如何高效进行基因测序数据分析?

鉴于许多用户受限于内存容量以及相应的计算能力而不能应用于大规模超长生物序列分析工作,北鲲云提供包括基因测序数据分析软件、计算资源、数据库的整体解决方案,帮助用户解决高通量测序所带来的海量生物数据的存储与处理等问题。用户无需任何编程基础,无需安装复杂的生物信息数据分析对比软件,无需下载庞大的生物数据库,只需在图形化界面进行简单点击操作,就能在云上搞定基因测序数据分析。

北鲲云预装了300+行业主流软件以及Genbank、EMBL等常用参考数据库,并提供高性能计算软件及基于各种MPI的自研软件的安装、部署、调试服务;峰值计算能力达到140Pflops,存储容量为10PB,可极大地加快生物测序数据处理过程,提高研究效率。

数据资源的极速膨胀迫使人们需求一种强有力的工具去分析这些数据,从海量的生物学数据中需求生物学规律,这些规律是解释生命之谜的关键。在这条生命科学的漫漫征程中,北鲲云将紧跟科技的发展和用户需求的变化,持续进行研发迭代升级,伴随生命科学行业一路前行。

除基因测序数据分析外,北鲲云还提供了蛋白折叠、虚拟筛选、蛋白结构模拟、分子动力学模拟等应用场景的高性能计算解决方案,助力生命科学领域的研究和发展。

展开阅读全文

页面更新:2024-04-22

标签:序数   基因   基因组   高效   生命科学   基石   海量   注释   序列   需求   生物   数据   用户   资源   信息   软件

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top