深度|生物信息学中的机器学习方法

摘 要:生物信息学是一门交叉学科,包含了生物信息的获取、管理、分析、解释和应用等方面,兴起于人类基因组计划。随着人类基因组计划的完成与深入,生物信息的研究工作由原来的计算生物学时代进入后基因组时代,后基因组时代中一个最重要的分支就是系统生物学。本文从信息科学的视角出发,详细论述了机器学习方法在计算生物学和系统生物学中的若干应用。

关键词:生物信息学;机器学习;序列比对;人类基因组;生物芯片

1.相关知识

1.1 生物信息学

生物信息学时生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它综合运用生物学、计算机科学和数学等多方面知识与方法,来阐明和理解大量生物数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。

生物信息学主要有三个组成部分:建立可以存放和管理大量生物信息学数据的数据库;研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具;使用这些工具去分析和解释不同类型的生物学数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达以及生化途径等。

生物信息学这个术语从20世纪90年代开始使用,最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。自从20世纪60年代就有了序列分析的计算机工具,但是那时并未引起人们很大的关注,直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。现在该术语已扩展到几乎覆盖各种类型的生物学数据,如蛋白质结构、基因表达和蛋白质互作等。

目前的生物信息学研究,已从早期以数据库的建立和DNA序列分析为主的阶段,转移到后基因组学时代以比较基因组学(comparative genomics)、功能基因组学(functional genomics)和整合基因组学(integrative genomics)为中心的新阶段。生物信息学的研究领域也迅速扩大。生物信息学涉及生物学、计算机学、数学、统计学等多门学科,从事生物信息学研究的工作者或生物信息学家可以来自以上任何一个领域而侧重于生物信息学的不同方面。事实上,我们今天正需要具备各种背景知识、才能和研究思路的研究人员,集思广益来共同面对生物信息学给我们带来的这史无前例的挑战。

深度|生物信息学中的机器学习方法

1.2 机器学习

机器学习是人工智能研究较为年轻的分支。学习是人类所具有的一种重要的智能行为,但究竟什么是学习,长期以来没有一个明确的定义。同样对于什么叫机器学习?至今我们仍不能给出一个唯一的定义。总的来说,机器学习就是通过学习获得经验,并以经验来修正系统的过程。我们也可给出稍微严格的提法:机器学习是一门研究及其获取新知识和新技能,并识别现有知识的学问,我们这里所说的极其,指的就是电子计算机,但以后可能是种子计算机、光子计算机甚至是神经计算机。

学习是一种复杂的与智能相关的活动,学习的过程是与推理过程紧密联系的。按照学习中使用推理的多少,其学习策略大体可分为4种:机械学习,通过传授学习,类比学习,通过实例学习。学习中所用推理越多,系统的能力也就越强。

环境向系统的学习部分提供某些信息,学习部分利用这些信息修改知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。在具体的应用中,环境,知识库和执行部分决定了具体的工作内容,学习部分所需要解决的问题完全由上述3部分确定。这三部分也既是机器学习系统的基本结构。

深度|生物信息学中的机器学习方法

2.生物信息学研究方向

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。

2.1序列比对

序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列,比较两个或多个序列的相似性,在数据库中搜索相关序列和子序列,寻找核苷酸(nucleotides)的连续产生模式,找出蛋白质和DNA序列中的信息成分。序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达10^9bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。

2.2蛋白质结构比对和预测

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。

2.3基因识别非编码区分析研究

基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列目前没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。

2.4分子进化和比较基因组学

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时,一般须处理三种情况:Orthologous:不同种族,相同功能的基因;Paralogous:相同种族,不同功能的基因;Xenologs:有机体间采用其他方式传递的基因,如被病毒注入的基因。这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。

2.5序列重叠群(Contigs)装配

根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。

深度|生物信息学中的机器学习方法

3. 生物信息学中的机器学习方法

3.1生物信息学中的机器学习主要思想

机器学习的观点是设计出一种像人类一样可以学习的机器,在复杂的环境中获得经验并从中获得智慧即从而在现有资料中挖掘出所需的信息。生物信息学所研究的课题涉及到从高度复杂的生物系统获得的大量数据中找到我们所需要的数据,因此机器学习对于研究生物信息学相关问题是适用的。

生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入。常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题。究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论。西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法。机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能。机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法。早期的科学方法——观测和假设,面对高数据的体积、快速的数据获取率和客观分析的要求,已经不能仅依赖于人的感知来处理了。因而,生物信息学与机器学习相结合也就成了必然。

机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息。机器学习与模式识别和统计推理密切相关,学习方法包括数据聚类,神经网络分类器和非线性回归等等。同时隐马尔可夫模型也广泛用于预测DNA的基因结构。目前研究重心包括:1)观测和探索有趣的现象。目前ML研究的焦点是如何可视化和探索高维向量数据,一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding)。2)生成假设和形式化模型来解释现象,大多数聚类方法可看成是拟合向量数据至某种简单分布的混合,在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中。机器学习也用于从基因数据库中获得相应的现象解释。

3.2机器学习在生物信息学的具体应用

3.2.1学习算法在序列比对中的应用:

序列比对时生物信息学基础,基本问题是比较两个和两个以上符号序列的相似性。目前英语对比分析的主要方法有:Needliman Wunsch动态规划算法、Smith Waterman算法以及Blast,Fasta等相似性比较程序,通过它们可进行进行两序列、多序列、局部序列乃至完整基因组的比较。

3.2.2学习算法在人类基因组研究中的应用:

人类基因组研究的目的是获取人的整套遗传密码,人类有32亿个碱基,要得到全部遗传密码首先要把人的基因组打碎,测完后再重新拼接。随着人类基因组的研究发展,利用机器学习进行基因识别正被广泛应用,这些方法主要有:神经网络算法、基于规则的方法、决策树和概率推理的等。此外基于隐马尔科夫模型EM训练算法和Viterbi序列分析算法以及FDR(False Discovery Rate)等方法在这一方面也都有成功的应用。

3.2.3学习算法在蛋白质研究中的应用

对蛋白质进行结构预测需要具体问题具体分析,在不用一直条件下对于不同的蛋白质采取不同的策略。目前利用机器学习方法预测蛋白质空间结构的方法主要有:折叠识别以及神经网络、隐马尔科夫、支持向量机等方法。此外决策树、贝叶斯网络、归纳逻辑编程等方法在蛋白质结构预测中也有成功案例。

3.2.4学习算法在生物芯片研究中的应用

生物芯片检测及分析技术是生物信息学中目前实用性较强的领域。基因芯片是生物芯片中研究最早、最先形成商品化的产品已得到广泛应用。目前很多机器学习方法可直接应用于基因芯片分析,如序列比较方法、贝叶斯神经网络方法和聚类方法等。

深度|生物信息学中的机器学习方法

4.总结

总的来说,机器学习加速了生物信息学的进展,也带了相应的问题。机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚。

来源:AI先锋周刊整理 资料来自网络

展开阅读全文

页面更新:2024-05-19

标签:学习方法   机器   生物   相似性   基因组   信息   生物学   序列   蛋白质   算法   基因   信息学   深度   结构   方法   数据   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top