AlphaFold 2 对蛋白结构研究领域的冲击有多大,听这五位专家怎么说

近期,DeepMind 在蛋白质结构预测领域公布的进展,无论是 AlphaFold 2 代码开源,还是预测人类蛋白质组并开源数据库,以及 AlphaFold 2 在蛋白质结构预测方面所展示的强大性能,在业界和公众之间都引发了广泛的讨论。

AlphaFold 2 对蛋白结构研究领域的冲击有多大,听这五位专家怎么说

在「重大突破」「深远影响」等诸多形容词之后,作为从业者,有必要深入了解 AlphaFold 2 及相关结果究竟给我们带来了什么,DeepMind 团队有哪些地方值得借鉴,今后的计算生物学、结构生物学等相关研究路会怎么走。

由此,为了满足广大读者需求,机器之心知识站特别策划了《AlphaFold 2「能」与「不能」》知识分享活动,8月11日晚,邀请了相关领域的五位专家(按姓氏笔画排序):

AlphaFold 2 对蛋白结构研究领域的冲击有多大,听这五位专家怎么说

龚新奇老师作为本次活动的主持人,主持了分享会。大家就 AlphaFold 2 本质创新点、开源后对分子动力学研究的影响等问题做了探讨。许锦波认为 AlphaFold 2 的本质创新是使用「端到端」的方法预测蛋白结构。该想法在学界已经被人提出过,DeepMind 厉害之处在于将其首次实现,并且取得如此高的结果。

与会的其他专家对此也纷纷表示同意。同时专家们认为,将来学界在面对需要大算力、大数据的项目研究时,多团队联合将是一个趋势。但许锦波也指出,要清楚为什么合作,多团队虽然可以增强研发能力,但是信息沟通等新问题也会大大影响合作效率。龚海鹏则表示,既需要有团队的合作,也需要有研究的多样性,优势互补才能更好的检验真知。

同时观看直播的专业观众也在评论区发表了众多看法。

AlphaFold 2 对蛋白结构研究领域的冲击有多大,听这五位专家怎么说

直播期间观众们的激烈讨论。


视频回放链接:https://jmq.h5.xeknow.com/s/2ZtoeT

点击文章底部阅读原文可观看视频回放。

下面是我们对活动的整理。


1、 AlphaFold 2 的本质创新点是什么?

许锦波:AlphaFold2 主要的创新点在于第二大模块。这个模块负责三维模型的生成,使得「端到端」蛋白结构预测方式成为可能。具体地说,AlphaFold2 分为两大模块;其中第一大模块主要是基于注意力机制的序列分析,Facebook 团队是最早把注意力机制引入到蛋白质序列建模;第二大模块是去直接生成三维结构,只有这样才能达到「端到端」的学习。当然,这个概念本身不是新的。「端到端」的结构预测最初是现在在哥伦比亚大学任教的穆罕默德最早提出来的,只是他并没有做成功。DeepMind 是第一个把「端到端」这个想法做成功了。同期的英国的 Jones 教授也在做一个「端到端」的结构预测方法,但是我想这个 Credit 应当属于DeepMind,因为只有 DeepMind 是真正地实现了一个超越以前方法的「端到端」模型。

杨建益:确实,「端到端」是 AlphaFold 2 最大的创新点。我们以前都是按照从多序列比对到二维距离或者角度方向的预测,然后再利用这些信息去重构它的三维结构;这样中间多了一步,就会有信息损失。「端到端」的好处在于使整个网络可以比较及时地反馈并训练这些参数,使得参数训练更方便,相比传统从「一维到二维再到三维」的过程有很大的优势。

龚海鹏:以前做预测的时候,先去预测 contact、distance;然后再根据这些约束,去搭建三维模型。AlphaFold 2 没有走 contact 和 distance 这条路,它的 distance 只是作为 loss 的一个约束。它通过「端到端」,就不需要分步去做 contact 和 distance 的预测。从这个角度上讲,「端到端」确实是 AlphaFold 2 的创新点。


2、AlphaFold 2 解决了 contact 、 distance 预测的问题吗?

龚海鹏:AlphaFold 2 通过端到端的方式,绕过了 contact、distance 的预测;但是从另一个角度来讲,它也解决了contact、distance 的预测。AlphaFold 2 的 distance 预测虽然只是作为一个约束,但是其 contact、distance 的预测结果置信度也很高。

AlphaFold 2 不只测了蛋白结构,还测了蛋白的 distance map,还有 contact map 等结果,并且都取得了相当高的置信度的结果。参赛的时候,在应对一些比较难的蛋白时,我们当时最好的程序腾讯的 tFold 预测可能也就是 40% 出头,而AlphaFold 2 的预测可以达 60%-70%。原因是 AlphaFold 2 在 contact 的预测过程中经过多次迭代(recycling),对很困难的目标蛋白,可以从 10% 直接提高到 70% 甚至 80%。实际上在不进行 recycling(或 cycle 数目设成1)时大家结果都差不多,但 DeepMind 的方法经过多次 recycling,就能够取得显著提升了。

AlphaFold 2 对蛋白结构研究领域的冲击有多大,听这五位专家怎么说

3、AlphaFold 2的成功会导致分子动力学角度研究蛋白质结构无事可做吗?

龚海鹏:如果是从单纯人工智能和机器学习的角度,或者是从生物外行的角度讲,会有一种 AlphaFold 2 似乎什么问题都解决了的错觉;但是实际上,从生命科学这个角度来讲,AlphaFold 2 所做的工作只是一个起始,在这之后还有很多的问题还得需要解决。

AlphaFold 2 所提供的仅是一个静态结构。蛋白质结构和功能的关系,是一个动态的;在执行工作过程中,每一部分都要发生一些局部或全局的构象变化,那么这些局部或全局的构象变化可能决定蛋白的活性。药物设计中,药物靶点的信息也是动态的。

以前做分子模拟的主要局限在于没有一个起始结构,只有等生物学实验解出一个结构,才能继续模拟分子动态变化、计算自由能等等工作。AlphaFold 2 可以给出一个大致靠谱的结构,这样做分子动力学模拟方面的科学家会有很大的机会。


4、蛋白折叠是折叠到能量最低的结构吗?以前挺多生物物理的研究是计算出能量最低的结构,请问这个研究方向还有价值吗?

龚海鹏:蛋白质怎么从氨基酸序列折叠成三维结构,是生物物理领域很重要的一个问题。现在的 AlphaFold 2 还解决不了这个问题。因为 AlphaFold 2 用的是 MSA,并没有真实解决「单序列到结构」这一映射关系。

蛋白质折叠问题原则上可以简化为在高维空间中寻找能量最低点的数学问题,因为天然态构象能量往往最低。这个问题表面上简单,但是该工作所涉及维度很大;其计算过程非常困难,在数学上可能很难解。过去几十年到现在,试图用物理或者数学的方式去做结构预测或者单位折叠的实验,基本都不成功。现在 DeepMind 给的解,是目前为止最好的一个解。

杨建益:从折叠机制去探索的话,难度大(需要处理众多高维数据)、门槛高(需要众多学科方面的专业知识),并且这种方法精度比较低;所以从事这方面工作的研究人员相对较少。

现在通过深度学习方法,能做得又快又好,并且门槛相对较低,所以将来从事这方面工作的研究人员会更多。

但是我觉得折叠机制依旧是比较重要的理论问题,对于基础研究本身是有推动的,同时对于算法的设计也可以提供参考,是有价值去做的。


5、AlphaFold 2 在蛋白互作领域有怎样的启发?特别是对于做蛋白互作 MAP 的研究人员,可以从哪些方面去应用 AlphaFold 2?

龚新奇:目前,我们是想要借鉴 AlphaFold 2 构建一个多体的服务结构预测的程序。可以用它来做一些,靶标受体蛋白大通量筛选;以往的筛选是先知道受体蛋白,然后去筛小分子,现在可以反过来,知道小分子去筛蛋白。中药中医方面的蛋白互作网络,以前由于结构信息比较少,所以一般通过序列去研究蛋白互作;现在 AlphaFold 2 能够提供结构信息,可以提高蛋白互作计算的准确度。

卜东波:我觉得 PPI 这个问题需要从两个方面来说:第一是过去已经有很多准确的晶体结构,用这些晶体结构做蛋白质相互作用预测,为何做不准?难点在哪里?这些问题需要仔细思考,不是有了 AlphaFold 2 就行了的。第二,如果使用 AlphaFold 2 这套框架做蛋白质相互作用预测的话,核心问题还是如何构建出「同时包含两个蛋白的 MSA」。

杨建益:对于蛋白互作预测,根据我们的经验,由于 PPI 结构数据相对较少,不需要训练专门的 PPI 网络,用单体数据训练的模型就可以用。

龚海鹏:蛋白互作的 MSA 确实很难做,因为互作的蛋白质往往在序列上距离很远,甚至不在同一条染色体上,因此无法根据常规序列比对方法获得残基间的关联突变信息。不能只靠多重序列比对之类的信息,可能还要靠其他的一些信息。因为这个领域需要依靠很多物理信息上的一些进展。

AlphaFold 2 对蛋白结构研究领域的冲击有多大,听这五位专家怎么说

6、当前蛋白预测的水平如何?蛋白结构预测方面还有哪些要改进?

杨建益:在 CASP14 的 79 个单域蛋白上,AlphaFold 2 基于多序列比对预测结构的 TM-score 是 0.87,而使用单序列预测就降低到 0.34。说明多序列比对信息是非常重要的。也反映了 AlphaFold 2 对于单一序列预测性能较差;我们的预测方法也有相似的表现。另外 AlphaFold 2 在多域蛋白上的预测要差于单域蛋白,TM-score 差距 0.1 左右。国内的研究与 AlphaFold 2 相比,有一定差距,但有望达到相当水平。

许锦波:我觉得 AlphaFold2 还是有很多地方可以进一步优化的;比如多序列对比处理方面,特别是对那些多序列对比比较大的蛋白。深度学习这个领域还在继续发展,也许会有更好的网络架构出现;工程上也可以做进一步优化。另一方面是用于机器训练的训练数据,能不能尽可能用更少的实验结构数据或者几乎不用实验结构数据去训练等。

龚海鹏:AlphaFold 2 关于后边三维结构建模部分,还有 recycling 部分,报告里面基本上是没有提到的,只是非常模糊的说一下。这部分的创新性很高,文章发表后让读者大有收获。但是将来蛋白质结构预测还需要在解决结构动态和挖掘单序列与结构间映射关系方面再做改进。


7、华盛顿大学David Baker采用多个团队联合研究与企业相抗衡的方式,会成为今后学术界做蛋白质结构预测的主流吗?

龚新奇:像 AlphaFold 2 这种多团队联合作战的模式,可能是今后学术界做学术研究一种主流方式。

杨建益:大家来自不同的大学,进行一些比较密切的合作,是很有必要的,可以把蛋白预测这个问题做得更好。

许锦波:我觉得团队合作,主要还是看研究什么问题。AlphaFold 2 出来之后,大家知道下面这条路大概该怎么走了,只是具体的实现方式不清楚。这时大规模的团队合作以及讨论,可以更快的找到合适的道路。但是如果想找到一个全新的不依赖于多序列对比的结构预测方法或者不使用深度学习的方法,可能还需要很多小的团队去从各个不同方向探索,先做 Proof of Concept。

龚海鹏:团队合作肯定会对蛋白质结构预测工程化是有帮助的,但是如果团队合作都沿着 AlphaFold 2 的方向去做工程化,那么就会有问题。任何一个团队开发出的算法都是有系统偏差的,那么现在 AlphaFold 2 本身一定是有系统偏差的,随着研究的增多,它的系统偏差会不断放大。所以既需要有团队的合作,也需要有多样性,在结构预测里边也应该有不同的实验组去做不同的方法。大家有互补性,那么才能够检验出某一个方法的准确性,能够做得更好。

卜东波:蛋白质结构预测这个问题既涉及生物物理学、生物化学,还涉及计算机算法、深度学习等,还有一个重要因素是工程能力,包括硬件系统和大的软件工程能力,以及「软硬协同」能力。

我觉得需要集中多个领域的力量才能做好这件事情。比如网络模型中「sequence presentation」和「pair presentation」之间加了一个箭头,为何加这个箭头?只有对蛋白质结构预测这个问题有深入思考、有足够的 biological insight 才能想出来的;换句话说,只有 AI 背景的人不太容易想出这个的。

但是怎样加这个箭头?又是深度学习的范畴了。

所以我个人认为,需要组织多个领域的研究者,才能做好这件事情。拿我们自己亲身经历的一件事情为例子:我们最近正在和寒武纪合作,用寒武纪神经网络芯片做蛋白质结构预测。我们发现需要对寒武纪神经网络芯片的软件栈做一些针对性的优化,才能够更有效率;如果这个芯片不是寒武纪自产的话,我们没法修改软件栈,提高效率就很受限了。


8、AlphaFold 2 安装时应注意的问题。

卜东波:AlphaFold 2 代码里的 Readme.md 写得非常清晰,按照 Readme 中的说明一步一步操作,应该没有大的问题。

碰到的困难主要有以下几点:

AlphaFold 2 在不断更新;现在的版本跟1个月前刚刚发布的版本已有一些不同。



展开阅读全文

页面更新:2024-05-23

标签:蛋白   结构   寒武纪   序列   蛋白质   模块   深度   角度   分子   团队   领域   方式   方法   专家   数据   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top