无需「协同进化」信息,芝加哥许锦波团队最新研究登上Nature子刊

作者/文龙

给你几幅几何图形的图片,让你推断出下一张图片的样式……我们应该都做过类似的图形推理行测题,这类任务也是深度学习十分擅长的。类似地,如果有了氨基酸序列和蛋白质结构一一对应的模板,计算机能够以很高地准确率预测出与模板相近的蛋白质的结构。但是,如果蛋白质序列与模板相差较大呢?

最近,来自芝加哥丰田计算技术研究所的许锦波教授团队向我们展示了他们的最新研究。通过使用表现较好的 RseNet (卷积残差神经网络),在不使用协同进化(co-evolution)信息的条件下,依然可以保持较高的蛋白质结构预测水平,并在预测人工设计的蛋白质的结构时表现得更好。这一发现对蛋白质工程和蛋白质设计都具有重要意义。

这项研究于5月20日以 Improved protein structure prediction by deep learning irrespective of co-evolution information 为题发表在杂志《自然·机器智能》(Nature Machine Intelligence)上。

无需「协同进化」信息,芝加哥许锦波团队最新研究登上Nature子刊

蛋白质结构预测长期以来一直是生物化学中一个核心的问题,对生命科学和医学带来巨大的好处。通过氨基酸序列准确预测出蛋白质结构可以极大地加快了解细胞的组成,并使更快、更先进的药物发现成为可能。

「协同进化(co-evolution)」是指同一蛋白质的两个残基同时突变。深度学习在结构预测中的成功通常归因于其对协同进化信息的利用,特别是通过直接耦合方法(如 EVfold,GREMLIN 和 CCMpred)产生的协同进化信息。但是,蛋白质结构数据的体量异常庞大,只有一部分具有较深的蛋白质的多重序列联配(MSA)。并且,在自然界中,蛋白质在折叠时并不知道自己的序列同源物。

ResNet 是深度学习中卷积神经网络的一种,即使是相对较浅的 ResNet 在蛋白质结构预测中也有良好的表现。因此,许教授团队基于先前的工作研究了 ResNet 在人工设计的蛋白质和天然蛋白质上的表现如何,以及其对协同进化信号的形式和丰度的依赖性。

无需「协同进化」信息,芝加哥许锦波团队最新研究登上Nature子刊

图示:沿用先前 CASP13 竞赛中所使用的 ResNet 框架。(来源:论文)

结果显示,经过序列图谱训练的 ResNet 可以预测 CASP13 数据集中一半以上的蛋白质结构和所有人工设计的蛋白质的正确折叠结构。这表明了 ResNet 不仅限于对协同进化信号的去噪,还可以从实验蛋白质结构中学习有关蛋白质折叠的重要信息。

无需「协同进化」信息,芝加哥许锦波团队最新研究登上Nature子刊

图示:不同的ResNet模型在32个CASP13 FM目标上生成的第一模型和最佳模型的平均质量(TMscore)。(来源:论文)

无需「协同进化」信息,芝加哥许锦波团队最新研究登上Nature子刊

图示:ResNet在21种人工设计的蛋白质上的平均建模准确性。(来源:论文)

蛋白质的结构问题

「结构决定功能。」——这是分子生物学的公理。蛋白质是生命的基础,负责细胞内部发生的大部分事情。蛋白质的工作方式和作用取决于其3D形状。几十年来,实验室实验一直是获得良好蛋白质结构的主要方法。在过去的十年中,cryo-EM 已成为许多结构生物学实验室的首选工具。

长期以来,科学家一直想知道一串蛋白质的氨基酸序列如何折叠出最终有着许多曲折的形状。根据1965年由实验得出的蛋白质「自组装学说」,氨基酸序列确定其空间构象,为蛋白质结构预测提供了可行性。但在1980年代和1990年代早期使用计算机预测蛋白质结构的尝试效果不佳。

因此,马里兰大学计算生物学家 John Moult 于1994年与他人共同创立了 CASP 竞赛,致力于改进精确预测蛋白质结构的计算方法。每两年一次的 CASP 被誉为蛋白质结构预测的奥林匹克竞赛,每一届都会提供大约100条未知结构的蛋白质序列,让所有参赛者进行结构预测。论文中用到的数据是2018年的 CASP 13。

需要绕开的 CCMpred 和绕不开的 AlphaFold 2

在分析研究还可以改进的地方时,许教授指出:「当前,我们的 ResNet 将 CCMpred 输出作为输入,因此继承了 CCMpred 产生的一些错误。」

CCMpred 是用于预测残基间距离的传统统计学模型,它假设目标蛋白质序列由一个马尔科夫随机场模型(MRF)产生,进而用两体项表征残基间共进化程度。但这随之带来的就是「信息丢失」,尤其是对于那些有着较浅 MSA 的蛋白质。

实际上,去年轰动一时的 AlphaFold 2 就绕过了统计学模型,通过使用类似Transformer的网络,直接从 MSA 预测原子 3D 坐标并在几乎整个蛋白质数据库上进行训练,已经取得了 0.9 的惊人成果。Moult 高度称赞了这项工作:「从某种意义上说,问题已经解决。」

之所以说是「某种意义上」,是因为 AlphaFold 2 可以解决的是单结构域的蛋白质结构预测问题。但是,自然界中一个功能蛋白质链往往包含多个结构域,这些结构域之间存在着复杂的相互作用。此外, AlphaFold 2 还需要手工进行。能否真正实现全自动,或者算得足够快,让很多人都能用上,还需要进一步探索。

AlphaFold 2 这份令人震惊的答卷实际上也要归功于先前无数科研工作者的工作,但蛋白质预测的道路还远远没有结束,相信在更多的研究人员的努力下,还会有下一个奇迹。

论文链接:https://doi.org/10.1038/s42256-021-00348-5

参考内容:

https://doi.org/10.1002/prot.25810

https://doi.org/10.1038/d41586-020-03348-4

http://bitjoy.net/2019/05/25/

https://mp.weixin.qq.com/s/Prlqzyo3fPoCCkQquh85xg

展开阅读全文

页面更新:2024-05-12

标签:马里兰   芝加哥   卷积   神经网络   信息   统计学   图示   氨基酸   序列   蛋白质   先前   深度   模型   团队   结构   论文   工作   最新   许锦波

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top