AI预测百万化合物的生物活性信息,这里有个高效开源工具

用化学描述符(chemical descriptors)来编码小分子的物理、化学和结构特性,是化学信息学的核心。生物活性数据的广泛发布提高了化合物的丰富度。然而,大部分小分子都没有对应的生物活性描述符(bioactivity descriptors);这限制了该方法对众多已经被充分表征的化合物的适用性。

AI预测百万化合物的生物活性信息,这里有个高效开源工具

西班牙巴塞罗那科学技术研究所(BIST)的研究人员,使用深度机器学习计算模型预测分析了百万个分子的生物活性信息。该团队还披露了一个工具,该工具可以预测任何分子的生物活性空间;即使是没有实验数据作为参照的情况下,该工具依然可以完成分析。

该研究以「Bioactivity descriptors for uncharacterized chemical compounds」为题于2021年6月24日发布在《Nature Communications》杂志。

AI预测百万化合物的生物活性信息,这里有个高效开源工具

新方法是基于Chemical Checker(CC)开发的。Chemical Checker可以从每个分子的 25 种生物活性空间中收集信息。这些分子的生物活性空间与,分子的化学结构,分子相互作用的靶标,以及分子在临床或细胞水平上引起的变化等有着重要关联。然而,对于大多数分子来说,这种关于作用机制的高度详细的信息是不完整的;这意味着对于特定的分子,可能仅存在1-2种生物活性空间的信息。基于这个原因,研究人员将所有可用的实验信息与深度机器学习方法相结合,开发了新工具。该工具可以对分子的所有活动概况(从化学到临床水平)进行预测分析。

AI预测百万化合物的生物活性信息,这里有个高效开源工具

C C signaturizers的训练与评估

该团队将主要的化学、基因组学和药物数据库整合到Chemical Checker的单一资源中,这是迄今为止可用的最大的小分子生物活性特征集合。在Chemical Checker中,生物活性特征按数据类型(配体-受体结合、细胞敏感性概况、毒理学等)进行组织,遵循化学到临床的基本原理;有助于在药物发现流程的每个步骤选择相关特征类别。从本质上讲,Chemical Checker是存放在公共领域的小分子数据的替代表示,因此,它也受到实验数据的可应用性以及源数据库覆盖范围的限制。研究人员还介绍了该工具在一个基本无特征的化合物库中识别化合物方面的附加值,并通过实现一系列特征-活性关系(signature–activity relationship,SigAR)模型来预测分子的生物物理学信息和生理特性。

AI预测百万化合物的生物活性信息,这里有个高效开源工具

signaturizers进行大规模生物活性预测

推动制药领域的发展

药物发现过程好比一个「漏斗管道」,往往要从从数十万甚至数百万化合物的起始池中选择一种药物。Computational drug discovery (CDD) 方法可以在这个庞大而复杂过程中提供帮助。分子的有效数学表示是所有 CDD 方法的关键,二维结构指纹图谱是许多情况下的默认选择。

由于C C signaturizers是简单的 128D-vectors,与使用多维描述符来表示分子结构的 CDD工具包兼容。基于这种兼容性,可以将C C signaturizers输出的生物信息融入相似性搜索、化学空间的可视化、聚类和属性预测,以及其他使用广泛的 CDD 任务。在这项研究中,研究人员展示了如何使用C C signaturizers以生物相关的方式在化学空间中导航;同时揭示了,在注释信息不明确的天然产品集合中存在某种出乎意料的高阶结构。C C signaturizers推断的生物活性特征可用于注释大部分未表征的化学库,并丰富了化合物集合中针对药物靶标的活性信息。

AI预测百万化合物的生物活性信息,这里有个高效开源工具

Signature-based的复合集合分析

评估与测试

为了评估结果的稳健性,研究人员将化学描述符的集合扩展到 ECFP(extended connectivity fifingerprints)之外;特别是,加入了 Daylight-like (RDKit) 指纹、MACCS 密钥和一个名为 CDDD 的数据驱动相关的先进描述符。此外,研究人员使用基于 AutoML TPOT的「模型不可知方法」重复了 SigAR 任务预测。

结果表明,与单独使用化学信息预测模型相比,SigAR模型在一系列生物物理学和生理学活动预测基准数据集中具有优越的性能。

AI预测百万化合物的生物活性信息,这里有个高效开源工具

MoleculeNet 基准测试,将 CC Signature的预测能力与基于 MFp 的经典方法进行比较

该团队已经将论文中提到的软件工具公布,随着各类分子的生物活性数据的不断发掘,研究人员会及时更新软件库。随着 Chemical Checker 中实验数据的每次更新,人工神经网络也将被修改和完善。

展开阅读全文

页面更新:2024-05-01

标签:化合物   活性   靶标   生物   工具   高效   信息   研究人员   药物   模型   特征   分子   化学   方法   数据   空间

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top