利用机器学习对有机反应机理进行分类

利用机器学习对有机反应机理进行分类


文章出处:Jordi Burés, Igor Larrosa. Organic reaction mechanism classification using machine learning. Nature 2023, 613, 689-695.


摘要:对催化有机反应机理的理解对于设计新的催化剂、反应模式和发展更绿色、更可持续的化学过程至关重要。动力学分析是力学阐发的核心,它有助于从实验数据直接检验力学假设。传统上,动力学分析依赖于使用初始速率和对数图,最近依赖于视觉动力学方法结合数学速率定律推导。然而,速率定律的推导及其解释需要大量的数学近似,因此,它们容易出现人为错误,并且仅限于在稳态下只有几个步骤的反应网络。在这里,作者展示了一个深度神经网络模型可以被训练来分析普通的动力学数据,并自动阐明相应的机理分类,而不需要任何额外的用户输入。该模型以出色的精度识别了各种各样的机理类别,包括脱离稳态的机理,例如那些涉及催化剂活化和失活步骤的机理,并且即使在动力学数据包含大量误差或只有几个时间点时也能出色地执行。作者的研究结果表明,人工智能引导的机理分类是一个强大的新工具,可以简化和自动化的机理说明。作者正在将这个模型免费提供给相关群体,作者预计这项工作将导致全自动有机反应发现和开发的进一步发展。

确定将底物转化为产物所涉及的基本步骤的确切顺序对于合理改进合成方法、设计新催化剂和安全扩大工业工艺至关重要(图1a-1d)。为了阐明反应的机理,收集了几个动力学剖面,人类专家必须对数据进行动力学分析。尽管反应监测技术在过去的几十年里已经有了显著的改进,动力学数据收集可以完全自动化,但机理阐明的基本理论框架并没有以同样的速度进步。目前的动力学分析流程包括三个主要步骤(图1e):从实验数据中提取动力学特性,预测所有合理机理的动力学特性,并将实验提取的特性与预测的进行比较。尽管存在许多缺陷,提取动力学固有性最常用的方法是一个多世纪前发展起来的初始速率对数-对数图。现代动力学分析,如反应过程动力学分析和多样化时间归一化分析,利用整个动力学剖面提取更丰富的动力学信息,而不仅仅是其中的小部分。然而,它们忽略了隐含在动力学剖面中的动力学信息,因为它们关注的是特定的反应性质,主要是反应的顺序。动力学性质的预测还要求化学家完全掌握稳态速率定律的复杂推导和解释。虽然稳态方程很好地近似了许多机理的动力学行为,但它们不能预测远离稳态的常见系统,例如催化剂缓慢活化或催化剂不可逆失活的反应。此外,即使是中等复杂的反应网络也可能导致难以解释的难以管理的速率定律方程。另外,动力学建模已被用于拟合动力学数据,尽管它是化学过程参数化的强大工程工具,但由于难以区分具有相似拟合优度的模型,其对机理阐明的适用性受到限制。

受到最近人工智能(AI)应用于长期科学挑战的巨大进展的启发,作者设想人工智能可以改变动力学分析领域。在此,作者证明了在模拟动力学数据上训练的深度学习模型能够从时间浓度分布中正确地阐明各种类型的机理(图1e)。机器学习模型消除了速率定律推导和动力学性质提取和预测的需要,从而简化了动力学分析,极大地促进了所有合成实验室对反应机理的阐明。由于对所有可用的动力学数据进行了整体分析,该方法增加了询问反应概况的能力,从动力学分析过程中消除了潜在的人为错误,并扩大了可以分析的动力学范围,包括非稳态(包括活化和失活过程)和可逆反应。作者设想这种方法将是现有动力学分析方法的补充,在最具挑战性的情况下尤其有用。

图1

作者考虑了20种常见的由催化剂(cat)介导的将底物(S)转化为产物(P)的反应机理(图2a)。这些机理属于四个不同的类别(图2a):(1) 核心机理(M1),这是最简单的Michaelis-Menten型机理;(2) 具有双催化步骤(M2-M5)的机理,涉及催化剂二聚体(M2和M3)或两种不同催化物种(M4和M5)之间的反应;(3) 基于核心机理的催化剂活化步骤机理,其中预催化剂需要通过底物配位(M7)或配体解离(M8)单分子(M6)活化;(4) 从核心机理(M9-M20)的任何一个催化中间体中具有各种催化剂失活步骤的机理,这些通常极具挑战性,但在绝大多数催化过程中都会遇到。

每种机理在数学上都是由一组常微分方程(ODEs)描述的动力学常数(k1,…kn)和化学物质浓度的函数。这些方程允许产生无限数量的底物和产物的时间浓度分布,定义一个动力学空间。虽然动力学空间是每个机理的特征,但它们可以部分重叠。例如,如果M2的一组特定的动力学常数没有导致脱环二聚体cat2的实质性形成,所得到的动力学轮廓与核心机理M1的动力学轮廓难以区分(图2b)。类之间的重叠(在作者的例子中是机理)众所周知会对学习算法的性能产生不利影响。为了尽量减少这些重叠,作者使用化学标准来定义每个机理的动力学空间,优先考虑最简单的机理,从而避免将动力学浓度分布分类给动力学证据不足的过于复杂的机理。

深度学习模型的训练通常需要大量的数据,当这些数据必须通过实验收集时,这可能会带来相当大的挑战。然而,在作者的案例中,作者能够通过数值求解ODEs集生成500万个动力学样本,用于模型的训练和验证,而不必使用稳态近似。每个动力学样本作为深度神经网络的输入,包含来自特定机理的四个时间浓度分布,具有固定的动力学常值集;其中三个剖面具有相同的底物初始浓度([S]0),但在1-10 mol.%范围内[cat]0不同,第四种是“相同过量”实验,还原[S]0 (图2c)和添加产物([P]0)。作者选择了这种实验组合,因为它包含了必要的信息来区分所考虑的潜在机理(图2a)。具体来说,使用不同浓度的催化剂的实验有助于评估涉及多个催化物种的机理步骤的存在,同样过量的实验提供了关于产物抑制和催化剂的活化和失活过程的信息。这些配置文件包括20个随机选择时间的底物和产物浓度,这确保了配置文件的广度,数据随时间异构分布,涵盖不同的转换范围。

作者的模型包含576000个可训练参数,并使用两种类型的神经网络的组合:(1) 长短期记忆神经网络,一种用于处理时序数据的循环神经网络(即时间浓度数据)和(2) 全连接神经网络,用于处理非时序数据(即每次动能运行中催化剂的初始浓度和长短期记忆提取的特征)。该模型输出每种机理的概率,概率的总和等于1。在训练过程中进行了数据增强,包括(1) 将样本中的浓度时间点数量从20个减少到20-3范围内的任意值,(2) 在S和P的样本浓度值上引入高斯误差,s.d.可达2%。在训练过程中,使用验证集对模型进行评估,结果显示几乎没有过拟合,这可以归因于多样化和大的训练集。

图2

用100000个动力学样本(每个机理5000个)的测试集评估训练的模型,每个剖面包含6个浓度-时间点,在采样反应时收集的典型数据点数量。重要的是,测试集中的所有动力学样本都属于独特的动力学剖面,不同于训练集中使用的动力学剖面。该模型的分类准确率为92.6%,混淆熵为0.053,前三名的准确率为100%。其它机器学习方法,如相似搜索、支持向量机和随机森林,提供的结果要差得多。有趣的是,对绘制实际机理与预测机理(图3a)的混淆矩阵的分析表明,大多数机理都被正确预测,且召回率非常高,大多数错误集在两种活化机理(M6和M8)和三种失活机理(M11、M12和M14)之间。分析每种机理样本的预测概率曲线(图3b)表明,在大多数测试样本中,模型不仅预测了正确的机理,而且具有非常高的置信度(超过99%)。测试样本置信度较低主要是由于动力学空间的重叠。例如,M11和M14的大部分样品池的置信度约为50%,因为这两种机理都可能具有催化剂失活完全取决于底物浓度的动力学剖面,因此,它们的一些剖面是不可区分的。因为作者认为这两种机理具有相似的复杂性,作者决定不把公共的动力学空间专门分配给其中一个,这将导致它们之间的人为层次。相反,作者对这些机理预测之间的交叉表示欢迎,因为它们表明,该模型不仅能够对大多数机理进行正确分类,而且能够识别与不止一种机理一致的数据集,并赋予它们一个实质性的概率。利用模型的这一特性,作者决定通过对顶级预测进行分组,直到达到高于99%的累积置信阈值,从而生成更灵活和更有价值的结果。通过允许对预测机理进行分组(图3c),模型分类准确率提高到99.96% (在10万个样本测试集中总共只有38个错误),测试集中有69740个样本被预测为唯一机理,23767个样本被预测为两种机理,6067个样本被预测为三种机理,剩余0.43%的样本被预测为三种以上机理。值得注意的是,该模型倾向于将机理分组在同一类别中,类别之间很少交叉(图3d)。这一结果表明,最初通过单一机理分类获得的7.4%的不准确性大部分是由于应该一起提出的机理之间的重叠。

图3

为了充分探索作者的机器学习模型的潜力,作者调查了在数据中引入错误和改变提供的数据点数量的影响。在实验中,通常可以发现在浓度上高斯标准差高达2% (95%置信区间的产率±4%)的时间浓度分布(图4a)。从误差如此之大的剖面中提取信息是动力学分析中最大的挑战之一,因此是对作者模型的一个极好的测试。作者在原始测试集的浓度变量上引入了不同程度的高斯误差(高达5% s.d)。值得注意的是,当对结果测试集进行评估时,即使在数据中存在显著的标准误差(即高达2%),模型也能够保持非常高的分类精度(超过99.6%) (图4b)。即使对于质量较差的数据(即s.e. = 5%或95%置信区间内产量正负10%的误差),分类准确度也达到了83%。该模型通过增加其预测中分组的机理数量来处理数据中误差带来的固有不确定性(图4b)。s.d.为1%和5%的测试样本数据分组的机理的Circos图显示,对于s.e. = 1%的数据集,分组保持在同一机理类别内,而s.e. = 5%的机理类别之间出现交叉。后者并不意外,因为动力学剖面的畸变非常大,因此得到的样本数据可能真正属于不同类别的机理。该模型对异常值的存在做出类似的反应,但这些结果不太相关,因为在实验中,人们通常会从使用任何动力学分析技术的分析中排除明显的异常值。

用于减轻数据中错误所导致的不准确性的常用策略是增加数据量。作者探索了改变提供给模型的浓度-时间点的数量对其预测的影响,使用的数据集为1%。(图4 b)。对于包含2到20个浓度-时间点的测试集,获得了全面的高分类精度。该模型能够使用额外的时间点信息来增加正确提出单一机理的预测比例(图4b)。相反,当浓度-时间点减少到6以下时,分组机理的数量增加。尽管该模型从未使用包含少于三个浓度-时间点的样本进行训练,但在每个动力学剖面只包含两个数据点的测试集上,它仍然表现得非常好。

图4

为了证明人工智能模型在分析实验动力学数据方面的潜力,作者将其应用于各种催化反应,包括闭环烯烃复分解、环加成、烯烃异构化、C-H氨基化、光催化氢氧基化和羰基烯烃复分解(图5)。这些案例研究包括的例子中,动力学数据在不同催化剂浓度下只包含三个反应曲线(即没有相同的过量实验)。以及仅监测底物或产物的示例。在所有情况下,机器学习模型都能够识别每个系统的重要特征机理特征,与作者通过动力学和附加机理实验提出的特征相匹配。更值得注意的是,这些模型还提出了传统动力学分析无法证明的机理,例如特定的催化剂失活途径。在Thiel课题组报道的闭环烯烃复分解的情况下(图5a),机器学习模型不仅能够识别作者提出的催化剂失活,而且还能将产物与失活途径联系起来。该模型的预测结果与前人在Ru配合物化学测量和密度泛函理论计算方面的工作相一致,确实显示了乙烯产物诱导催化剂分解的可能性。类似地,在Joannou课题组报道的[2+2]环加成反应中(图5b),机器学习模型识别了催化剂失活与反应底物的参与。虽然经典的动力学分析由于其对动力学数据的微妙影响而不允许识别这一机理特征,但作者在有机金属化学计量学研究中观测到底物介导的催化剂脱氢失活。在Knapp课题组报道的烯烃异构化过程中,机器学习模型显示了另一个不立即明显的失活过程(图5c)。AI模型还可以识别高度特异性的催化剂活化过程,如Stroek课题组报道的C-H胺化(图5d)和Lehnherr课题组报道的氢氧基化(图5e)。在Ludwig课题组和Albright课题组报道的羰基烯烃复分解的情况下,该模型在七个案例研究中提出了最多的机理可能性,这表明在这种情况下需要额外的实验来提高准确性。这个特别具有挑战性的案例显示了人工智能指导设计新的动力学实验和改进机理建议的潜力。

图5

总之,作者已经证明,深度学习可以杠杆化,为从动力学数据中阐明机理提供一个极其强大的工具。新模型将以前冗长的速率定律推导和动力学分析过程简化为仅需要几毫秒的完整和更准确的过程。训练后的模型能够解决以前分析非常具有挑战性的复杂问题,例如有误差的动力学数据,甚至是非稳态的系统。作者还展示了这些AI模型如何很容易地应用于从各种催化反应中提取实验动力学数据的机理见解。作者设想机器学习将成为一个强大的工具,增强合成化学家处理机理研究的能力。

展开阅读全文

页面更新:2024-04-29

标签:机理   稳态   剖面   动力学   催化剂   浓度   样本   模型   机器   作者   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top