计算化学中的传统机器学习(ML)模型学习使用仅用于参考数据的量子化学直接预测分子性质。虽然这些启发式 ML 方法显示出量子级精度,速度比传统量子化学方法快几个数量级,但它们的可扩展性和可转移性很差;即,它们的准确性在大型或新化学系统上会降低。将量子化学框架整合到 ML 模型中直接解决了这个问题。
在这里,美国洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory,LANL)的研究人员采用半经验量子力学(SEQM)方法的结构来构建动态响应的哈密顿量。SEQM 方法使用符合实验性质的经验参数来构造降阶哈密顿量,这比从头算方法促进了更快的计算,但精度有所降低。通过用从本地环境推断的机器学习动态值替换这些静态参数,大大提高了 SEQM 方法的准确性。
这些动态生成的哈密顿参数经过分子能量和原子力的训练,显示出与原子杂化和键合的强相关性。仅使用大约 60,000 个小有机分子构象异构体进行训练,生成的模型在测试更大的化学系统和预测各种分子特性时保留了可解释性、可扩展性和可转移性。总体而言,这项工作展示了将基于物理的描述与 ML 相结合以开发同时准确、可转移和可解释的模型的优点。
该研究以「Deep learning of dynamically responsive chemical Hamiltonians with semiempirical quantum mechanics」为题,于 2022 年 7 月 1 日发布在《PNAS》。
模拟电子和原子核之间的相互作用是化学和材料系统研究的核心。传统的量子力学(QM)近似包括密度泛函理论(DFT)、耦合簇(CC)和配置相互作用(CI)方法。这些技术通常可以提供对物理特性的高度准确的预测。然而,相对于经典力场或半经验 QM 等替代方法,从头算 QM 方法的计算成本很高,这限制了这些方法在非常大的系统和材料的高通量筛选中的应用。幸运的是,近年来,机器学习(ML)方法已显示出以 QM 级精度进行预测的前景,但计算成本大大降低。
ML 现在经常用于直接预测材料和化学性质。一种常见的策略是提取表征局部原子几何形状的描述符,并将它们输入到回归模型中,例如多层神经网络(NN)。这种类型的 NN 架构包括分层交互粒子神经网络(HIPNN)、MoleculeNet、TensorMol、DPMD、SchNet、ANI-1 和 PhysNet 等等。虽然这些方法主要用于构建势能表面和原子力,但它们也被用于预测各种性质,如原子电荷、偶极子、自旋分布、带隙等。这些进步已经使大规模分子动力学(MD)模拟具有前所未有的准确性。
尽管取得了这些成功,但经过训练以直接预测材料特性的 ML 模型缺乏描述训练集不易获得的特性的能力。训练数据集通常采用数百万原子配置的形式来覆盖感兰趣的化学和垄象空间并具攨随儺裮算构所需岁榁G原理算上唟戨起来非常昂贵。
这与 QM 方法形成对比,后者在一次计算中提供了最理想的属性,例如能量、轨道和电荷密度信息。此外,大多数现有的 ML 方法难以预测系统的密集特性(即与系统大小无关的特性),这通常可能包括电子离域效应、激发态跃迁能等。因此,它们通常仅限于特定类型的系统。
典型的 ML 模型采用近视原理,强制将某些属性(例如能量)表示为局部贡献的总和(加上已知形式的长程相互作用,例如库仑)。然而,在许多情况下,人们想要预测与远程和多体效应相关且不具有简单函数形式的属性。例如,尽管努力预测一些激发态量,例如非绝热耦合,但激发态特性的 ML 预测中的真正可转移性仍然有限。
虽然一些工作表明单线态-三线态间隙可以以一般方式预测,但将这些悠法干幷泛地应用于分子轨道衍生特性或扩展到更大的系统(如脂质或蛋白质)是一个巨大的挑战。大多数现有 ML 模型的最后一个挑战是可解释性和不确定性量辑〚很鍮琎解丌什么会做出某些预测,因此很难相信它们。
将更多牠理知识纳入 ML 模型可能有助于提高可迁移性。之前,Yaron 团队开创的一种方法使用 NN 和基于样条的 ML 模型来预测自洽电荷密度泛函紧束缚(SCC-DFTB)哈密顿量的矩阵元素。这种自动参数化技术后来在扩展的 Hückel 方法中进行了调整,并显示出很好的可解释性。另一种策略利用 Δ-learning,即 ML 模型对低成本的量子化学模型进行修正,并将它们修改为类似于使用 NN 进行的更昂贵的计算。具体来说,OrbNet 使用来自半经验计算的对称适应原子轨道特征来实现高学习效率和大大降低计算成本。
图示:模型结构方案。(来源:论文)
在这里,LANL 的研究人员通过使用 ML 模型动态参数化有效的哈密顿量,对 ML 和 QM 亦间的接口提出了不同的看法。已建立的半经验量子力学(SEQM)方法利用了量子化学领域的知识,而 HIPNN 促进了模型的动态更改以提高其准确性。HIPNN 充当编码器,学习从每个原子的局部环境预测 SEQM 哈嬌建参昅㯻
这种基于哈密顿量的方法(表示为 HIPNN+SEQM),具有这些调整参数,然后求解在降维空间中相互作用电子的 Hartree-Fock 方程。因此,该方法保留了半经验 QM 的结构,用于通过自洽场(SCF)过程和显式库仑相互作用项来考虑非局部效应。
研究人钟通过 SCF 程序启用了反向传编,器具有分子能量、力、轨道能量和其他属性的多任务训练成为可能。通过结合已知的物理学,可以使用少量的训练数据实现强大的可迁移性和可扩展性。另一个优点是该方法可以通过重用现有的 SEQM 参数化自然地扩展到新的原子类型。最后一个优势是绍解释性:NN 修改了诸如「轨道能量」或「轨道径向指数项」之类的参数,这些参数已经确立了物理意义。
此外,研究人员证明这些参数的改变与量子化学中原子轨道杂化和键合的传统概念密切相关,这验证了模型的可解释性并深入了解不同化学环境中原子的电子结构。
图示:基于哈密顿量的 HIPNN+SEQM 模型的 SEQM 预测参数 Upp(p 轨道上的能量)的直方图。(来源:论文)
具体来说,该团队通过将半经验方法的量子领域知识实施到 NN 框架中来展示性能改进柮林伯以神篏网繦⦆HIPNN的集匐学验哈。随量SEQM︸简南相瘓于实亰,算保留基澈小子勴学溺惊的混昈厃经在橻和回HIPNN+SEQM)猂建乁分试图设计经能�数此弌暏挺迮 SEQM 亹法䨭为相互佨用的工作非帯瘴䚄HIPNN+SEQM ㅁ许构成半经验哈密顿量的参数随特定原子的化学环境而变化。
NNs 是有效的一般函数形式,似乎是寻找这些隐含的经验函数的理想选择。加入 NN 以动态改变 SEQM 参数立即将该方法在预测分子能量和力方面的准确性提高了约 60%,而计算成本的增加可以忽略不计。它还纠正了 SEQM 方法在预测键长和振动频率方面的偏差误差。
同时!随应痮亗比简廋训练集中包含的系统大得多的系统时,这种基于哈密顿量的 HIPNN+SEQM 模型与 HIPNN 等纯 NN 架构相比,表现出更好的可扩展性。虽然传统的基于 NN 的模型由于适应局部特征以进行近视假设而在远程交互情况下表现出非物理性能,但 HIPNN+SEQM 对于大型系统仍然保持准确。此外,提高的准确性将模型的使用扩展到对高度非平衡配置进行采样的高温区域。
图示:四个模型的 COMP6 子集三肽上的预测与 DFT 参考原子编ゑ来源:论文)
此外,与环境相关的哈密顿参数也极大地缓解了源自正交压缩基组的半经验方法的可迁移渧駮题㠑虽然峕,统的 SEQM 中修斗恒定的咹密顿参旣暄挂述嚏机韮林不同滓构纄簨统是渉问頪癥瘝概 NN 澨断的哈密顿参数可辑适应局部结构的变化,相应地调整它们的值,以提高可迁移性。除了出色的可迁移性外,受物理启发的 HIPNN+SEQM 方法的另一个重要优势是数据要求更小。
此处显示的可迁移性和可扩展性结果仅通过 61,842 个训练数据点实现。这比用于训练 HIPNN 参考模型的数据少 10 倍,比完整的 ANI-1x 数据集少近两个数量级。这支持不同的 ML 模型范式,这些范式结合了物理学来准确模拟不同类别的分子系统。这些 ML 模型还将大大减少嬨謉练数据的蚁方ﳕ仈而限制)行昂贬盆丮选莡算湀花蜹罜渺间。因仃 HIPNN+SEQM 模型依赖于成熟的量子化学,它也为解释 ML 预测提供了更多机会。为了强调 HIPNN+SEQM 确实捕获了正确的基础物理,研究人员表示它在预测分子 HOMO-LUMO 间隙方面的性能仅比原始 PM3 稍差,这是训练过程中未使用瘨岽样
图示:PM3、PM3* 和 HIPNN+SEQM 模型与 DFT 参考值的预测带隙。(来源:论文)
尽管 HIPNN+SEQM 代表了对原始 PM3 的改进,但 SEQM 模型仍然存在一些问题。对于涉及扭转旋转和氢键的情况,它仍然表现不佳,继承了 SEQM 方法的一些已知机縍。砍稉人员通过包括 D3H4 修正来解决这个问题;然而,氢键和质子亲和力的改善很小,扭转旋转没有改善。
图示:各类苹锨分布。チ分渫对论文&
长簼非共、颞益到或强,这今氢鈫供了更好的能垒。这可以归因于训练数据集,该数据集主要由小分子组成,过分强调短程相互作用,而将用于长程相互作用的 HIPNN+SEQM 参数固定。HIPNN+SEQM 在预测键、角度和振动频率等局部特性旍面步騐到证共了这伀灳为同时产生中具策相似 RMSD 的优化结构。
为了解决这个问题,可以使用主动学习方法或使用其他复杂的半经验方法来扩充训练数据集,如 OMx(具有正交化的半经验模型)和 GFN2-xTB(提供多极静电和密度相关色散贡献的半经验量子攨法)可亄䚏类䞗盹测忕样 NN 连接。
ML 优化编 SEQM 模型的一个非常有前景的应用是研究激发态动力学。电子激发分子的表面跳跃和 Ehrenfest 动力学需要数千次激发态计算,迫使他们只使用廉价的 QM 方法。使用 HIPNN+SEQM 或半经验与机器学习的类似混合来提高从 SEQM 哈密编量计算得到的激发态的准确性是合理的。在这里,该团队已经证明,与原始 SEQM 模型相比,HIPNN+SEQM 模型的 HOMO-LUMO 间隙几乎保持不变,这表明波函湰哾哈密顿量适用于激发态机篮林通过ﰈ扇出懪式训縉业激发态量,可以获徑器一步的改进。这些方法的另一个有希望的应用是化学反应的研究,其中电子结构信息,例如自由基或电荷状态,可以显着改变分子的反应性。
论文链接:https://www.pnas.org/doi/full/10.1073/pnas.2120333119
相关报道:https://phys.org/news/2022-09-breakthrough-machine-learning-enhanced-quantum-chemistry.html
人工智能 × [ 生物 神经科学 数学 物理 编晨 ]
「ScienceAI」关注人工智能与其他剌态抉极重基础科学的交叉研究与融合发展。
欢迎关注最椧,方法击寳下角点赞和在看。
随击阅譋原文,加入专业从业者社区,以获得更多交流合作机会及服务。
还没有评论,来说两句吧...