1 引言
催化反应位于化学工业的核心位置,涉及80%以上的制造产品的生产过程[
1]。在各种催化场景中,使用固体催化剂的多相催化因其在大规模生产中的高可扩展性以及在产品分离和催化剂回收方面的突出优势而受到特别关注[
2‒
3]。当代工业化的多相催化过程,如甲烷重整[
4]、氨合成[
5]、烃裂解[
6]和各种选择性氢化/脱氢反应[
7‒
10],大多是热化学反应,通常需要高温和(或)高压条件来改变化学平衡和调节反应速率。此外,这些传统工艺严重依赖化石资源作为反应物和能量输入,以及贵金属(如Pt、Pd、Ru和Rh)作为催化剂,从而偏离了全球可持续发展的目标[
11‒
12]。因此,设计更加节能、环保、经济的新型催化反应和工艺势在必行。随着人类文明的不断发展,寻找这些过程和相应关键材料的旅程从未停止。
光伏等可再生能源技术的快速发展推动了这一进程,使大规模和低成本的“绿色”发电成为可能[
11,
13]。为了更好地利用剩余电力,最著名的举措之一是用“绿色”氢气代替化石燃料衍生的“灰色”氢气,这种“绿色”氢气的生产依赖于电化学水分解等关键技术[
14‒
15]。类似的绿色电力到化学能转换的概念也已在二氧化碳还原反应(CO
2RR)[
16‒
22]和氨电合成[
23‒
26]中得到应用。反过来,通过可再生能源合成的氢气、含碳燃料和氨气成为燃料电池/发动机的理想燃料或化学工业的原材料,有助于实现碳和氮的无化石资源循环。在实现这一目标的过程中,在后续的反应工程中和扩大规模之前合理设计高效且地球资源丰富的催化材料起着核心作用。然而,目前的催化材料在效率和(或)可扩展性方面仍远未达到令人满意的水平[
27‒
30]。因此,对下一代催化剂设计的创新需求很高。
传统上,新型催化材料的设计、优化和进一步开发依赖于
图1(方案1)中的Edisonian试错过程。然而,这些过程的效率是有限的,因为通常需要几十年才能发现一种新的催化剂并将其商业化。此外,由于无法穷尽催化材料庞大的成分以及结构候选空间甚至难以覆盖其主要部分,因此发展更高效的材料探索方法势在必行。事实上,计算方法和理论建模[如密度泛函理论(DFT)计算]的蓬勃发展已经开辟了另一条道路,可以取代
图1(方案2)中烦琐的实验探索[
31‒
34]。研究表明,固体催化剂上的表面反应速率可以与反应网络中存在的吸附物种的表面键能[包括过渡态(TS)]相关联,这些能量参数可以通过最先进的计算获得[
34‒
36]。因此,可以在计算机上进行“虚拟”实验,通过计算相关能量来评估材料的催化活性。当反应速率被重新定义为单一或双描述符函数时,高性能催化剂的高维搜索问题可以进一步简化为寻找具有最佳描述符值的催化剂,此类描述符通常是可计算或测量的物理或化学性质[
36]。这种所谓的基于描述符的方法为高通量计算筛选未知催化剂开辟了新的可能性。在各种电子和几何描述符中,表面物种的吸附能因兼具以下优势而被广泛采用:①它们可以通过计算获得;②计算结果可以通过精确的量热实验进行验证[
37]。更重要的是,基于吸附能的活性图可以被视为经典Sabatier原理的定量实现,为理解多相催化活性趋势提供理论框架[
38]。尽管建立活性图有助于加快发现新型催化剂,但通过建模获取能量描述符仍需要大规模的计算,尤其是在寻找多组分和(或)多位点催化材料时,需考虑到巨大的组成和(或)结构异质性。因此,为了探索多相催化剂筛选的广阔材料空间,开发更有效地获得表面吸附强度的方法至关重要。
在过去的几十年里,计算机科学和人工智能(AI)的快速发展,以及综合数据库的建立,为AI在化学和材料科学中的应用提供了许多可能性,包括实验、表征和建模[
39‒
54]。在催化剂设计和筛选中结合先进的机器学习(ML)模型,可以用更少的计算量或更低的计算成本直接预测表面反应活性,在降低成本和提高精度方面具有巨大的潜力(
图1,方案3)。因此,可以预见整个筛查过程的加速。此外,通过机器学习揭示隐藏的模式和相关性,为我们深化催化体系物理机制认知、获取催化剂设计新视角提供了独特路径[
55]。在这种情况下,尽管机器学习在吸附能预测和高通量催化剂筛选中的应用尚处于起步阶段,但其已经显示出巨大的潜力,有望为新兴催化过程的新材料发现带来范式转变。因此,总结机器学习驱动的高通量催化剂筛选的最新进展并提出有前景的方向,对于未来的研究仍然是有益和必要的。
与涵盖催化研究中机器学习应用的许多方面的现有综述[
56‒
66]不同,本文特别关注吸附能的数据驱动预测,因为表面反应活性主要量化固体催化剂的催化潜力。此外,我们强调需要努力结合机器学习模型与实验探索。在本文中,我们首先根据输入特征类型(第一性原理特征或非第一性原理特征)对机器学习模型进行分类,并在连续两节中讨论相关研究进展。在每一节中,总结了针对不同复杂程度的体系的工作,以及这些工作可能提供的物理理解。接下来,基于机器学习模型的预测能力或可解释的见解,展示了机器学习是如何指导发现实验催化剂。最后,我们展望了机器学习辅助催化剂筛选当前面临的挑战和未来的机遇。由于这是一篇聚焦型综述,本文不赘述机器学习的一般原理和常见模型,也不涉及机器学习在催化研究的其他方面(如高通量实验和机器学习加速理论建模)的应用,相关内容可参考文献[
57‒
61]。
2 具有第一性原理特征的机器学习
2.1 基于计算的吸附能的特征
2.1.1 吸附标度关系
如前一节所述,通过第一性原理计算获得材料描述符(如吸附能和电子结构)并提出基于描述符的方法可以实现高通量筛选的想法。这种方法的主要思想是所谓的标度关系带来的降维,它将反应能量学投影到几个属性上[
35‒
36,
38]。简而言之,研究发现,通过相同原子结合到表面的不同吸附物的吸附能往往相互之间存在标度关系,通常呈线性关系。这种标度关系的基础在于Hammer和Nørskov [
67]最初提出的d带模型,该模型用于解释金在过渡金属中最优的性质,经过多年的不断研究和开发,该模型现已成为公认的催化定量理论[
68]。在d带理论中,过渡金属表面的化学吸附能力可以通过相应金属表面的d带的能量分布很好地描述,这主要是用带的平均能量(即d带中心)来量化的。因此,当物种的吸附能仅依赖于吸附物的价态和金属d带特性时,相似物种在这些表面上的吸附往往具有相关性。考虑到在多相催化中过渡金属位点和吸附物之间化学键形成的普遍性,这种关系已被发现适用于多种材料。
在一项基础工作中,Abild-Pedersen等[
69]发现含氢分子AH
x 的吸附能与原子A(A = C、N、O和S)的吸附能呈线性相关。当应用这种线性关系来描述氢化物种在纯金属范围内的吸附强度时,据报道平均绝对误差(MAE)仅为0.13 eV。基于氢化物种的原子对应物,成功预测其吸附能,简化了脱氢和氢化反应的反应能估算,该方法也可应用于其他更复杂的反应中。例如,Chowdhury等[
70]研究了在八个平坦单金属过渡金属表面[Ni、Pt、Pd、Ru、Rh、Re、Cu和Ag的(111)表面]上丙酸脱羧和脱羰反应中涉及的表面物种的吸附能。他们发现,结合描述符(即CHCHCO
*、OH
*和C
*的吸附能,其中
*指吸附物种)的多变量线性标度关系产生了非常准确的结果,MAE为0.12 eV,这是任何其他非线性模型都无法超越的。只有当训练数据集不完整(即包含吸附能的随机子集)时,基于核的非线性ML模型才开始变得优越。尽管这种比较强调了线性标度关系在使完整的大型数据集合理化方面的有效性,但它也指出了线性模型在从有限的数据集中预测吸附能方面的不足。
虽然标度关系通常是一种有效且高效的方法,可以将反应中间体空间大幅减少到几个描述符,但在高通量催化剂筛选中应用标度关系时仍存在一些挑战。首先,标度关系通常只适用于通过相同原子结合的相似吸附物,精度限制在0.1~0.2 eV左右。其次,根据d带理论,标度关系对于纯过渡金属和合金过渡金属都适用;然而,尽管已经成功建立了氧化物等无机化合物的各种标度关系,但其中一些仅适用于在成分或晶体结构方面具有特殊性的有限体系[
71‒
72]。再次,对于涉及大分子有机物(例如,含有三个以上碳原子的烷烃)的复杂反应,单描述符或双描述符的可能性开始激增,干扰了良好催化剂的确定,因为构建的活性图高度依赖于所选的描述符。例如,Wang等[
73]通过丙烷选择性脱氢制丙烯反应展示了描述符工程的重要性。他们发现,采用CH
3CHCH
2 *和CH
3CH
2CH
*结合能作为描述符,不仅使所有标度关系的总体MAE低于0.09 eV,而且还可以实现元素金属的最大差异化。然而,使用这种方法来确定描述符通常需要外部知识的输入(例如,CH
3CHCH
2 *作为上述展示的反应中的选择性决定物种)。因此,非常需要开发不依赖于重要领域输入或人类直觉的策略。
2.1.2 通过机器学习改进标度关系
鉴于上述挑战,人们已经做出了许多努力来改进标度关系。在这方面,Mamun等[
74]提出了一个贝叶斯框架,将单描述符线性标度关系扩展到多描述符线性回归模型。贝叶斯信息准则(BIC)被用作模型证据来选择最佳模型,为描述符选择提供了统计合理性,即应该使用多少和哪些描述符来产生最佳的偏差-方差权衡[
图2(a)]。为了进一步提高预测精度,研究人员还利用高斯过程回归(GPR)来预测所选模型的残差[即残差学习;
图2(b)]。当应用于2035二元合金材料(111)或(100)晶面(涵盖A
1、L1
0和L1
2三种Strukturbericht结构类型)和六种典型的含氢吸附物(CH
*、CH
2 *、CH
3 *、OH
*、NH
*和SH
*)时,所设计的框架表现出令人印象深刻的性能,测试MAE为0.1 eV,与标准DFT误差非常接近。这是一个很有前景的例子,说明机器学习如何提高模型的保真度,并产生比传统的线性标度关系更准确的吸附能预测。
同样,García-Muelas和López [
75]报道了统计主成分分析(PCA)和主成分回归(PCR)模型在12种密堆积金属表面(Cu、Ag、Au、Ni、Pd、Pt、Rh、Ir、Ru、Os、Zn和Cd)上对71种C
1-C
2物质的DFT计算吸附能的应用。作为无监督学习中一种常见的降维方法,PCA表明,给定金属的大部分热化学性质可以通过由三个预测因子(O
*、OH
*和CCHOH
*)的形成能构建的两个主成分(PC)来充分估计。一个组分表示金属与中间体形成共价键的亲和力,而另一个组分描述了金属-吸附物键的离子性[
图2(c)和(d)]。研究人员发现包含第二个组分是将过渡金属的吸附热化学预测扩展到传统d带理论之外的关键,特别是对于具有几乎填充的价壳或d带的吸附物或金属。后来的PCR进一步证实了这一发现,在验证集上显示出MAE为0.12 eV。该模型也适用于单原子和近表面合金体系。通过最少的DFT能量评估(约1800次),可以高精度(MAE = 0.19 eV)预测31 000个完整的形成能。从而证明了基于PCA/PCR的统计学习的高预测能力。
2.1.3 通过机器学习估算活化能
通过固体催化剂的吸附能估算其活性的理论依赖于Brønsted-Evans-Polanyi(BEP)关系,该关系表明基本步骤的活化能与反应能呈正相关[
76]。然而,在某些情况下,线性BEP关系无法捕捉到催化趋势[
77‒
79]。因此,直接预测活化能并评估除反应能之外的其他参数带来的影响仍然更可取,但更具挑战性。基于开放访问数据库CatApp [
80],其中包含一组DFT计算的单晶金属表面大量基元步骤的反应能和活化能,包括具有低对称性的表面,如阶梯式(211)表面。Takahashi和Miyazato [
81]试图在传统的BEP关系中实现机器学习算法,以提高预测活化能的准确性。除了反应能外,在非线性模型(如随机森林和支持向量回归)中还考虑了描述催化剂、表面平面、反应物和产物的其他特征,从而获得了比线性模型更好的准确性。
同样,Artrith等[
82]在使用机器学习模型中的一组第一性原理(如反应能)特征和非第一性原理(如化学物质的电负性和最近邻距离)特征,预测乙醇重整中涉及的各种C‒C和C‒O断裂步骤的TS能量时,证明了其具有0.20 eV的MAE(低于通过BEP近似得到的0.35 eV的MAE)。该模型中预测的TS能量被进一步用作基于较小实验数据库的第二个模型的特征,从而可以直接预测乙醇重整活性/选择性,而无需了解详细的反应机理或建立理论活性/选择性火山图。这些工作提供了快速估算活化能的方法,尽管它们对过渡金属/合金以外的催化剂和热化学反应以外的反应的适用性需要进一步证明。
总之,本小节重点介绍了在传统的催化剂筛选中广泛应用的线性标度关系的改进。上述方法的一个明显优势在于它们的物理合理性,因为线性标度关系的理论基础是相当坚实的。然而,这些方法都利用了与吸附能相关的特征,这需要DFT弛豫,并且获取成本很高。此外,吸附能已经全面反映了多种几何和电子结构因素,但从基本角度理解和解析这些因素的贡献具有挑战性。因此,仍然需要结合直接从材料电子结构中得出的特征来预测吸附能,这将在下一小节中讨论。
2.2 基于计算电子结构特性的特征
除了某些基本物种的吸附能外,还可以计算第一性原理电子结构特性,并将其用作机器学习支持的吸附能估算的信息特征。在本节中,我们讨论了利用电子结构特征的工作,这些特征不仅具有更强的推广潜力,而且还可能有助于对特定多相催化过程进行物理理解。
2.2.1 公式化的电子结构特性
结合领域知识,如d带理论,可以帮助研究人员识别和制定合适的电子结构属性作为特征输入。根据这一研究思路,Ma等[
83]和Li等[
84]评估了d带分布和局部Pauling电负性的几个特征,这些特征反映了离域sp态,作为神经网络(NN)模型的特征,用于预测CO
2RR催化剂筛选中(100)和(111)端接的多金属合金上的CO
*结合能[
图3(a)]。根据不同的表面模型,预测的均方根误差(RMSE)约为0.1~0.2 eV。同样,Praveen和Comas-Vives [
85]利用目标空间在不同晶面[具有面心立方体(fcc)体结构的11种过渡金属的不同面(100)、(111)和(211),包括Co、Rh、Ir、Ni、Pd、Pt、Ru、Os、Cu、Ag和Au]上含有各种含C‒、N‒和O‒的吸附物,设计了一种能够同时预测多种吸附物吸附强度的单层机器学习模型。利用与活性位点的性质、直接键合所涉及的元素以及从自由吸附物和清洁金属表面的DFT计算中获得的电子结构性质相关的特征,研究人员训练了一个极端梯度增强(XGBoost)回归器,该回归器对吸附能预测仍然有效,训练集和测试集的MAE分别为0.074 eV和0.174 eV。
在基于机器学习的吸附能预测中利用电子特征的一个更重要的方面是帮助识别最具影响力的特征。了解这些特征为什么重要,可以防止研究人员仅从表面进行基于机器学习的分析,并可以确定决定表面催化化学的主要因素,以及探索可能的方法来定制更好的催化剂。上述Praveen和Comas-Vives [
85]的研究表明,根据特征重要性分析,最重要的特征是电子特性,主要来自吸附物,其次来自金属。除了特征重要性排名外,还提出了贝叶斯学习方法(称为Bayeschem)来弥合电子描述符的复杂性[
86]。基于完善的d带理论和Newns-Anderson型哈密顿量来捕捉化学吸附过程的基本物理原理,使用原始过渡金属数据优化的模型对在各种原子级修饰的金属位点上的吸附物(如O
*和OH
*)展示了令人印象深刻的预测精度(大约为0.1~0.2 eV)和不确定度量化能力。更重要的是,从模型中可以自然地得出对吸附位点的化学成键的轨道特性的理解,这些吸附位点的d态特征从类体相半椭圆能带到自由原子离散能级。
除了纯金属体系,机器学习方法也被发现能有效描述金属化合物催化剂的反应活性。例如,Göltl等[
87]采用机器学习遗传算法(GA)分析了各种DFT计算的电子结构性质与沸石(SSZ-13和丝光沸石)中过渡金属位点(Cu、Ni、Co和Fe)上的CO
*/NO
*吸附强度之间的相关性。通过这一分析,发现吸附物的s轨道位置、活性位点的价电子数和最高占据分子轨道(HOMO)-最低未占据分子轨道(LUMO)能隙是最重要的电子描述符。此外,这项工作指出了在吸附预测中捕获位点重构的重要性。同样,基于分子轨道的分析被用来量化各种小分子与第13族金属氧化物表面之间的相互作用[
88]。吸附物的HOMO能量和氧化物表面的表面能被确定为控制此类体系中固体-吸附物相互作用的两个主要因素。
基于机器学习的预测模型的应用也已扩展到单原子催化剂(SAC)的筛选[
89‒
91]。在这一方面,Chen等[
92]构建了一个综合数据集,其中包括1060个原子级分散的金属/非金属共掺杂石墨烯体系,作为CO
2RR的碳负载SAC模型,以及基于XGBoost和简单特征的机器学习模型,揭示了中心金属原子的Pauling电负性和共价半径是比金属d电子数更重要的特征。这些从沸石、氧化物或SAC获得的了解通常与从过渡金属中获得的了解大不相同,凸显了利用机器学习揭示过渡金属之外的独特催化化学的巨大机会。
除了识别影响吸附物与表面之间相互作用的主要因素外,机器学习模型还可以从这些影响因素的显式表达式中构建新描述符。例如,Andersen等[
93]提出了所谓的“数据驱动”描述符,其预测能力被证明可以扩展到广泛的吸附物、多金属过渡金属表面和晶面。使用最近开发的压缩感知方法——确信独立性筛选与稀疏算子(SISSO)——进行识别,描述符表示为清洁催化剂表面固有特性的非线性函数,包括配位数和d带矩[
图3(b)]。DFT计算和SISSO预测的吸附强度之间的一致性表明了新描述符在标度关系上的有效性,以及将其扩展到更广泛材料空间的可能性。
2.2.2 原始电子结构特性
虽然上述工作采用了从电子结构特性(如d带中心或宽度)计算的统计特征,但也可以构建直接提取原始电子结构数据[如态密度(DOS)]的框架。例如,Fung等[
94]利用催化表面的DOS进行吸附预测,使用了Mamun等[
74]报道的相同数据集。与Mamun等[
74]之前的工作不同,Fung等[
94]还计算了表面的DOS。采用在图像处理和表征中得到了广泛应用的卷积神经网络(CNN)模型,无需外部知识即可从原始DOS数据中自动提取信息[
图4(a)],从而在测试集上获得低至大约0.1 eV的MAE。此外,通过结合领域知识,所设计的模型(称为“DOSnet”)通过遮挡敏感性分析提供了具有物理意义的指导,通过该分析可以很好地估计对电子结构扰动的能量响应。因此,这种由CNN辅助的框架可以通过探索电子结构空间而无需计算吸附能,从而加速新催化剂的发现。由于每个催化表面只需要进行一次计算,因此当研究含有大量独特吸附位点的表面[如高熵合金(HEA)表面]时,DOSnet将在节省计算量和高通量筛选方面表现出更大的潜力。
为了获得更多可解释的特征和描述符,可以对DOS进行进一步的工程设计。例如,有人提出了一种自动化框架,利用无监督机器学习[
图4(b)]获得金属合金和氧化物的化学活性的准确和可解释的描述符[
95]。PCA首先被用于识别DOS矩阵的低维基,该矩阵由PC描述符组成。利用不同特征的模型,即传统的电子描述符、完整的DOS和10个得分最高的PC描述符,对层状合金的C
*、O
*、N
*和H
*吸附能预测进行了比较;基于PC的模型显示了最准确的结果,其RMSE约为其他两个模型的1/2。除了预测精度外,该模型还通过PC描述符捕获的电子结构模式的信号重建而具有物理可解释性;因此,它为未来催化剂的潜在设计模式提供了建议,并在材料的几何和催化性能之间建立了联系。
上述工作清楚地证明了电子结构相关特征在吸附预测中的重要性和不可或缺的作用。除了提供强大的预测能力外,这些特征对模型的可解释性做出了重要贡献,通过这些特征可以获得对最具影响力的电子结构因素的基本理解,从而进一步实现客观的催化剂设计。然而,计算负担是这些方法的主要问题,因为使用获取的第一性原理特征可能很昂贵,特别是在大型体系中。从这个意义上说,仅使用非第一性原理特征来实现准确的吸附预测更具吸引力。下一节将讨论这些方法。
3 具有非第一性原理特征的机器学习
电子结构在确定吸附物-表面相互作用中的核心作用,使得在吸附能预测中包含相关特征变得很自然。然而,获取这些特征通常需要第一性原理计算,特别是对于在现有数据库中无法找到的未经探索的新材料。由此增加的计算成本显然是不受欢迎的,特别是考虑到需要在具有无限可能的晶体取向、表面组成和结合位点(如HEA和高熵金属化合物)的材料空间中进行高通量筛选。因此,人们一直强烈倾向于仅使用不需要新的第一性原理计算的低成本特征来实现吸附预测。例如,Toyao等[
96]率先采用12个现成的元素特性(EP;如表面能、熔点和元素周期表中的族)作为机器学习模型的特征,用于预测CH
4相关物种(CH
3 *、CH
2 *、CH
*、C
*和H
*)在铜(Cu)基合金上的吸附能,实现了MAE小于0.3 eV的较高精度。一旦非第一性原理特征被进一步合理地设计以产生更好的模型性能,将促进新催化剂的发现,因为将不再严重依赖耗时的DFT计算。
3.1 物理启发式非第一性原理特征
在预测模型中,将成熟的理论应用于简单、非第一性原理特征是一种具有物理合理性的通用策略。Noh等[
97]提出了一种利用主动学习(AL)和核岭回归的框架,旨在预测合金上的CO
*结合能。更具体地说,他们采用根据线性muffin-tin轨道(LMTO)理论计算的d带宽来解释局部配位环境,并采用电负性的几何平均值来描述吸附物的重整化。自动化框架主要在fcc块体结构[
图5(a)]中的亚表面合金体系的(100)面上进行演示,当仅采用LMTO衍生的特征时,自动化框架产生了令人印象深刻的预测MAE,其值仅为0.05 eV,这为应用该模型筛选理想的亚表面合金以催化CO
2RR [
图5(b)]提供了信心。
Esterhuizen等[
98]利用基于树的模型提出了一个广义可加模型(iGAM),以研究应变或配体效应带来的扰动[
图5(c)~(e)]。重点研究了富电子(OH
*和Cl
*)和缺电子(O
*和S
*)吸附物在亚表面金属合金(111)晶面上的化学吸附。除了其卓越的预测能力(一般来说,训练集的RMSE小于0.032 eV,测试集的RMSE小于0.065 eV)之外,iGAM模型可以提供进一步的信息,因为它通过构造强制模型拟合成为不同函数的线性组合,其中每个函数只依赖于一个感兴趣的特征。在这种情况下,化学吸附强度受到三个关键的位点相关特征的影响:表面层应变、配体金属中d电子的数量和配体原子的尺寸。
除了手动选择的特征之外,还可以通过机器学习构建新特征。例如,SISSO方法被发现可以有效地将现有数据库中易于获得的初始特征组合成新的组合,从而扩大用于不同金属合金化学吸附预测的特征空间[
99],或为铂基氧还原反应(ORR)催化剂[
100]得出更准确的描述符。还可以进一步提取对控制金属表面化学吸附过程的关键物理概念的理解。
在上述工作中,特征大多使用已知理论或领域知识来制定。然而,基于之前的理论模型,可以使用逆向方法。例如,基于一个统一的经验模型[
101],该模型将吸附强度与几个电子结构参数(包括d带中心、p电子数和吸附物与金属态之间的矩阵耦合元素)相关联,Montemore等[
102]首先使用机器学习预测这些参数,然后以预测的参数作为经验模型的输入,推导出各种物质(C、N、O、OH、H、S、K和F)在平坦金属和合金表面上的吸附能,实现0.29 eV的MAE。鉴于本研究中吸附物和表面的范围很大,该模型可以被认为是通用的和可重复使用的。然而,通过比较这两种方法,我们注意到这些物理启发模型可能存在模型精度与普适性难以兼顾的困境,而这种平衡往往取决于已建立的理论在目标化学空间中的适用性。
3.2 表面与分子的增强表征
上述工作大多集中在单个或几个吸附位点以及简单的吸附物上。这可能足以描述简单平面的活性,如(111)和(100),它们表现出相对较高的对称性。然而,正如许多催化反应中已经确立的那样,阶梯状表面更具反应活性,并对整体活性做出了重大贡献[
103‒
104]。由于表面对称性的破坏和由此导致的表面异质性的增加,对这些表面上的催化反应进行建模面临着更大的挑战。为了适应各种可能的结合位点,传统的筛选通常依赖于引入几何描述符[
105‒
106]或建立多个位点特异性活性图[
107‒
108]。另外,新兴的催化应用,如生物质转化[
109‒
110]和塑料高值化[
111‒
112],通常需要描述大分子与催化表面之间的相互作用。明确获取位点特异性构效关系或涉及大分子的表面吸附/反应能量,会显著增加计算负担。在这一方面,一旦实现在更真实条件下复杂表面、分子或催化体系的增强表征,机器学习将极适用于突破此障碍。
3.2.1 复杂表面的增强表征
如上所述,对阶梯状合金表面的预测是必须考虑催化表面结构多样性增加情况的一个例子。如果主体金属保持不变,例如,预测阶梯式银(Ag)合金上的H
*吸附,这种情况可能相当简单。一个机器学习模型只使用了相对于掺杂原子的非第一性原理特征,没有刻意考虑局部几何变化,它产生的平均绝对误差可以低至0.014 eV [
113]。然而,如果合金成分变化较大,机器学习就不能很好地与适当的表面表征方法配合使用。Saxena等[
114]比较了几种机器学习模型,这些模型用于预测A
3B合金(211)表面上的C
*和O
*结合能,并使用了一些常见的非第一性原理特征输入,根据表面终止和吸附物,获得了0.31~0.38 eV的均方根误差。然而,(211)表面上的大量位点可能性没有被考虑,导致预测精度与上述简单表面模型无法比较。更进一步,我们的团队专注于具有位点特异性结合构型的37种常见金属和准金属元素的二元L1
2型合金的(211)表面,生成了丰富的位点基序库,并产生了包含约2000个吸附能的综合数据集[
115]。由于只包含了低成本、非第一性原理特征,这些特征编码了表面位点的电子结构特性和基于坐标的几何信息,我们的模型表现出令人满意的预测精度,C
*和O
*结合能测试集的MAE分别为0.14 eV和0.18 eV。此外,可以从特征重要性分布和Kullback-Leibler散度分析中提取可解释的物理机理,显示特定反应的理想合金催化剂的最可能的结构和组成特征。所提出的模型通过DFT计算和微观动力学建模得到了进一步验证,其中低温甲醇合成作为测试反应,Cu
3Pd合金被机器学习筛选为高潜力候选材料。原则上,由于其简单性,在任何详细的理论或实验研究之前,将该模型用作快速筛选工具,可广泛适用于其他由C
*和O
*结合强度主导的反应体系。其他基于坐标的几何表征,如广义配位数,也被发现能有效提高基于非第一性原理电子结构特征的机器学习模型的预测精度[
116‒
118]。
上述示例往往侧重于单/双组元催化体系,然而拓展至多组元体系实现有效的吸附能评估对新型催化剂的开发也具有指导意义。因此,对HEA表面的预测是成分异质性在表面形成中起作用的另一个例子。例如,Batchelor等[
119]研究了由五种元素(Ir、Pd、Pt、Rh和Ru)组成的HEA作为ORR的候选催化剂,其中以O
*和OH
*的吸附强度为目标。研究人员构建了一个非常简单的线性模型,该模型仅基于结合位点的最近邻原子组成参数化进行预测。根据OH
*和O
*的吸附,分别对(111)型HEA中的三种和五种原子区进行了分类[
图6(a)]。通过采用可用结合位点随机子集的吸附能作为训练集,该模型表现出令人印象深刻的预测精度,在其他可能的位点上,OH
*和O
*吸附的RMSE分别为0.063 eV和0.076 eV。更重要的是,所开发的模型随后被用于优化HEA的组成,通过促进具有特殊催化活性的位点,为发现新型合金提供了一个设计平台[
图6(b)]。
类似的位点表征概念被用于筛选双金属或HEA催化剂,用于CO
2加氢制甲醇[
120]或析氢反应(HER)[
121]。研究发现,使用基于距离的描述符作为最近邻信息的替代方案有助于准确预测多金属表面上的H
*吸附[
122]。然而,目前对多金属或HEA催化剂的预测主要局限于(111)或(100)模型表面。能够包含结构和组成变化的准确预测模型(如具有非理想平面的HEA催化剂)仍然缺乏,需要未来进一步的开发。
基于配位数的表征方法进一步使基于主动学习的全自动理论框架能够指导所需能量描述符的DFT计算,如Tran和Ulissi [
123]所证明的那样。更具体地说,这些研究人员提出了一种指纹识别方法,以数字方式表示吸附位点[
图6(c)]。该方法使用四个数字的向量描述与吸附物配位的每种元素类型:原子序数;Pauling电负性;与吸附物配位的元素原子数,由Voronoi网格确定;以及吸附物和纯元素之间的中值吸附能(Δ
E)。在列举了31种元素中1499种不同金属间化合物组合的所有可能结合位点后,研究人员确定了54种表面CO
*结合能接近最优的电化学CO
2RR候选材料,以及102种具有理想的H
*结合能的HER候选材料[
图6(d)和(e)]。据报道,CO
*和H
*的预测MAE分别为0.29 eV和0.24 eV。该框架成功地结合灵活性、自动化和机器学习指导实现了对众多吸附位点、表面和材料空间的全面分析,从而加速了理论发现。应该指出的是,尽管主动学习框架基本上采用了非第一性原理特征(除了Δ
E),但仍迭代地进行了额外的DFT计算,以验证预测,并为模型再训练生成新的DFT数据。
与基于配位数的方法相比,基于图的深度学习(DL)方法在高级特征表征方面具有优势[
124]。Back等[
125]使用与参考文献[
123]中相同的数据集,证明了基于图的表征构建的CNN的MAE较低(为0.15 eV),并且仅使用初始结构作为输入。通过集成晶体图形卷积神经网络(CGCNN)并采用一种表征未弛豫裸露表面几何构型中活性位点原子的标记方法,研究实现了更令人印象深刻的预测精度(即CO
*和H
*结合能的测试MAE分别为0.116 eV和0.085 eV)[
126]。该位点标记方法[
图7(a)]通过从弛豫的体相结构生成未弛豫的表面结构,能够完全省去基于DFT的表面弛豫计算,这些弛豫的体相结构在计算上更便宜,甚至在开源数据库(如参考文献[
127])中很容易获得。原则上,这种通用的方法无需修改就可以应用于任何基于深度学习的吸附预测模型。这些工作表明,新的位点描述方法和先进的机器学习算法的结合为复杂催化表面的高通量预测提供了一种可行的解决方案,将搜索空间从单晶模型催化剂显著扩展到更实用的催化剂。
当与不同的机器学习方法或模块结合时,基于图的表征也为提高从电子结构属性(如DOS)中提取的特征的可解释性提供了一种有前景的策略。Wang等[
128]将经典的d带理论直接融入深度学习,从而构建出一个能够通过设计从学习数据中提取物理洞察的框架。这种所谓的理论融合神经网络(TinNet)方法包含两个串行的模块:一个基于卷积神经网络的回归模块,用于对原始数据中的原子和电子结构信息进行编码;一个理论模块,用于从回归模块中获取输出,并预测金属位点的吸附性质[
图7(b)]。TinNet的有效性通过典型的简单吸附物(如OH
*和O
*)得以验证。与GPR [
74]、Bayeschem [
86]、DOSnet [
94]和CGCNN等现有模型或算法相比,该方法预测性能最好,MAE为0.118 eV。除了具有与纯数据驱动的机器学习方法相当的预测性能外,TinNet还允许将d贡献的吸附能分解为泡利排斥和轨道杂化,对其进行详细分析,揭示了定制具有理想催化性能的新型结构基元的潜在途径。
3.2.2 复杂分子的增强表征
由于表面和分子之间的相互作用在多相催化中起着核心作用,当目标反应涉及较大的分子时,可能的吸附构型和可能的反应路径的数量都会急剧增加。因此,所有吸附能的显式计算可能非常耗费资源和时间。正如有机合成或药物发现的一般分子机器学习所确立和证明的那样,许多分子表征方法已被直接应用于催化预测机器学习模型中[
129‒
133]。例如,Li等[
134]比较了利用不同的方法组合,包括表面的EP [
96]和库仑矩阵[
129]表征,以及扩展连通性指纹(ECFP)[
130]、光谱London Axilrod-Teller-Muto(SLATM)[
131]和键合袋(BOB)[
132],表征吸附物,发现EP + SLATM组合对四个低指数金属面[Cu(111)、Pt(111)、Pd(111)和Ru(0001)]上的68个吸附物的MAE最低,约为0.18 eV。研究人员进一步将简单的表面扩展到更广泛的过渡金属/合金表面,并通过用元素族和周期代替原子序数来改变各种表征方法[
123,
126,
133],从而实现H
*结合能预测的MAE约为0.05 eV,其他强结合吸附物的MAE约为0.1 eV(C
*、N
*、O
*和S
*)[
135]。Chowdhury等[
137]使用基于简化分子线性输入规范(SMILES)符号分子指纹[
图8(a)][
136‒
137],构建了多个基于过滤器的神经网络模型,从Pt (111)上的C
4数据集推断出C
2/C
3数据集,其中C
2-C
4是指由2~4个碳原子组成的物种。与基于配位数的表征相比,基于SMILES的表征被证明可以将外推MAE降低约20%。类似的特征工程也有助于预测和比较环状和链状分子在金属表面上的吸附能[
138]。这两项工作都证明了SMILES符号在预测性机器学习模型中编码复杂分子结构的有效性。
与表面表征类似,图基方法由于其数据结构易于阅读和扩展,因此能够增强和提高分子表征的效率。例如,图神经网络(GNN)等各种图基方法,已被用于表示Rh (111)上合成气到乙醇的转化中高达315个C
1/C
2表面中间体和TS [
139]。吸附能预测的最佳RMSE和MAE分别为0.19 eV和0.15 eV,活化能预测的误差低于传统的BEP关系。最近,Pablo-García等[
140]证实了GNN在表征复杂分子方面的优越性,他们展示了一个平衡良好的化学多样性数据集的构建和一个新的GNN架构,称为基于图的金属表面吸附能(GAME)-神经网络(Net)[
图8(b)]。他们的数据集非常全面,包含闭壳C
1‒4分子,其功能基团包括N、O、S和C
6‒10芳香环(3315个条目)。在广泛的采样后,通过DFT计算探索了所有分子的最佳吸附结构和位置。数据集中只包括最低能量构型。吸附在密堆积金属表面上的分子被进一步表示为积分图,以训练GAME-Net,该网络由全连接层、卷积层和池化层组成。GAME-Net的强大预测能力在测试集上得到了证明,其MAE为0.18 eV,以及与DFT相比,时间减少了六个数量级。该模型甚至可以直接用于预测具有多达30个杂原子的较大塑料和生物质分子,这些分子在初始训练数据集中没有出现,每个原子的平均绝对误差为0.016 eV,表明该模型具有很高的准确性。尽管该模型仍存在一些局限性,例如,要求高度对称的表面(即仅考虑紧密堆积的纯金属)和忽略横向效应,但该模型的简单性和通用性使其成为快速筛选催化材料的有用工具,适用于传统方法(如DFT)难以模拟的独特应用。
3.2.3 更现实的条件下催化体系的增强表征
虽然上述工作侧重于模型催化体系,如吸附物覆盖率低的单晶表面,但利用机器学习来更好地描述和预测更实用的催化体系的努力也受益于增强的表征。例如,通过预测单晶模型表面以外的实际催化材料,如纳米粒子(NP)和小的团簇,进一步证明了准确表面表征的重要性。Jinnouchi和Asahi [
141]重点描述了RhAu合金NP的催化NO分解性能[
图9(a)],并提出了一个通用的机器学习方案,以基于局部原子构型研究反应活性。为了评估结构相似性,研究人员采用了所谓的平滑重叠原子位置(SOAP)相似性内核,该内核由不同表面位点截止半径内的三维(3D)原子分布之间的重叠积分组成。该模型的成功表明,吸附物的结合具有显著局部性特征,通过增加DFT数据的数量以覆盖所有可能的局部结构,可以系统地提高预测精度。当一个研究小组将SOAP描述符与机器学习模型结合起来预测各种MoS
2和Cu-Au纳米簇上的H
*吸附时,也得出了类似的结论[
142]。
然后,可以使用各种全局结构生成方法将先进的局部结构表征组装到机器学习流程中,以预测结构多样的实用催化体系。Chen等[
143]设计了一个神经网络模型,用于识别金(Au)NP和脱合金Au
3Fe NP上在CO
2RR转化为CO中的活性位点。研究人员关注的是一种称为
a值的性能指标,它可以表示为
a = Δ
E CO-1.4423Δ
E HOCO,其中Δ
E CO和Δ
E HOCO分别表示CO和表面羧基(HOCO
*)的吸附能。这两种能量都可以通过量子力学(QM)获得。研究人员使用一种名为ReaxFF的专为反应体系开发的反应力场[
144],首先构建了一个10 nm的Au NP,其中包含10 000多个表面位点。然后,基于Au原子间原子距离的特征被用来描述极其不规则和无序的Au表面,Δ
E CO和Δ
E HOCO预测的RMSE分别约为0.05 eV和0.06 eV。整个表面的催化活性被进一步绘制出来,以说明NP的理想位点几何形状[
图9(b)],并指导CO
2RR高性能电催化剂的设计。类似的ML-QM-ReaxFF框架被应用于研究Au NP上的CO
2RR,同时考虑了溶剂效应和粗糙的Cu表面,证明了该策略的良好通用性[
145‒
146]。
可以考虑不同的位点表征和初始结构生成方法,以进一步修改工作流程。通过利用指纹标记方法[
126],Gu等[
147]将力场、DFT、机器学习和动力学蒙特卡罗整合到一个端到端的多尺度模拟框架中,以阐明锯齿状铂(Pt)纳米线的碱性HER动力学。该框架不仅实现了对H
*吸附能的高预测精度(MAE小于0.05 eV),而且还提供了对自动双功能碱性HER机制的理解。它还提出了用于碱性HER的高活性Pt催化剂的结构基元。同样,Zhang等[
148]也关注HER催化剂,但采用的是非晶体系,他们采用了一种在通用结构预测器进化XtalLography代码中实现的GA优化方法,获得了600多种Ni
2P的非晶表面结构。仅依赖于局部化学环境的非第一性原理特征被用于预测H
*的冻结吸附能,RMSE小于0.1 eV。然而,我们注意到H
*吸附能由冻结项和弛豫项组成。根据之前对沸石体系的讨论,后者的预测(考虑了位点和表面形变时的能量变化)仍然需要第一性原理特征[
87]。
实际催化复杂性的另一个方面来自横向效应,如吸附物-吸附物相互作用和溶剂化。然而,在第一性原理模拟中明确考虑这些影响通常需要极高的计算量。例如,为了确定高覆盖率下表面上的最佳结合构型,通常需要枚举所有可能的结合构型,然后使用DFT计算获得每种构型的能量。探索如此大的原子构型空间可能需要比低覆盖率下的单一计算多出几个数量级的时间。为了应对这一挑战,Greeley小组开发了一种基于机器学习的替代模型,称为基于吸附化学环境的图卷积神经网络(ACE-GCN),以取代昂贵的DFT计算,确定高覆盖率催化表面的原子结构[
图9(c)][
149]。该模型基于SurfGraph算法,该算法允许将原子配置转换为无向图表示[
150]。图的表征被进一步拆分为子图,用于特征化和模型训练。这种子图划分是显式考虑吸附物局部环境的关键,从而可以准确地捕捉到微观原子级相互作用,如吸附物-吸附物相互作用。以OH
*在阶梯式Pt(221)表面上的吸附为例,ACE-GCN不仅允许使用混合训练数据集[在Pt(221)和Pt(100)表面上获得的高覆盖率数据]来提高模型在排列最可能的吸附构型方面的可靠性,而且还成功地确定了Pt(221)上能量有利和不利的高覆盖率(对应于1/2单层)OH
*吸附构型,减少了96%的DFT弛豫计算[
图9(d)]。
除了Cao和Mueller [
151]最近采用机器学习集群展开方法绘制Pt-Ni合金纳米颗粒上的ORR活性图的一项研究外,很少有报道对包含纳米结构催化剂和现实反应条件的复杂催化体系进行严格描述。然而,利用机器学习和先进的表示方法加速实际催化体系的原位理论描述,无疑是一个有前景的方向。
4 机器学习引导的实验催化剂发现
对吸附物结合强度的准确估计有助于为高效高通量催化剂筛选和催化剂设计奠定基础,当然,其有效性仍需要实验验证。在本节中,我们介绍了一些在机器学习引导下成功开发高活性催化剂的例子,以进一步证明机器学习方法在加速实验催化剂发现中的重要性。
例如,Zhong等[
152]采用上述讨论的AL框架[
123]来研究合金表面上的CO吸附强度。基于从标度关系火山图获得的理解表明CO
2RR的最佳CO结合能应在-0.67 eV左右[
107],研究人员检查了各种合金,以确定在该值附近表现出吸附强度的理想催化剂。如
t分布随机邻域嵌入(
t-SNE)图[
153]所示,Cu-Al合金呈现出具有接近最佳的CO结合能的多个位点和表面取向,显示出其在高效和选择性CO
2RR催化方面的巨大潜力。后来,一种合成的Cu-Al催化剂证实了这一点,该催化剂有效地将二氧化碳还原为乙烯,其法拉第效率最高可达80%以上。同样,机器学习已被证实能有效设计用于氮相关化学(如氨氧化)的合金催化剂。例如,采用上述TinNet框架[
128],Pillai等[
154]探索了三元Pt合金纳米结构的巨大设计空间[
图10(a)和(b)]。通过第一性原理计算数据的训练数据集,可以实现位点反应活性、表面稳定性和催化剂可合成性描述符的协同预测。AL工作流程表明,Pt
3Ru-M(M = Fe、Co或Ni)合金是有前景的无铱(Ir)候选材料,其催化潜力得到了相应实验合成的纳米立方体的证实,其活性高于最先进的Pt催化剂及其双金属合金[
图10(c)和(d)]。这充分证明了机器学习在广阔的化学空间(如多金属体系)中指导和加速催化剂实验探索方面的巨大潜力。
除了在高通量筛选中的应用外,机器学习在为实验催化剂设计提供有价值的物理机理方面也具有吸引力。沿着这一思路,Zhai等[
155]设计了一个神经网络模型,将钙钛矿氧化物的ORR活性与九种离子描述符相关联,其中,经特征重要性排序,A位点和B位点的离子路易斯酸强度(ISA)被证实为最具影响力的特征。因此,调整钙钛矿的ISA被认是为优化钙钛矿ORR活性的可行方法。实验表征表明,减少A位点和增加B位点ISA可以显著改善钙钛矿氧化物的表面交换动力学。基于这一前提,合成了四种钙钛矿氧化物,其优越的催化性能证实了机器学习衍生催化剂设计原理的有效性。同样,通过Bayeschem [
86]获得的机器学习机理被证实可有效地发现用于电化学硝酸盐还原反应(NO
3RR)的新型催化剂,打破了传统催化剂[
156]带来的吸附能标度限制。更具体地说,Bayeschem发现非标度行为起源于金属d态与吸附物前线轨道的位点特异性泡利排斥相互作用,并且可以在(100)型位点上实现,其中
*N和
*NO
3与亚表面金属原子表现出不同的轨道重叠度。因此,在有序的B2金属间化合物中调整亚表面元素成为优化NO
3RR性能的合理策略。通过合成和测试具有类似(100)表面取向的单分散有序B2 CuPd纳米立方体,进一步验证了这一策略,该纳米立方体对NO
3RR转化为氨的法拉第效率高达92.5%,并且氨的产率比Cu或Pd有所提高。将机器学习的理解成功转化为合理的实验催化剂设计原理,除了直接计算高通量筛选外,还为机器学习引导的新催化剂发现提供了启示。
5 总结与展望
寻找下一代化学工业的高效催化剂将继续成为未来几十年的研究热点。作为仍处于起步阶段的新型领域,机器学习辅助的表面反应活性评估已经展现出巨大的潜力,可以在高通量催化剂筛选中实现范式转变。考虑到已经取得的进展,我们指出了用于吸附能预测的机器学习模型开发中的两个主要推动因素(
图11)。
(1)数据集的构建和管理。许多研究不是从零开始生成一套全新的训练数据点,而是利用以前论文或公共数据存储库中的数据集来设计新的模型,用于预测结合能。例如,参考文献[
74,
84,
93,
123]中报道的数据集已被其他研究广泛采用,这些研究通过从不同角度处理这些已发布的数据,提出了新的观点。斯坦福直线加速器中心(SLAC)SUNCAT中心维护的CatApp [
80]和Catalysis-Hub.org [
157]等公共数据存储库也经常被使用。通过重复使用相同的数据集来演示不同的机器学习模型,可以进行客观的性能比较,其中建立适当的基准可以促进开发更准确、更稳健的模型。为了构建多相催化的广泛数据集,Meta AI(原Facebook AI)和卡内基梅隆大学化学工程系的基础人工智能研究于2020年启动了Open Catalyst(OC)项目。其原始数据集OC2020包含128万次DFT弛豫计算(相当于2.6亿次单点计算),涵盖了55种元素、82种吸附物和一元/二元/三元无机材料[
158]。发布如此大规模的数据集无疑有利于吸引更广泛的兴趣,并促使研究界共同努力,以应对开发可适用于催化发现的可推广机器学习模型的开放性挑战[
159]。
(2)物质表征方法的实施和改进。如第3.2节所示,机器学习模型的准确性在很大程度上取决于表面和分子的合适表征,在对结构或组成复杂的体系(如纳米颗粒和HEA)的催化活性进行建模时,表面和分子的作用变得更加重要。鉴于在现实条件下催化剂重构可能导致的位点多样性的普遍存在,合理化和优化物质表征至关重要。基于深度学习的方法最近在复杂的物质表征中显示出巨大的潜力[
124‒
126,
140,
150,
160]。他们的表征比人工构建的表征更具表现力,并且有望与大规模数据集兼容,这一结论是基于对OC2020数据集的比较研究[
159]得出的。
尽管迄今为止取得了令人印象深刻的成就,但直接通过机器学习获取吸附强度仍然存在以下重大挑战(
图11)。
(1)适用性。由于先前的许多工作主要集中在基于特定化学和材料成分(例如,主要是金属合金)的体系上,其适用性有限,因此开发一种可以在丰富的材料和分子吸附物空间中运行的通用模型仍然是该领域的“圣杯”任务。与其他领域的AI/ML模型优化类似,模型的预测能力通常会随着数据量的增加而提高。遗憾的是,这种改进并不那么简单和可扩展。正如OC团队[
158]使用当前基准模型所揭示的那样,对于催化数据集而言,数据集大小与模型性能之间的标度关系比有机小分子和无机材料的数据集更困难。因此,迫切需要机器学习模型的创新来克服这一障碍。
(2)效率。鉴于可以访问大规模数据集,下一个任务是提高模型效率。这通常依赖于低成本特征的利用(例如,仅使用初始原子结构的图形信息,如OC2020任务[
158])和预测精度的提高。由于最终目标是在几乎无限的候选空间内识别具有理想特性的材料,因此采用计算成本高的信息是不可取的。另外,机器学习模型的预测准确性仍然至关重要,因为不准确的结果最终会导致时间和资源的浪费,从而削弱了加速材料筛选的目标。遗憾的是,降低成本和提高准确性往往导致两难境地,正如使用第一性原理和非第一性原理特征的模型之间的比较所证明的那样。因此,谨慎而巧妙地平衡这两种需求至关重要。
(3)复杂性。尽管在预测复杂反应网络中或复杂催化表面上物种的吸附能方面已经做出了值得肯定的努力,但训练数据集大多是在理想化的表面上获得的,这些表面具有简单的假设,如高真空、低吸附物覆盖率和单一表面物种。然而,这些近似值可能过于粗糙,并且可能与实际反应条件存在很大偏差,特别是对于未来广泛应用于清洁能源相关领域中的电催化反应来说。除了由物种共吸附或吸附物-吸附物相互作用[
107,
161]等引入的一些常见复杂性外,这些电催化反应还包括由固有电化学界面引起的其他复杂性,这可能导致严重的溶剂化和电荷分离效应[
162‒
164]。如果无法很好地捕捉这些复杂性,那么机器学习模型的预测结果将不会那么有用和有效,尽管这些模型可能能够实现潜在的令人满意的预测精度[
149]。
(4)可靠性。当前大多数数据库中的能量数据是通过广义梯度近似(GGA)级DFT计算获得的。因此,基于这些数据建立的机器学习模型的准确性也受限于GGA方法的理论精度上限。meta-GGA或杂化泛函等更精确的方法能够提供更可靠的结果,但它们通常同时带来高昂的计算成本,使得用这些方法构建数据集变得不切实际。此外,自旋极化体系或强电子关联体系(如磁性3D金属氧化物)需要对DFT参数进行精细调整,以产生物理上合理的结果,这为大规模数据集的构建带来了另一个障碍。例如,OC2020数据集简单地认为所有体系都没有自旋极化[
158]。当采用来自不同来源的数据库时,计算方法中的这种不一致性引入了额外的不确定性。在这种情况下,不确定性量化仍然是必要的。开发可靠的方法来加速高精度DFT模拟或提供准确的DFT替代项是另一个有价值的方向,其中机器学习已经展示了其巨大的潜力[
165‒
169]。然而,关于这方面的讨论超出了本文的讨论范围。
(5)可解释性。提高模型的可解释性有助于更好地利用其预测能力。除了仅仅获得一些有希望的候选物外,通过客观优化获得新的理解和新的原理以帮助设计更好的催化剂也是至关重要的。大多数以前的工作都采用了纯数据驱动的方法,这种方法产生的预测误差非常低,但可解释性有限。因此,训练后分析是一种常见而有效的方法,可以从这些模型中提取更多的物理机理。或者,更理想的是有意将机械理解融入机器学习框架中,在这种情况下,模型的物理合理性可以自动得到保证,模型的可解释性也会自然而然地产生。更重要的是,将可解释性融入机器学习模型可以帮助解决部分可靠性问题,因为专家可以尝试使推导出的解释合理化,并将其与已知的物理原理进行比较[
55]。
我们注意到,上述挑战可能是高度复杂的,并且可能没有一个理想的机器学习模型能够同时克服所有障碍。或者,我们设想一个分层的工作流程,以利用多个机器学习模型在不同方面的独特优势,而高通量筛选的总体任务可以分解为由对准确性、复杂性和可扩展性有不同要求的步骤组成的串联任务。例如,首先采用纯数据驱动的机器学习模型,通过简单的假设和折中的预测精度快速浏览广阔的材料空间。在适当的不确定性量化下,仍然有可能找到包含可能有希望的候选材料的子空间。接下来,通过专注于这个特定的子空间,同时利用适应较小数据集的机器学习模型,利用更精确的计算方法,编译更逼真的近似值,并表现出更高的可解释性,可以实现高度可靠的预测和知识提取。最后,所获得的物理机理可以被进一步应用于重新检查整个材料空间,以寻找与提取的模式高度匹配的潜在遗漏候选材料。总之,尽管在表面反应活性预测和高通量催化剂筛选中应用机器学习面临许多挑战,但我们相信这仍然是一个非常有前景的领域,在改进计算科学、加速材料设计以及最终重塑未来化学工业和能源格局方面具有巨大的潜力。