一种改进的纯组分物性预测机器学习模型

工程（英文） ›› 2024, Vol. 39 ›› Issue (8) : 65 -78. DOI: 10.1016/j.eng.2023.08.024

研究论文

一种改进的纯组分物性预测机器学习模型

曹欣羽 ^a ,
贡铭 ^b ,
Anjan Tula ^a^,^* ,
陈曦 ^a^,^* ,
Rafiqul Gani ^c^,^d^,^e ,
Venkat Venkatasubramanian ^f

作者信息 +

An Improved Machine Learning Model for Pure Component Property Estimation

Xinyu Cao ^a ,
Ming Gong ^b ,
Anjan Tula ^a^,^* ,
Xi Chen ^a^,^* ,
Rafiqul Gani ^c^,^d^,^e ,
Venkat Venkatasubramanian ^f

Author information +

文章历史 +

Received	Accepted	Published
2023-02-17	2023-08-01
Issue Date
2024-11-11

PDF (4062K)

摘要

了解物质的物理化学性质是进行工艺设计和产品设计等任务的重要前提。然而，数据的匮乏和高昂的实验成本阻碍了这些性质预测技术的发展。此外，准确性和预测能力也限制了大多数性质预测方法的范围和适用性。本文提出了一种新的基于高斯过程的建模框架，旨在处理由基团贡献法表示分子结构的离散和高维输入空间。扭曲函数被用来将离散输入映射到连续域，以调整不同化合物之间的相关性。在机器学习建模过程中，本文还应用了先验选择技术（包括先验推断和先验预测检查）以提供更多来自之前研究结果的信息。该框架使用不同规模的数据集对20种纯组分物性进行了评估。对于其中18种纯组分物性，新模型相比其他已发表的模型（无论是否使用机器学习）表现出更高的准确性和预测能力。

Abstract

Information on the physicochemical properties of chemical species is an important prerequisite when performing tasks such as process design and product design. However, the lack of extensive data and high experimental costs hinder the development of prediction techniques for these properties. Moreover, accuracy and predictive capabilities still limit the scope and applicability of most property estimation methods. This paper proposes a new Gaussian process-based modeling framework that aims to manage a discrete and high-dimensional input space related to molecular structure representation with the group-contribution approach. A warping function is used to map discrete input into a continuous domain in order to adjust the correlation between different compounds. Prior selection techniques, including prior elicitation and prior predictive checking, are also applied during the building procedure to provide the model with more information from previous research findings. The framework is assessed using datasets of varying sizes for 20 pure component properties. For 18 out of the 20 pure component properties, the new models are found to give improved accuracy and predictive power in comparison with other published models, with and without machine learning.

关键词

基团贡献法 / 高斯过程 / 扭曲函数 / 先验预测检查

Key words

Group contribution / Gaussian process / Warping function / Prior predictive checking

引用本文

引用格式 ▾

曹欣羽,贡铭,Anjan Tula,陈曦,Rafiqul Gani,Venkat Venkatasubramanian. 一种改进的纯组分物性预测机器学习模型[J]. 工程（英文）, 2024, 39(8): 65-78 DOI:10.1016/j.eng.2023.08.024

登录浏览全文

4963

注册一个新账户忘记密码

1 引言

预测化学物质行为的能力主要取决于对其物理化学性质的了解。因此，纯组分的物性数据是有效执行工艺和产品设计任务的重要前提[1‒2]。在工艺设计中，需要确定已识别化合物的性质（溶解度、蒸气压等）与设计目标匹配的条件（温度、压力等）；在工艺设计中，需要选择具有理想目标性质（沸点、临界压力等）的化合物[3]。然而，缺乏纯组分物性的数据是对所需性质建模的一个关键限制。通过做实验的方法来获得物性数据，存在要求高、费用昂贵等劣势，有些性质甚至不可测量[4]。因此，需要准确和鲁棒的性质预测模型。近些年来，统计分析计算机软件方面飞速进展，可以弥补不完整测量物性数据的不足[5]。已知一类纯组分物性，即主要性质，与分子的结构有关[6]。本文重点研究有机化学品主要纯组分的物性，利用其分子结构信息建模。

在过去几十年中，纯化合物性质预测研究取得了迅速发展。从简单的多项式函数到非常大的微分代数系统集的数学模型都被用来估计所需的纯化合物性质[3]。其中，传统方法包括基团贡献（GC）方法[7]、定量结构性质关系（QSPR）建模[8]、ab initio量子力学方法[9]等。GC方法是最广泛用于主要纯组分物性的物理化学性质预测的方法。在这种方法中，物性被确定为代表分子的功能基团贡献的函数[10]。其快速预测无需大量计算资源，并且易于嵌入其他模型，加速了GC方法在毒性预测[11]、熔点预测[12]和生物质转化处理[13]等不同领域的应用。另一方面，预测准确性低下限制了GC模型的使用[7]。因此，不少研究提出了不同的方法来提高GC模型的性能。比如，更高级的描述符可以通过二阶功能基团揭示更多结构信息[10,14]，GC⁺模型则是为表示缺失的GC而创建的[1,7,15]。

最近的研究显示，基于机器学习的模型进行性质预测[16]以及基于人工智能（AI）技术来识别具有良好性质的潜在分子结构[17]的趋势正在增加。Venkatasubramanian和Mann [18]使用AI进行反应预测和化学合成。此外，在最近的一篇观点文章中，Mann等[19]强调了在AI时代性质预测在化学产品设计中的应用。基于机器学习的方法，如神经网络和随机森林算法，在使用不同分子描述符进行性质预测中起主要作用。许多方法相比传统建模技术具有显著优势，包括灵活性、准确性和执行速度[20]。它们的可行性在减少与量子力学/分子力学计算相关的计算成本[21]、新型QSPR方法[22]等方面得到了证明。例如，Zhou等[23]将简化的分子输入线条条目系统（SMILES）符号视为句子，并使用自然语言处理技术进行分子信息挖掘和化学性质探索；Zhang等[24]开发了一个准确且可解释的深度神经网络（DNN）模型用于性质预测；Wen等[25]提出了一种系统方法，结合多种机器学习技术解决DNN-based QSPR建模中的适用领域和预测不确定性等关键问题。此外，在功能基团表示领域，许多机器学习模型在估计和预测能力方面表现更好，但代价是消耗更多的计算资源，这扩展了GC-based应用的范围。例如，Paduszyński和Domańska [26]采用了基于GC类型分子描述符的两层前馈人工神经网络，它被证明是当时文献中描述离子液体（ILs）黏度的最佳GC模型；Li等[27]通过MATLAB回归学习模块使用23种机器学习算法开发回归模型预测燃料点火质量，达到了高精度。在现有机器学习模型中，值得注意的是，具有置信区间的高斯过程（GP）[28]是一种广泛使用的性质预测方法。它对可能的目标函数先给定先验，并在训练过程中通过更新基于观察数据的贝叶斯后验逐步优化模型[29]。置信区间促进了GP在许多领域的发展，包括安全关键环境[30‒31]、不确定性预测[32‒33]和贝叶斯优化[34‒35]。GP的另一个优点是，在建模前需要较少的模型结构信息（如架构和学习率）[28]。鉴于这些突出的特点，Alshehri等[36]开发了基于GP的下一代有机化学品25种纯组分物性模型，比简单的GC模型具有更高的物性预测准确性。

虽然研究人员经常使用各种预测方法，但在开发性质模型方面仍存在几个挑战。在大多数情况下，简单的GC模型表现较差，平均误差阈值约为10% [36]。对于机器学习方法，尽管误差较小，但在训练集之外的外推能力仍然有限。其中，部分原因在于原始化合物与分子描述符数学表示之间的信息差距。此外，严格应用模型而不考虑数据特性可能导致次优的预测结果。尽管与传统模型相比，基于GP的纯组分物性模型已被开发出更高的准确性，但可以使用一些技术进一步改进GP模型。功能基团输入空间是离散且高维的，许多成熟的建模方法已经存在，可以使用这些信息。通过考虑输入空间的特征和给定更好的先验信息，可以构建更高准确性和外推能力的机器学习模型。

本文提出了一种基于GP的功能基团表示下的性质预测新框架。其中，高维和离散的输入空间通过扭曲函数进行处理，并利用GC方法给定先验信息。本文的结构如下：第2节提供了一些与GC方法相关的基本概念以及最新的机器学习方法；第3节介绍了完整的模型结构，并应用于第4节中的纯组分回归；第4节依次分析了纯组分回归中单个技术（即扭曲函数、先验推断和先验预测检查）的贡献，并列出和比较了一些其他主流机器学习方法建立的模型；第5节强调了本文的主要贡献，并简要介绍了未来的研究方向。

2 物性建模基础

2.1 GC建模方法

在基于GC的模型中，化合物的性质是通过代表分子结构的不同基团的贡献来预测的，具有无需大量计算资源即可快速预测的重要优势[10]。图1展示了化合物methoxylor的GC表示。methoxylor的分子结构用一个424维的向量表示，分为三个基团阶层。在这种情况下，值为“2”的第二维对应于methoxylor中甲基（‒CH₃）出现两次。其他维度的值可以类似地获得，从而以仅包含整数的向量形式提供信息。需要注意的是，仅使用一级基团就可以准确预测简单和单功能分子的性质，因为一级基团捕捉到了近邻效应（不考虑分子中不同基团的效应）。然而，更高的阶层（第二和第三）提供了多功能和结构基团，这些基团提供了关于更复杂化合物分子结构的更多信息。然而，原子平衡是通过一级基团来确保的。

在传统的GC框架中，性质预测模型采用公式（1）的形式。

f x = ∑ i = 1 N F c i F x i F + ∑ j = 1 N S c j S x j S + ∑ k = 1 N T c k T x k T + b

(1)

式中，

c i F

、

c j S

、

c k T

分别代表第一、第二和第三阶层的贡献；

x

(

[x i F, x j S, x k T]

)代表功能基团数；

b

是截距；

f x

是性质值的预测；i、j、k是第一、第二和第三阶层的贡献度；NF、NS、NT分别代表三个阶层的基团总数。Hukkerikar等[37]提出了两种优化贡献系数的方法（同时和顺序），它们在系数预测的顺序上有所不同。虽然同时方法在一个步骤中考虑了所有参数，但顺序方法逐步使用第二和第三阶层的项来减少第一阶层的残差。

2.2 支持向量机回归模型

支持向量机回归（SVR）模型[38]是由支持向量机（SVM）生成的监督学习模型。用线性核建立的SVR模型和线性回归之间的最明显区别在于，前者在误差小于某个正数

ε

时会忽略误差。此功能使模型对聚合数据的敏感性降低，从而更鲁棒。

本文中，模型中的GC系数通过具有线性核的SVR进行回归（在本文中称为“SVR模型”），使用第2.1节中介绍的同时和顺序方法进行。SVR模型的超参数包括作为违反条件的比例系数的惩罚

P

和最大容差偏差的精度

ε

，如公式（2）所示。

m i n 12 c 2 + P ∑ i = 1 N δ i + δ i * s . t . y i - (c T x i + b) ≤ ε + δ i i = 1,2, 3 … N (c T x i + b) - y i ≤ ε + δ i * i = 1,2, 3 … N N f (x i) = c T x i + b i = 1,2, 3 … N δ i, δ i * ≥ 0 i = 1,2, 3 … N

(2)

式中，

δ i

和

δ i *

是处理超出ε精度范围的点的两个松弛变量；

x i

代表第

i

个分子，

y i

代表其测量结果；

N f (x i)

代表同时方法的预测结果或顺序方法的第一、第二、第三阶层预测项；

c

是贡献向量，等于公式（1）中的

[c i F, c j S, c k T]

；

c T

是

c

的转置；

N

代表数据数量。本文中，超参数调优通过栅格搜索方法实现。

2.3 GP模型

GP是一种随机过程，其中每个有限集合的随机变量都具有多变量高斯分布。在最常见的情况下，GP先验满足公式（3）。通过贝叶斯推断，获得的未观测点的后验也服从正态分布。均值和方差分别如公式（4）和公式（5）所示。

y f * ~ 𝒩 0, K X, X + σ e 2 I K X, X * K X *, X K X *, X *

(3)

μ (f *) = K X *, X K X, X + σ e 2 I - 1 y

(4)

v a r (f *) = K X *, X * - K X *, X K X, X + σ e 2 I - 1 K X, X *

(5)

式中，

X

和

X *

分别对应训练集和测试集中的输入变量；

y

是输入

X

的真实输出值；

f *

是

X *

的预测输出，其均值为

μ (f *)

，方差矩阵为

v a r (f *)

；

σ e

表示测量噪声；

I

表示单位矩阵；

𝒩

代表联合正态分布。

K ., .

是由核函数计算值组成的矩阵[39]，其第i行( i

= 1,2, 3, …, N

)和第j列( j

= 1,2, 3, …, N

)的元素等于由第i和第j个输入获得的核函数的值，如公式（6）所示。

K

( X,

X

)

= k (x 1, x 1) k (x 1, x 2) k (x 2, x 1) k (x 2, x 2) … k (x 1, x N) … k (x 2, x N) ⋮ ⋮ k (x N, x 1) k (x N, x 2) ⋱ ⋮ … k (x N, x N)

(6)

核函数

k (., .)

表示两个变量之间的相关程度，应谨慎选择。Alshehri等[36]总结了用于GP下性质预测的四个指数核（在本文中称为“GP模型”），其中使用的核函数形式为公式（7）。

k x, x' = ∑ i = 1 4 e x p (- | | x - x' | | 2 2 l i 2)

(7)

式中，

x

和

x'

是代表GC框架下两个特定化合物的424维向量，

l i (i = 1, 2, 3, 4)

是GP模型调优的超参，这些参数对于模型性能也至关重要。常用的超参数优化方法包括最大似然估计和交叉验证。

3 基于高斯过程的改进机器学习模型

由官能团向量表示的分子是高维的，且向量元素均为整数。尽管GP模型相比线性的官能团贡献度模型在整个数据集上具有提升的预测性能[36]，但其预测能力还可以进一步提高。本节提出了一种改进的GP模型，旨在处理高维离散输入空间。

3.1 离散输入空间的扭曲函数

具有有序级别的分类变量称为序数，可以被视为连续空间的离散化[40]。GP Y 在{1, 2, 3, …, L}上定义为以整数向量为输入变量的序数GP，GP Z 是一个普通的连续GP。GP Y 可以通过非递减函数[41]（也称为扭曲函数）在连续域中转换为GP Z，如方程（8）所示。因此，为序数处理的核函数可以如方程（9）所示进行变换。

Y u = Z (F (u))

(8)

t u, u' = k F u, F u', u, u' = 1, 2, 3, …, L

(9)

式中，

u

和

u'

均是具有

L

个不同级别的序数；

t (., .)

是GP Y 中的核函数。核函数是GP中两个变量之间的相关程度。许多常用的核函数只取决于两个变量间的距离，而不是变量本身。因此，具有某个官能团的0和1的分子之间的相关性与具有19和20的分子之间（因为这两个距离都是“1”）的相关性相同。然而，直观来看，表示数量的两个序数之间的相关性应该与它们自己的数值有关。比如在GC模型中，具有特定官能团的0和1的分子之间的相关性应该小于具有19和20的分子之间（第一对的距离应该更大）。因此，扭曲函数的形式定义为方程式（10）。

F u = l o g α u + 1, α > 1

(10)

图2展示了扭曲函数如何处理一维序数，以GC表示和常用的指数核为例。组合1包括具有0和1的某个官能团的分子，而组合2包括具有19和20的某个功能基团的分子。在离散变量直接输入核函数的情况下，两对组合的相关性是相同的。然而，在添加扭曲函数后，组合1的相关性较小，满足了模型的需要。当化合物

x

用424维向量表示时，方程（10）可以这样展开，即扭曲向量

F x

的第

i

个元素是用

x

的第

i

维分量计算的。

为了更好地处理离散变量的相关变化程度，扭曲函数中的参数

α

和核函数引起的参数被视为超参数，并通过GP Y 中的交叉验证或最大对数似然进行调整。

3.2 物性预测模型的先验推断

给定先验的策略包括向专家小组寻求建议，从样本数据中获得信息[42]。许多学者研究了适用于不同场景的GP的先验推断[43‒45]。大多数情况下，如果GP缺乏某些信息或经验，则GP的先验设置为零，而良好的先验推断过程会使模型具有更好的性能。

维度信息应该通过核函数或先验添加到GP模型中，因为它在GC表示下起着重要作用。平方指数核可以根据超参数进行参数化，如公式（11）所示：

k x, x' = σ 2 e x p - 12 x - x' T M x - x'

(11)

式中， M 表示对称矩阵。矩阵 M 的可能选择包括[28]：

M 1 = l - 2 I, M 2 = d i a g (l) - 2

(12)

式中，

l

、

l

和

σ

都是核函数的参数。需要注意的是，虽然

k x, x'

的形式似乎与输出空间无关，但在模型训练过程中，超参数将在很大程度上取决于输出值，从而使GP模型在预测多个属性时更加灵活。一方面，

M 2

显著增加了超参数的数量，从而使超参数调整变得困难；另一方面，

M 1

无法提供维度信息。对于具有高维和线性特征或意义的模型，如GC模型，先验可以设置为提供维度信息的输入空间的线性组合。在此框架下，GP模型转化为方程式（13）。后验的均值和方差分别对应于方程（14）和方程（15）[46]。

y (X) f (X *) ~ 𝒩 S V R (X) S V R (X *), K X, X + σ e 2 I K X, X * K X *, X K X *, X *

(13)

μ (f) = S V R X * + K X *, X K X, X + σ e 2 I - 1 × (y - S V R (X))

(14)

v a r (f) = K X *, X * - K X *, X K X, X + σ e 2 I - 1 K X, X *

(15)

式中，

y

是匹配

X

的真实输出值；

f

是匹配

X *

的预测输出。

S V R

是通过SVR技术获得的线性模型输出值。

3.3 GP模型的先验预测检查

如果先验推断程序有效，那么基于数据分析或专家实验的先验分布在本质上是有利的。然而，即使在有效的先验推断的情况下，也必须检查先验是否产生了不正确的数据[42]。研究显示，有许多用于先验预测检查的方法，如先验预测p值[47]和贝叶斯因子[48]。虽然

S V R

模型被添加为GP的先验，以提供维度信息，但事实上，它不一定优于零先验的GP。因此，在GP建模之前必须进行预先预测检查。由于只能使用训练集并对超参数调优进行交叉验证，因此使用不同折叠上的平均交叉验证损失来比较零和非零先验。考虑到

S V R

模型是在训练集上训练的，这使得具有

S V R

先验的模型的先验预测检查过程具有固有优势，因此具有非零先验的平均交叉验证损失会乘以一个惩罚因子。优先选择标准如方程式（16）所示。

G P p r i o r = S V R i f C V n o n - z e r o × (1 + p) < C V z e r o G P p r i o r = 0 e l s e

(16)

式中，

G P p r i o r

为最终GP模型的先验；

C V n o n - z e r o

和

C V z e r o

分别为具有先验

S V R

和零训练集上的平均交叉验证损失；

p

为惩罚项。

3.4 集成的模型结构

基于扭曲函数、先验推断和先验预测检查，为高维离散输入构建最终的GP模型（本文称为“GP-WP”）。方程（17）、方程（18）给出了模型的数学表示。

y (X) G P - W P (X *) ~ 𝒩 G P p r i o r (X) G P p r i o r (X *), T X, X + σ e 2 I T X, X * T X *, X T X *, X *

(17)

T

( X,

X

)

= t (x 1, x 1) t (x 1, x 2) t (x 2, x 1) t (x 2, x 2) … t (x 1, x N) … t (x 2, x N) ⋮ ⋮ t (x N, x 1) t (x N, x 2) ⋱ ⋮ … t (x N, x N)

(18)

式中，

G P - W P

是预测结果；

T (., .)

是由扭曲函数和核函数计算值组成的矩阵，其第i行和第j列中的元素等于方程（9）为第i和第j个输入获得的核函数的值。

S V R

的参数由方程式（2）获得。最后，方程（19）、方程（20）给出了预测值和不确定性。

μ (G P - W P) = G P p r i o r X * + T X *, X T X, X + σ e 2 I - 1 y - G P p r i o r X

(19)

v a r G P - W P = T X *, X * - T X *, X T X, X + σ e 2 I - 1 T X, X *

(20)

完整的建模过程如图3所示。在训练之前，数据集被分为训练集和测试集。在下一阶段，扭曲函数将离散GP Y 转换为连续GP Z，其形式已经给出。接着，在训练集上进行SVR模型。基于SVR模型，进行交叉验证以调整超参数，并使用方程（16）对具有零和非零先验的模型进行先验预测检查。最后，利用先验信息建立GP模型，并用扭曲函数对核进行处理。超参数包括α、

l

和

σ e

。

图4描述了用于预测新分子性质的机器学习模型的结构。在步骤1中，需要新化合物的分子式来获得其基团贡献表示。接下来，在步骤2中，使用扭曲函数将积分向量转换为连续域，并在GP的训练过程中确定该函数的参数。在步骤3中，生成两个协方差矩阵：一个捕获训练数据集中不同分子之间的相关性，另一个表示新分子与其他分子之间的关联。此外，使用通过贝叶斯统计推断的公式计算预测值。值得注意的是，在训练阶段之后，核函数公式中的超参数是固定的。

4 结果与讨论

本节将利用前几节中提到的模型（即第2.2节中的SVR、第2.3节中的GP和第3节中的GP-WP）预测20种纯组分的主要物性。表1列出了20种物质的数据库信息，表2则给出了有关三个模型的详细信息。

第4节结构如下：首先，使用误差阈值图和定量误差指数（RMSE和

R 2

）显示三个模型的结果；其次，分析了三种技术（扭曲函数、先验推断和先验预测检查）对整个模型框架的贡献；最后，将GP-WP的性能与其他主流机器学习模型（包括神经网络和决策树）的性能进行比较。

4.1 20种物性的仿真结果

本节比较了SVR（即使用SVR开发的模型）的预测精度、GP（即使用常规GP框架开发的模型）以及GP-WP（即使用GP开发的模型，具有扭曲函数、先验推断和先验预测检查）模型的预测效果。共测试了20种性质，包括正常沸点（K）、临界体积（mL⸱mol^-1）、临界温度（K）、临界压力（bar, 1 bar=10⁵ Pa）、自燃温度（K）、生物富集因子、298 K时的吉布斯自由能（kJ⸱mol^-1）、标准生成焓（kJ⸱mol^-1）、298 K时的熔化焓（kJ⸱mol^-1）、298 K时的Hildebrandt溶解度参数（MPa^0.5）、298 K时的生成焓（kJ⸱mol^-1）、LC50（胖头鲦）（mol⸱L^-1）、大鼠口服毒性（mol⸱kg^-1）、298 K时的液态摩尔体积（mL⸱mol^-1）、正辛醇-水分配系数、水溶性（mol⸱L^-1）、允许暴露限值（mol⸱m^-3）、光化学氧化电位、酸解离常数和常压熔点（K）。训练集和测试集的划分与原始数据集保持一致；然而，对于输入相同、输出接近的异构体，只保留最接近平均输出值的异构体。

S V R

模型用方程式（2）训练，其超参数

P

和

ε

通过python包skopt.sampler（scikit优化库）的栅格搜索进行调整。同时使用顺序和同时方法，选择RMSE较低的方法作为

S V R

模型。

S V R

系数优化是通过python包sklearn.svm（scikit-learn库）完成的，之后获得每个功能组的贡献。GP的五个超参数使用方程（7）中所示的核函数进行调整，通过贝叶斯推理获得每个属性的预测。然后，按照图3中的结构实现GP-WP模型。对于有或没有先验（先验为零）的模型，分别设置六个超参数（其中额外的一个来自扭曲函数）。在训练过程中，还可以计算平均验证损失。使用方程式（16）确定最终的GP-WP模型。在这里，它的惩罚因子被设置为0.05。

首先，通过不同的误差阈值率（1%、5%和10%）测量不同模型在整个数据集上的性能，如图5所示。前三列对应SVR，中间三列对应常规GP，最后三列对应此GP-WP模型。不同的行表示不同属性的百分比，而最后一行为计算所得上述所有20个属性的平均值。在图5中，红色表示高百分比，蓝色表示低百分比。

图5中SVR模型和其他两个模型之间的边界非常清晰，因为前三列中大面积被蓝色覆盖。当观察三个1%的柱时，这种现象变得尤为突出。尽管不同属性的预测精度不同，但SVR预测的百分比均不高于90%。然而，GP框架下的对应模型都高于90%。因此，当需要替代原始数据集以实现高精度预测时，GP将是一个不错的选择。同时，从热图中可以看出，GP-WP在1%、5%和10%阈值下的平均分数（分别是94.57%、96.52%和97.64%）均高于常规GP的相应分数（分别是94.51%、95.78%和96.94%）。

图6仅显示了测试集的结果。尽管GP模型与SVR相比失去了突出的优势，但根据热图上的分数，GP-WP模型在大多数属性上仍优于SVR模型，三个阈值的平均百分比在三个模型中最高。必须承认，对于某些属性（即Hfus和bcf），没有一个模型具有非常准确的预测能力。虽然这两个GP模型可以提供不确定性范围，以告知建模者模型的性能不佳，但SVR模型只给出了不准确的预测结果。

为了更好地量化SVR、正则GP和GP-WP的误差，使用方程式（21）和方程式（22）计算每个属性的RMSE和R²。

R M S E = 1 N ∑ i = 1 N (y i - y^i) 2

(21)

R 2 = 1 - ∑ i = 1 N (y^i - y i) 2 ∑ i = 1 N (y i - y ¯) 2

(22)

式中，

N

表示数据编号；

y i

是真实属性值；

y^i

对应于预测值；

y ¯

是所有样本真实值的平均值。20个属性预测的结果如表3（整个数据集）和表4（测试集）所示。

表3和表4中的结果与误差阈值图中的结果一致。以2号属性（Vc）为例，GP-WP模型将RMSE从28.280降低到8.704，降低了71.45%。此外，它将“1%误差阈值以下的分数”从93.36%提高到94.88%，预测性能提高了1.63%。由于RMSE和“1%误差阈值以下的分数”都代表了预测的准确性，因此GP-WP模型在误差阈值比和定量相对误差方面都提高了大多数属性的准确性。在整个数据集上，两种基于GP的模型与SVR模型相比具有显著优势。此外，对于大多数物性，GP模型的表现不如GP-WP模型。这在Vc、Gf和Hf的情况下很明显，在采用扭曲函数和先验推断技术后，RMSE降低了50%以上（分别从28.280降低到8.704、24.034降低到11.942、22.995降低到9.394）。在测试集上，GP-WP模型始终优于SVR模型，显示出较小的误差和较高的R² 值。可以看出，将SVR模型用作GP-WP模型的先验是非常实用的。

4.2 GP-WP模型中各项技术分析

前一小节展示了GP-WP相对于传统SVR和GP方法的优势。本节进一步说明了扭曲函数、先验推断和先验预测检查技术如何分别对整个模型框架做出贡献。通过引入每种技术可以提高大部分物性估计的性能。

首先，使用扭曲函数来更好地处理两个离散向量之间的相关性。由于扭曲函数的参数是GP的超参数，在超参数调整过程中会自动确定相关变化的程度。与常规GP相比，合并扭曲函数后的物性预测模型的性能略有但稳定地提高。换句话说，对于20个物性中的大多数物性，仅添加扭曲函数可以略微提高预测精度。补充信息中给出了添加所有物性的扭曲函数后的RMSE结果，表5中列出了一些代表性示例。很明显，Tb、Gf和Tc等性质的RMSE变小（分别从7.65、24.034和24.31变为6.89、22.908和23.68）。

其次，当SVR模型表现良好时，传统方法的先验推断尤其有效。从方程（14）可以确认，SVR先验使GP模型拟合SVR模型的残差。补充信息中给出了添加所有物性的事先启发程序后的RMSE结果，表6中列出了一些代表性示例。对于Vc等物性，其中SVR模型的预测精度已经很高，先验推断过程大大提高了GP的模型性能。

最后，先验预测检验的功能在于确定最终模型。结果如表7所示，其中

C V z e r o

和

C V n o n - z e r o

分别对应于具有零和非零先验的GP模型的平均交叉验证损失。根据

C V z e r o

和

C V n o n - z e r o × (1 + p)

，确定最终GP-WP模型的先验形式，如“GP-WP”列所示。测试集上的RMSE也列在表中以供参考；在实际过程中是未知的。需要明确的是，在事先检查过程中，有时会出现次优的事先选择。例如，bcf和ld50的

G P z e r o

模型在测试集上的表现优于

G P n o n - z e r o

模型，但

G P n o n - z e r o

被先验预测检查技术选为最终模型。然而，在大多数情况下，判断是恒定的，测试集上的误差也是恒定的。

4.3 与其他主流机器学习模型的对比

为了充分证明GP-WP模型的效果，我们进一步将其与基于GP的模型以外的其他主流机器学习技术进行了比较，包括神经网络和决策树。神经网络是标准的主流建模方法之一，已被广泛应用于物性预测[49]。由于能够学习数据中的复杂模式和关系，神经网络经常被用作与其他模型进行比较的基准。相比之下，决策树擅长处理离散值输入，使其特别适合输入为离散值GC的问题。在不失一般性的情况下，这里选取了三个具有代表性的物性，样本数量从11 236（logP）到4658（Tb），最终到717（Tc）。

神经网络是一组被称为神经元的连接节点，它们形成不同的层。数据通过输入层、隐藏层，最后通过输出层。在这项工作中，使用了两种类型的神经网络：一种具有完全连接的密集隐藏层，其宽度和深度可以作为超参数进行调整，以优化拟合[本文称为“BP-ilayer”，具有i个隐藏层（i = 1, 2）]；另一种具有在密集隐藏层之前添加的卷积隐藏层（此处称为“CNN”模型）。与神经网络的神经元和层结构不同，决策树使用流程图对物性进行分类并分割不同的情况[50]，节点代表一个物性，分支对应于一个单独的类别，最后留下叶子来指示结果。同样，可以调整树的深度、叶子的数量和其他参数来优化拟合。这里，使用光梯度增强机（LightGBM）[51]回归器来优化和实现梯度增强决策树（GBDT）。logP、Tb和Tc的性质预测结果分别如表8至表10所示。

在表8至表10中，1%误差、5%误差和10%误差分别表示在1%、5%和10%的误差阈值率下预测的样本百分比。

首先，很明显，对于所有三个不同大小的数据集，GP-WP模型在测试集和整个数据集上优于几乎所有其他机器学习模型，这进一步提高了其外推能力和拟合能力。当只关注测试集时，与大样本集上的GP相比，神经网络和决策树表现出类似的预测误差。然而，随着样本量的减少，它们的性能往往会下降。此外，GP作为整个数据集的替代模型，比其他主流机器学习模型具有显著优势。换句话说，GP-WP模型在不同的误差阈值率下，对于预测误差和分数总是能获得最理想的结果。

5 总结

本文基于官能团贡献度开发纯组分物性机器学习模型。模型开发方法适用于对各种物性进行建模，与基于机器学习的模型开发的其他选项相比，无论数据集大小如何，都表现出卓越的模型性能。与其他基于GC的物性模型类似，本文开发的模型是预测模型，在使用基团表示分子方面存在局限性。它们不适合非常小的分子，如气体，但外推到较大的分子时，已被发现是可靠的。虽然模型可以处理一些异构体，但部分异构体可能是没有办法通过输入来区分的。Alshehri等[36]也承认了这些局限性。感兴趣的读者可以使用Github上提供的方法访问训练数据集、预测结果和GP-WP模型。

与现有方法相比，本文所提出的方法具有以下优点：①基于GP，其构建过程不需要使用大量数据，也不需要对模型的结构进行假设；②增加的维度不涉及超参数数量的增加，但有效的维度信息包含在模型中；③在大多数情况下，它比其他模型表现更好，对新样本的预测也更准确。该方法的改进主要归因于两个因素：①使用扭曲函数将离散变量打包，将其映射到连续域，通过可调超参数在不同程度上改变变量的相关程度；②在确定模型之前，会提取并仔细检查先验信息，使后验更接近真实值。

根据本文所提出的GC模型，未来的工作可能涉及同时关注多个物性预测的多个输出，因为不同物性之间的相关性对模型建立非常有用。通过提取这些特征，可以进一步获得精确的预测。此外，与表示空间信息（如原子之间的角度和距离）的其他表示不同，异构体无法通过当前的官能团组进行区分。在机器学习的指导下，还可以进一步研究和拓展其他分子表示方法的建模。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Hukkerikar AS, Sarup B, Ten Kate A, Abildskov J, Sin G, Gani R. Group contribution⁺ (GC⁺) based estimation of properties of pure components: improved property estimation and uncertainty analysis. Fluid Phase Equilib 2012;321:25‒43. . 10.1016/j.fluid.2012.02.010

[2]	Mackay D, Boethling RS. Handbook of property estimation methods for chemicals: environmental health sciences. Boca Raton: CRC Press; 2000. . 10.1201/9781420026283

[3]	Hukkerikar AS. Development of pure component property models for chemical product-process design and analysis [dissertation]. Denmark: Technical University of Denmark; 2013.

[4]	Zhou T, Gani R, Sundmacher K. Hybrid data-driven and mechanistic modeling approaches for multiscale material and process design. Engineering 2021;7(9):1231‒8. . 10.1016/j.eng.2020.12.022

[5]	Joback KG. Knowledge bases for computerized physical property estimation. Fluid Phase Equilib 2001;185(1‒2):45‒52.

[6]	Joback KG, Reid RC. Estimation of pure-component properties from group contributions. Chem Eng Commun 1987;57(1‒6):233‒43.

[7]	Gani R. Group contribution-based property estimation methods: advances and perspectives. Curr Opin Chem Eng 2019;23:184‒96. . 10.1016/j.coche.2019.04.007

[8]	Le T, Epa VC, Burden FR, Winkler DA. Quantitative structure-property relationship modeling of diverse materials properties. Chem Rev 2012;112(5):2889‒919. . 10.1021/cr200066h

[9]	Wen S, Nanda K, Huang Y, Beran GJO. Practical quantum mechanics-based fragment methods for predicting molecular crystal properties. Phys Chem Chem Phys 2012;14(21):7578‒90. . 10.1039/c2cp23949c

[10]	Constantinou L, Gani R. New group contribution method for estimating properties of pure compounds. AIChE J 1994;40(10):1697‒710. . 10.1002/aic.690401011

[11]	Gao C, Govind R, Tabak HH. Application of the group contribution method for predicting the toxicity of organic chemicals. Environ Toxicol Chem 1992;11(5):631‒6. . 10.1897/1552-8618(1992)11[631:aotgcm]2.0.co;2

[12]	Aguirre CL, Cisternas LA, Valderrama JO. Melting-point estimation of ionic liquids by a group contribution method. Int J Thermophys 2012;33(1):34‒46. . 10.1007/s10765-011-1133-5

[13]	Terrell E. Estimation of Hansen solubility parameters with regularized regression for biomass conversion products: an application of adaptable group contribution. Chem Eng Sci 2022;248:117184. . 10.1016/j.ces.2021.117184

[14]	Marrero J, Gani R. Group-contribution based estimation of pure component properties. Fluid Phase Equilib 2001;183‒184:183‒208.

[15]	Gani R, Harper PM, Hostrup M. Automatic creation of missing groups through connectivity index for pure-component property prediction. Ind Eng Chem Res 2005;44(18):7262‒9. . 10.1021/ie0501881

[16]	Jirasek F, Hasse H. Perspective: machine learning of thermophysical properties. Fluid Phase Equilib 2021;549:113206. . 10.1016/j.fluid.2021.113206

[17]	Venkatasubramanian V. The promise of artificial intelligence in chemical engineering: is it here, finally? AIChE J 2019;65(2):466‒78. . 10.1002/aic.16489

[18]	Venkatasubramanian V, Mann V. Artificial intelligence in reaction prediction and chemical synthesis. Curr Opin Chem Eng 2022;36:100749. . 10.1016/j.coche.2021.100749

[19]	Mann V, Gani R, Venkatasubramanian V. Group contribution-based property modeling for chemical product design: a perspective in the AI era. Fluid Phase Equilib 2023;568:113734. . 10.1016/j.fluid.2023.113734

[20]	Dobbelaere MR, Plehiers PP, Van de Vijver R, Stevens CV, Van Geem KM. Machine learning in chemical engineering: strengths, weaknesses, opportunities, and threats. Engineering 2021;7(9):1201‒11. . 10.1016/j.eng.2021.03.019

[21]	Nagai R, Akashi R, Sugino O. Completing density functional theory by machine learning hidden messages from molecules. npj Comput Mater 2020;6(1):43. . 10.1038/s41524-020-0310-0

[22]	Goh GB, Siegel C, Vishnu A, Hodas NO, Baker N. Chemception: a deep neural network with minimal chemistry knowledge matches the performance of expert-developed QSAR/QSPR models. 2017. arXiv:10.1109/wacv.2018.00151

[23]	Zhou Z, Eden M, Shen W. Treat molecular linear notations as sentences: accurate quantitative structure‒property relationship modeling via a natural language processing approach. Ind Eng Chem Res 2023;62(12):5336‒46. . 10.1021/acs.iecr.2c04070

[24]	Zhang J, Wang Q, Su Y, Jin S, Ren J, Eden M, et al. An accurate and interpretable deep learning model for environmental properties prediction using hybrid molecular representations. AIChE J 2022;68(6):e17634. . 10.1002/aic.17634

[25]	Wen H, Su Y, Wang Z, Jin S, Ren J, Shen W, et al. A systematic modeling methodology of deep neural network-based structure‒property relationship for rapid and reliable prediction on flashpoints. AIChE J 2022;68(1):e17402. . 10.1002/aic.17402

[26]	Paduszyński K, Domańska U. Viscosity of ionic liquids: an extensive database and a new group contribution model based on a feed-forward artificial neural network. J Chem Inf Model 2014;54(5):1311‒24. . 10.1021/ci500206u

[27]	Li R, Herreros JM, Tsolakis A, Yang W. Machine learning regression based group contribution method for cetane and octane numbers prediction of pure fuel compounds and mixtures. Fuel 2020;280:118589. . 10.1016/j.fuel.2020.118589

[28]	Rasmussen CE. Gaussian processes in machine learning. In: Bousquet O, Von Luxburg U, Rätsch G, editors. Advanced lectures on machine learning. Berlin: Springer; 2003. p. 63‒71. . 10.1007/b100712

[29]	Lu X, Jordan KE, Wheeler MF, Pyzer-Knapp EO, Benatan M. Bayesian optimization for field-scale geological carbon storage. Engineering 2022;18:96‒104. . 10.1016/j.eng.2022.06.011

[30]	Capone A, Lederer A, Hirche S. Gaussian process uniform error bounds with unknown hyperparameters for safety-critical applications. In: Proceedings of the 39th International Conference on Machine Learning; 2022 Jul 17 23. Baltimore, MD, USA. New York: PMLR; 2022. p. 2609‒24.

[31]

Akazaki T. Falsification of conditional safety properties for cyber‒physical systems with Gaussian process regression. In: FalconeY, SánchezC, editors. Proceedings of the 16th International Conference on Runtime Verification; 2016 Sep 23‒30; Madrid, Spain. Cham: Springer; 2016. p. 439‒46. . 10.1007/978-3-319-46982-9_27

[32]	Mori H, Kurata E. Application of Gaussian process to wind speed forecasting for wind power generation. In: Proceedings of the 2008 IEEE International Conference on Sustainable Energy Technologies; 2008 Nov 24‒27; Singapore. Piscataway: IEEE; 2008. p. 956‒9. . 10.1109/icset.2008.4747145

[33]	Sun AY, Wang D, Xu X. Monthly streamflow forecasting using Gaussian process regression. J Hydrol 2014;511:72‒81. . 10.1016/j.jhydrol.2014.01.023

[34]	Shahriari B, Swersky K, Wang Z, Adams RP, De Freitas N. Taking the human out of the loop: a review of Bayesian optimization. Proc IEEE 2016;104(1):148‒75. . 10.1109/jproc.2015.2494218

[35]	Gelbart MA, Snoek J, Adams RP. Bayesian optimization with unknown constraints. 2014. arXiv:

[36]	Alshehri AS, Tula AK, You F, Gani R. Next generation pure component property estimation models: with and without machine learning techniques. AIChE J 2022;68(6):e17469. . 10.1002/aic.17469

[37]	Hukkerikar AS, Kalakul S, Sarup B, Young DM, Sin G, Gani R. Estimation of environment-related properties of chemicals for design of sustainable processes: development of group-contribution⁺ (GC⁺) property models and uncertainty analysis. J Chem Inf Model 2012;52(11):2823‒39. . 10.1021/ci300350r

[38]	Smola AJ, Schölkopf B. A tutorial on support vector regression. Stat Comput 2004;14(3):199‒222. . 10.1023/b:stco.0000035301.49549.88

[39]	Hofmann T, Schölkopf B, Smola AJ. Kernel methods in machine learning. Ann Stat 2008;36(3):1171‒220. . 10.1214/009053607000000677

[40]	Roustant O, Padonou E, Deville Y, Clément A, Perrin G, Giorla J, et al. Group kernels for Gaussian process metamodels with categorical inputs. SIAM/ASA J Uncertain Quantif 2020;8(2):775‒806. . 10.1137/18m1209386

[41]	Qian PZG, Wu H, Wu CFJ. Gaussian process models for computer experiments with qualitative and quantitative factors. Technometrics 2008;50(3):383‒96. . 10.1198/004017008000000262

[42]	Van de Schoot R, Depaoli S, King R, Kramer B, Märtens K, Tadesse MG, et al. Bayesian statistics and modelling. Nat Rev Methods Primers 2021;1(1):1. . 10.1038/s43586-020-00001-2

[43]	Ghosal S, Roy A. Posterior consistency of Gaussian process prior for nonparametric binary regression. Ann Stat 2006;34(5):2413‒29. . 10.1214/009053606000000795

[44]

Casale FP, Dalca AV, Saglietti L, Listgarten J, Fusi N. Gaussian process prior variational autoencoders. In: BengioS, WallachHM, LarochelleH, GraumanK, Cesa-BianchiN, editors. Proceedings of the 32nd International Conference on Neural Information Processing Systems; 2018 Dec 3‒8; Montréal, QC, Canada. Red Hook: Curran Associates Inc.; 2018. p. 10390‒401.

[45]	Kaufman CG, Sain SR. Bayesian functional ANOVA modeling using Gaussian process prior distributions. Bayesian Anal 2010;5(1):123‒49. . 10.1214/10-ba505

[46]	Astudillo R, Frazier PI. Thinking inside the box: a tutorial on grey-box Bayesian optimization. In: Proceedings of the 2021 Winter Simulation Conference; 2021 Dec 15‒17; Phoenix, AZ, USA. Piscataway: IEEE; 2021. p. 1‒15. . 10.1109/wsc52266.2021.9715343

[47]	Nott DJ, Drovandi CC, Mengersen K, Evans M. Approximation of Bayesian predictive p-values with regression ABC. Bayesian Anal 2018;13(1):59‒83. . 10.1214/16-ba1033

[48]	Kass RE, Raftery AE. Bayes factors. J Am Stat Assoc 1995;90(430):773‒95. . 10.2307/2291091

[49]	Hirschfeld L, Swanson K, Yang K, Barzilay R, Coley CW. Uncertainty quantification using neural networks for molecular property prediction. J Chem Inf Model 2020;60(8):3770‒80. . 10.1021/acs.jcim.0c00502

[50]	Fang J, Gong B, Caers J. Data-driven model falsification and uncertainty quantification for fractured reservoirs. Engineering 2022;18:116‒28. . 10.1016/j.eng.2022.04.015

[51]	Ke G, Meng Q, Finley T, Wang T, Chen W, Ma W, et al. LightGBM: a highly efficient gradient boosting decision tree. In: Proceedings of the 31st International Conference on Neural Information Processing Systems; 2017 Dec 4‒9; LongBeach, CA, USA. Red Hook: Curran Associates Inc.; 2017. p. 3149‒57.