《1、 引言》

1、 引言

在过去的十年里,凭借工业物联网(IIoT)、大数据分析(BDA)和人工智能(AI)技术的优势,数据智能在复杂工业过程中发展迅速[13]。在此背景下,为了更好地利用各种材料和资源创造产品和服务,亟需在产品质量、生产效率、能源消耗和污染排放等方面进一步改进复杂工业过程的性能。然而,这些关键性能指标(KPI)通常不能通过现有的传感器[45]进行在线测量和分析。离线实验分析引入了高延迟,使得及时改善工业生产具有挑战性[67]。因此,软传感器技术在工业KPI的在线测量方面引起了广泛的关注。

软传感器技术的目的是通过构建以易测变量为输入、以KPI为输出的数学模型来描述系统的输入-输出行为。该技术大致可以分为两类:第一性原理(白盒)模型和数据驱动(黑盒)模型[89]。前一类模型代表了实际系统的因果关系,只有通过对物理或化学知识的先验理解才能很好地工作[1011]。因此,仅关注关联关系而不反映实际因果关系的数据驱动模型,已成为工业KPI软传感器的主流[12]。

例如,浅层机器学习(ML)模型,如偏最小二乘(PLS)模型、支持向量回归(SVR)模型及其扩展形式,已被用于从复杂工业过程的历史数据中学习质量特征。参考文献[13]中提出了一种优化的稀疏PLS(OSPLS)模型来估计工业间歇过程的产品质量,并提出一种鲁棒多输出最小二乘SVR(M-LS-SVR)方法,用于高炉炼铁过程质量指标的在线估计和控制[14]。此外,深度学习(DL)模型已被广泛研究,以捕获复杂工业数据中的非线性特征。针对多源异构数据,Ren等[15]提出了一种结合宽深(WD)模型和长短期记忆(LSTM)网络的宽深序列(WDS)模型,从非时序变量和时序特征中提取质量相关信息。Yuan等[16]开发了一种采样间隔注意LSTM(SIA-LSTM)模型,以应对关键质量变量的时间序列与不规则采样数据的软测量建模。Ou等[17]提出了一种带有质量驱动正则化的堆叠自动编码器(SAE),用于工业加氢裂化过程中的质量预测。为了减少DL模型的信息丢失和泛化退化,Yuan等[18]提出了一种基于分层数据增强的SAE(LWDA-SAE),用于加氢裂化过程中沸点的软测量。考虑DL中输入特征选择的问题,Wang等[19]提出了一种具有进化特征选择的多目标进化非线性集成学习模型(MOENE-EFS),用于高炉炼铁中的硅预测。此外,在参考文献[20]中提出了一种深度概率迁移学习(DPTL)框架,用于解决多相流过程中的分布差异和数据缺失问题。虽然上述方法在一些工业应用中取得了良好效果,但仍存在一些研究缺陷。

一方面,特征选择仍然是一个关键问题,因为一个原始的工业数据集通常是高维的,并不是所有的特征都有利于软传感器的建立。数据驱动的软传感器建模对于识别工业数据中的模式,从而确定工业KPI与其相关特征(变量)之间的定量关系至关重要。选择一个紧凑且信息丰富的特征子集可以大大降低模型的复杂性,并帮助我们充分理解复杂工业过程[2123]的工艺机理。如果所选的特征是KPI的因果变量,那么数据驱动的软传感器无疑将更具可解释性和稳定性。否则,盲目改进数据驱动模型将引入复杂的模型结构和难以调优的超参数,这违背了奥卡姆剃刀原理和工业领域的可靠性要求[24]。换句话说,特征选择方法最好能自动选择一个特征子集用于软传感器建模,选择的每个特征对工业KPI都有独特的因果影响。

另一方面,实际的工业数据难以获取,而且成本昂贵,特别是对于离散工业,这阻碍了数据驱动的软传感器在工业中的应用。根据生产行为,复杂工业过程可以分为流程工业和离散工业[25]。流程工业的生产行为要么是连续的,如化学过程、发电和炼铁;要么发生在一批难以区分的材料上,如食品加工、造纸和注塑。离散工业的生产行为是材料的物理或机械过程,如发动机装配、半导体制造[26]和家用电器制造,其中所使用的材料通常是其他工业过程的产品[2728]。与流程工业相比,离散工业通常具有更大的规模、更强的动态性和更不清晰的机理。数据的收集几乎完全依赖于工业从业者的经验,因此原始的工业数据更加具有非线性、不完备和不确定性的特点。在这种情况下,具有参数较少、鲁棒性良好和可解释性优势的集成ML更适用于机理较弱的复杂工业过程[29]。

综上,本研究主要关注以下两个科学问题:①如何量化原始工业数据集中的每个特征和KPI之间的因果效应?②如何自动选择用于软传感器建模的特征子集?因果模型如格兰杰因果关系、条件独立性检验和结构方程[3032]已被广泛应用于金融[33]、气候[34]和工业[3537]的研究。然而,目前还没有在数据驱动软传感器中将因果效应和特征选择进行集成。主要挑战如下:由于数据充分性假设,条件独立性测试将导致KPI软测量的信息丢失;此外,格兰杰因果关系模型和结构方程模型依赖于数据生成机制的假设。综上所述,本研究的主要工作内容如下:

(1)受后非线性因果模型的启发,将其与信息论相结合,以量化原始工业数据集中每个特征和KPI之间的因果效应。这可以避免数据生成机制的假设,并为理解复杂工业过程提供有用的见解。

(2)提出一种新的特征选择方法,通过自动选择具有非零因果效应的特征来构造特征子集,从而减少信息丢失,提高软传感器模型的可解释性,有助于提高准确性和鲁棒性。

(3)利用所构建的子集,通过AdaBoost集成策略来开发KPI的软传感器。还介绍了两个实际的复杂工业过程:富士康科技集团的注塑成型过程和广西玉柴集团的柴油发动机装配过程。这两种工业应用中的实验证实了该方法的有效性。

本文其余部分的结构如下:第2节描述了相关工作;第3节和第4节提供了对所提方法的详细描述;第5节对两个实际的复杂工业过程进行了实验研究;最后,第6节总结了本文结论。

《2、 相关工作》

2、 相关工作

本节回顾了特征选择和因果发现方法,这将激发本研究的问题构想和基本思路。

《2.1 特征选择》

2.1 特征选择

正如在行业中流传的那样,数据和特征决定了ML的上限,而模型和算法只是接近这个上限。特征选择是指从给定的候选特征集[38]中选择一个特征子集作为ML的输入,主要涉及两方面动机。首先,即使没有先验知识或领域知识,特征选择也有利于充分理解数据,并提供对问题的感性见解[39]。其次,特征选择直接实现了特征降维,有效地降低了ML模型的复杂性[40]。一般来说,特征选择涉及两个关键方面:子集搜索策略和子集评价标准。

《2.1.1. 子集搜索策略》

2.1.1. 子集搜索策略

取一个具有M个输入特征的候选输入特征集F,其中:F = {X1, X2, …, M},ii是候选特征的数量,i = 1, 2, …, M)表示候选输入特征,有2个候选子集SS F。该子集搜索策略的目标是从F中选择一个最优的特征子集S [41]。公式(1)表明,前向搜索策略首先用一个空集初始化S。然后,根据子集评价准则,从F中选择一个特征,并且在每次迭代时添加到S中,直到达到停止阈值。

 

S=SECSXi,Y>ST, XiFS(1)

 

式中,EC(·)为评价标准;ST为停止阈值;Y为输出特征。

另一种策略被称为背向搜索,如公式(2)所示。首先初始化S = F。然后,在每次迭代中从S中删除一个特征,直到达到停止阈值。

 

S=SECSXi,Y<ST,XiS(2)

 

这两种策略都是贪婪的,因为只实现了局部最优性。此外,难以确定最佳的具有良好的可解释性和理论基础的评价标准和停止阈值。

《2.1.2. 子集评估标准》

2.1.2. 子集评估标准

许多评价标准被用来判断是否在每次迭代中保留候选特征,如关联程度和发散程度,以及ML模型的性能。方差σ2度量特征发散的程度,而不考虑输入和输出特征之间的关联[42]。皮尔逊相关系数(PCC)选择与目标最相关的输入特征,但只关注线性关联[43]。最大信息系数(MIC)检测两个变量之间的非线性关联[44],但需要更多的样本,总关联很容易被低估。基于上述准则的特征选择不依赖于ML模型,也被称为一种过滤方法。

ML模型的参数,如决策树的信息增益和回归系数[45]也可以作为子集评价标准,用来衡量特征的重要性或权重。这种方法被称为嵌入法,它依赖于一个计算成本高昂的ML训练过程,并且本质上是基于关联的。除了将性能最大化作为评价标准外,包装法还将ML与优化算法如遗传[38]、进化[19]和粒子群算法[39]相结合,以自动选择最优特征组合。包装法也带来了高昂的计算成本,而且很容易导致过拟合,特别是在工业应用中。

《2.2 因果发现》

2.2 因果发现

发现因果关系是科学研究和技术进步的一项基本任务。该方法严格区分因果变量,比关联关系更有效地揭示其机制和指导决策。在不考虑时间滞后效应的情况下,因果发现方法主要依赖于条件独立检验和结构方程模型从观测数据[46]中学习因果效应。

《2.2.1. 条件独立性测试》

2.2.1. 条件独立性测试

给定一组三元变量{X, Y, Z},具体的因果结构可以通过变量之间的条件独立性来检验。如图1所示,如果三元变量之间的关系是XYZ相互独立,则因果结构必须是马尔可夫等价类[图1(a)]。如果XZ本身是独立的,但一旦引入Y就不是独立的,则因果结构必然是V型结构[图1(b)]。在此基础上,适用范围广泛的Peter-Clark(PC)和归纳因果关系(IC)算法通过因果骨架和因果方向的两阶段过程来学习因果结构[4748]。

《图1》

图1 三元变量之间的因果关系。(a)马尔可夫等价类;(b)V型结构。

《2.2.2. 结构方程模型》

2.2.2. 结构方程模型

数据生成机制的假设描述了结果变量是如何由原因变量和因果机制决定的,包括线性非高斯无环模型(LiNGAM)[49]、加性噪声模型(ANM)[50]、信息几何因果推断(IGCI)[32]和后非线性模型(PNM)[51]。作为最一般的模型,如图2所示,PNM包含了原因X的非线性影响f1、噪声或干扰ε,以及结果Y的测量失真f2。该公式如下所示。

《图2》

图2 后非线性因果模型。f1 f2:非线性函数;ε:噪声或干扰。

 

Y=f2f1X+ε(3)

 

式中,εXf1f2是非线性函数;f2应该是可逆的。

由于数据充分性和条件独立性检验的局限性,从PC和IC算法中得到的因果结构并不等同于实际的物理对象。基于这种因果结构的特征选择会导致显著的信息损失,从而无法获得ML的最佳特征组合。相比之下,结构方程模型中的PNM可以更有效地结合因果发现和特征选择。

对于特征选择问题,嵌入法和包装法依赖于ML和计算成本高昂的训练过程。它们的性能直接受所选的ML模型的影响。过滤法,如基于方差的方法、基于PCC的方法和基于MIC的方法,不依赖于ML模型,并通过预先手动设置停止阈值来选择特征的子集。一个典型的停止阈值包括特定数量的选定特征,如特定的方差值、PCC值或MIC值。显然,很难确定一个具有良好的可解释性和理论基础的停止阈值。因果发现通过量化原始工业数据集中的每个特征和KPI之间的因果效应,进而自动地选择特征用于数据驱动的软传感器建模,为解决这个问题带来了新的思路。下一节将详细介绍所提出的方法。

《3、 受因果模型启发的特征选择》

3、 受因果模型启发的特征选择

《3.1 PNM与信息理论》

3.1 PNM与信息理论

给定一组原因变量{X1, X2, …, k}(其中k是变量的数量)和结果变量Y,公式(3)中的PNM可以被扩展到公式(4)。

 

Y=f2f1X1,X2,,Xk+εk(4)

 

为了发现另一个变量k+1Y之间的因果关系,公式(4)被进一步扩展到公式(5)。

 

Y=f2f1X1,X2,,Xk,Xk+1+εk+1(5)

 

如果k+1减少了噪声项,则它包含了Y的因果信息。因此,X k+1Y的因果效应可以用公式(6)来量化.

 

CEXk+1Y=12log σ2εkσ2εk+1(6)

 

式中,CE是因果效应。

问题是需要建立和依赖这两个回归模型,这两个模型具有较高的计算复杂度并影响精度。此外,对PNM中数据生成机制的假设也有待改进。

本研究通过信息论定义因果效应,以此来解决这些问题。在信息论中,采用Shannon熵来测量离散随机变量X中的不确定性和平均信息,如下:

 

HX=-xPxlog Px(7)

 

式中,H(·)为Shannon熵;P(x)表示概率质量函数;xX的观测值。

两个离散随机变量XY的总不确定性可以通过联合熵计算如下:

 

HX,Y=-x,yPx,ylog Px,y(8)

 

式中,yY的观测值。

如果给定X,则通过考虑X中的信息,可以减少Y中的不确定性,那么,Y中的剩余不确定性可以用条件熵计算如下:

 

HY|X=HX,Y-HX(9)

 

通过将公式(7)和公式(8)代入公式(9),条件熵可以用XY的概率来表示。信息论通过考虑不确定性而不是方差来扩展PNM [30]。换句话说,可以通过测量k+1降低Y的不确定性的程度来量化因果效应。如图3所示,给定一组原因变量{X1, X2, …, k},Y中的剩余不确定度可以用下式计算:

《图3》

图3 改进的因果效应Venn图。其中第一个红色阴影表示,当给定一组原因变量{X1, X2, …, Xk}时,Y中的剩余不确定性;第二个红色阴影表示,当进一步给出Xk+1时,Y中的剩余不确定性;蓝色阴影表示Xk+1Y的因果效应。

 

HY|X1,X2,,Xk=HX1,X2,,Xk,Y-HX1,X2,,Xk(10)

 

当进一步给出k+1Y中的剩余不确定性可以表示为:

 

HY|X1,X2,,Xk,Xk+1=HX1,X2,,Xk,Xk+1,Y-HX1,X2,,Xk,Xk+1(11)

 

因此,得到X k+1Y的因果效应如下:

 

CEXk+1Y=HY|X0,X1,,Xk-HY|X0,X1,,Xk,Xk+1(12)

 

公式(12)仅依靠信息论来实现无回归模型的因果效应量化。此外,数据离散化是计算连续随机变量熵的一种重要的数据预处理技术。在本研究中,将一种基于直方图的方法应用于离散化数据,并得到最优的箱数nh

 

nh=max R2·IQR·n13,log2 n+1(13)

 

式中,R为数据范围;IQR为四分位数范围;n为样本数。

《3.2 基于因果效应的自动特征选择》

3.2 基于因果效应的自动特征选择

本研究提出了一种新的特征选择策略,该策略以前向搜索策略作为子集搜索策略和以公式(12)中的因果效应作为子集评价标准。其形式表达式如下:

 

S=SCEXiY0, XiFS(14)

 

与公式(1)和公式(2)相比,公式(14)中所示的特征选择方法只需要按照特定的顺序遍历所有候选输入特征i,不需要设置停止阈值,并自动选择具有非零因果效应的输入特征组合。在实际执行过程中,根据每个候选输入特征i与输出特征Y之间的互信息来确定遍历顺序。算法1给出了基于因果效应的自动特征选择算法的伪代码。该方法的详细实现过程如图4所示。

《图4》

图4 本文所提方法的流程图。

 

《4、 基于决策树AdaBoost的软传感器建模》

4、 基于决策树AdaBoost的软传感器建模

本研究以决策树为基本学习器,采用AdaBoost集成ML算法对工业KPI进行软传感器建模。需要指出的是,该模型并不是为了优于所有现有模型而设计的,而是强调因果特征的重要性。一旦提取了因果信息,数据驱动的软传感器可以达到令人满意的准确性和可解释性。在未来,将研究更先进的ML或DL模型。

《4.1 决策树回归》

4.1 决策树回归

决策树回归主要是一种分类和回归树(CART)算法,可以解决分类或回归问题。取训练数据集D = {(x1, y1), (x2, y2), …, (N, N )}(N是样本数量)。当应用CART求解回归问题时,基于二分递归切分的思想,利用平方误差最小化准则选择最优分割变量j和分割点s,即求解以下公式:

 

minj,sminc1xiR1j,syi-c12+minc2xiR2j,syi-c22(15)

 

式中,c1c2是输出值;R1R2是输入空间中的两个区域。

然后,通过变量j和点s将输入空间划分为R1R2。从这个节点中生成两个子节点,分别包含N1N2样本。

 

R1j,s=x|x(j)s,R2j,s=x|x(j)>s(16)

 

这两个区域的最优输出值c^1c^2被进一步确定如下:

 

c^1=1N1xiR1j,syi,  c^2=1N2xiR2j,syi(17)

 

让这个过程依次循环,直到满足结束条件;最后,将输入空间划分为W个区域(R1, R2, …, W)以生成决策树:

 

fx=w=1Wc^wIxRw(18)

 

式中,I(·)为指示函数;w是区域数量。如果xRw,则I = 1;否则,I = 0。

生成回归树后,从底部到根节点对回归树进行修剪。对于每个修剪情况,生成一个子树,从而形成一个子树序列f1(x), f2(x), …, n(x)。接下来,在独立验证数据集上使用交叉验证方法,比较每个子树相对于验证集的平方误差,并选择最优决策树α(x)(α是序列的数量,α = 1, 2, ..., n)。

《4.2 AdaBoost集成学习》

4.2 AdaBoost集成学习

如算法2所示,给定D = {(x1, y1), (x2, y2), ..., (N, N)}作为训练集,t = {t(1), t(2), ..., t(N)}(t为迭代次数,t = 1, 2, ..., T,其中T为总迭代次数)表示第t次提升迭代时在D上的权值分布。在以后的迭代中,将通过增加性能较差的样本的权重和减少性能较好的样本的权重来更新权重分布。度量性能的平均损失函数由下式计算:

 

L¯t=i=1NLtiwti(19)

 

式中,t是一个范围为0~1的损失函数。三个候选人t见参考文献[52];本研究采用指数法,如下:

 

Lti=1-explti/max lti,i=1, 2,,N(20)

 

式中,t(i) = |t(i) ‒ i|,是每个训练示例的损失。权值更新程序如下:

 

wt+1i=wtiαt1-Lti/Zt(21)

 

式中,αt=L¯t/(1-L¯t)为权重更新参数;t是使t+1呈概率分布的归一化因子。最终的AdaBoost回归结果可以由下式获得:

 

fx=-t=1Tft(x)logαt(22)

 

 

《5、 实验研究》

5、 实验研究

在本节中,通过对两个实际复杂工业过程的实验验证了该方法。

《5.1 实验装置》

5.1 实验装置

理论推导结果表明,所提出的特征选择方法是一种过滤法。该方法以因果效应作为子集评价标准,并采用前向搜索策略自动选择特征子集来训练软传感器模型。该方法不需要设置停止阈值。在这个子集中的每个特征iY有独特的因果效应,显然其他过滤法缺乏这一优势。

特征选择的性能评价通常考虑两个方面:所选特征的数量和软传感器的性能。一般希望使用最少数量的输入特征来实现软传感器的最佳性能。众所周知,基于方差、基于PCC和基于MIC的方法是最简单、最有效的过滤式特征选择方法,具有良好的泛化性。因此,将这三种方法作为比较的基准。首先使用所提出的方法来确定所选特征的数量(标记为K)。然后,将三个基准的停止阈值设为K。最后,利用由上述四种方法得到的特征子集对基于AdaBoost决策树的软传感器模型进行训练,并比较软传感器的性能。在此过程中,将两个复杂工业过程的实验数据按60∶40的比例随机分为两组,即以60%作为训练集,以40%作为测试集。均方根误差(RMSE)和决定系数R2是两个广泛使用的性能评价指标,由公式(23)和公式(24)定义,并分别在本研究中被采用。最终,如果本文所提方法的RMSE和R2优于三个基准的RMSE和R2,则可以验证所提方法的有效性。

 

RMSE=i=1NTyi-y^i2/NT(23)

 

 

R2=1-i=1NTyi-y^i2/i=1NTyi-y¯i2(24)

 

式中,NT是测试集中的样本数量;i为第i个样本的真实值;y^i是软传感器模型的估计值;y¯i是所有估计值的平均值。

本研究中的所有代码都是用Python 3.7编写的。基于AdaBoost决策树的软传感器模型的四个最重要的超参数是每个决策树回归模型的最大深度和最小样本分割,以及AdaBoost集成学习的估计器数量和学习率。在两个实验中,通过在默认值附近进行上下微调,这四个参数分别被设置为10、5、20和1.3。所有其他超参数都使用默认值。硬件环境为Intel (R) Core (TM) i7-8700中央处理器(CPU)@3.20 GHz 32.00G随机存取存储器(RAM)。

《5.2 注塑工艺的实验研究》

5.2 注塑工艺的实验研究

第一个复杂工业过程是来自中国富士康科技集团的注塑成型过程。该过程使用注塑机(图5)在高温下熔化塑料原料。然后在高速、高压下将塑料熔体注入模具。熔体在恒定压力下经历复杂的物理化学变化,形成塑料制品。通过这个过程的重复操作,可以生产出大量相同的产品。在此过程中,最终产品质量的测量有较大延迟,严重影响了确保质量稳定性的及时决策。因此,采用注塑成型过程来验证和应用所提出的方法。收集了16 600个生产批次的数据,包括86个候选输入特征,以产品尺寸作为KPI [53]。

《图5》

图5 注塑机示意图。

基于第3节,量化了86个候选输入特征对注塑过程的产品尺寸(mm)的因果效应。如图6所示,发现只有9个候选输入特征包含关于产品尺寸的因果信息。考虑这9个特征,其余的特征对其没有因果影响。因此,利用这9个特征作为软传感器模型的输入特征来估计产品尺寸的值。这9个特征是:瞬时流量(m3·s-1)、循环时间(s)、顶升时间(s)、冷却后时间(s)、模具温度(℃)、夹紧时间(s)、喷射时间(s)、夹紧压力(Pa)和开启时间(s)。

《图6》

图6 注塑过程中不同候选输入特征对产品尺寸的因果效应。

表1显示了RMSE和R2对软传感器模型在不同的特征选择方法下进行的分析。可以看到,基于因果效应的特征选择方法提供了最低的RMSE和最大的R2。由于产品尺寸的因果信息提取准确,因此该方法优于三个基准方法。此外,还有效地消除了冗余的非因果信息。与基准方法相比,该方法不需要设置停止阈值,可以自然地避免信息丢失。

 

《表1》

表1 RMSE和软传感器模型在不同特征选择方法下的注塑过程

 

Methods RMSE (mm) R2 (%)
Variance-based 0.031 65.1
PCC-based 0.031 65.2
MIC-based 0.027 73.2
Cause effect-based 0.023 80.4

图7显示了不同的特征选择方法下产品尺寸的软传感器结果。可以看出,基于因果效应的方法比基于三个基准的方法能更有效地估计质量的轻微波动。图8显示了不同特征选择方法下软传感器结果的散点图和概率密度曲线。可以看出,基于因果效应的方法的估计值更接近真实值。此外,基于因果效应的方法的概率密度曲线比基准方法的概率密度曲线“更瘦”“更高”,这也证明了该方法具有更好的精度。

《图7》

图7 注塑过程中不同特征选择方法下产品尺寸的软传感器结果。(a)方差;(b)PCC;(c)MIC;(d)因果效应。

《图8》

图8 注塑过程中不同特征选择方法下软传感器结果的散点图和概率密度曲线。

《5.3 柴油机装配工艺的试验研究》

5.3 柴油机装配工艺的试验研究

第二种复杂工业过程是广西玉柴集团有限公司的柴油机装配工艺。如图9所示,机器部件通过8条总装线组装成柴油机产品,包括主流水线、5条分装线、性能测试线、包装线。在相同的工况下,额定功率的一致性是最重要的KPI之一,但其检查需要耗时和高成本的台架测试。对1763个样本进行测试。对于每个样本,沿着装配过程[3637]收集了39个过程变量的数据,并作为候选输入特征来验证和应用所提出的方法。

《图9》

图9 柴油机装配工艺图。PLC:可编程逻辑控制器。

该方法在柴油机装配过程中得到了进一步的验证和应用。同样,39个候选输入特征对柴油机产品额定功率(kW)的因果效应也被量化。如图10所示,发现只有6个候选输入特征包含关于额定功率的因果信息,而鉴于这6个特征,其余的特征对柴油机产品额定功率没有因果影响。因此,利用这6个特征作为软传感器模型的输入特征来估计额定功率的值。这6个特征包括:每100公里的油耗(L)、运行时间(min)、油耗率(%)、中冷器入口压力(Pa)、中冷器入口温度(℃)和轴向间隙(mm)。

《图10》

图10 不同特征对柴油机装配过程中额定功率的因果影响。

表2显示了RMSE和R2对软传感器模型在不同的特征选择方法下进行的分析。同样,可以看到,基于因果效应的特征选择方法提供了最低的RMSE和最大的R2。值得注意的是,这三个基准的R2非常低,说明很难用所选的变量来解释输出特征。图11显示了不同特征选择方法下额定功率的软传感器结果。可以看出,基于因果效应的方法比三个基准能更准确地估计额定功率的值。图12显示了不同特征选择方法下软传感器结果的散点图和概率密度曲线。基于因果效应的方法的估计值比其他方法更接近实际额定功率。此外,基于因果效应的方法的概率密度曲线“更瘦”“更高”,再次证明了所提出的模型比三个基准的模型具有更好的精度。

 

《表2》

表2 RMSE和软传感器模型在不同特征选择方法下的应用

 

Methods RMSE (kW) R2 (%)
Variance-based 3.207 18.5
PCC-based 3.078 24.9
MIC-based 3.066 25.5
Cause effect-based 2.215 61.1

《图11》

图11 柴油机装配过程中不同特征选择方法下产品尺寸的软传感器结果。(a)方差;(b)PCC;(c)MIC;(d)因果效应。

《图12》

图12 柴油机装配过程中不同特征选择方法下软传感器结果的散点图和概率密度曲线。

根据这两个实验的结果,可以得到以下几点见解。该方法是有效和通用的,有助于理解复杂的工业过程。在实际的工业应用中,该方法可以从原始的工业数据集中选择一个紧凑且信息丰富的特征子集。例如,在注塑过程中的86个候选输入特征中,只有9个候选输入特征包含关于产品尺寸的因果信息。与这9个特征相比,其他特征对于软传感器建模是无用或冗余的。通过两种方式可以进一步提高软传感器的性能。一是开发一个更先进的数据驱动模型,该模型可以更充分地拟合所选特征的数据分布。根据经验,当选择相同的输入特征时,现有的数据驱动模型的性能是相似的。因此,本文只介绍了一个用于软传感器建模的AdaBoost集成学习模型,而对不同模型的比较则超出了本文的研究范围。另一种方法是通过第一性原理,对工业过程有更深入的了解,从而获得更全面和足够的数据,以帮助训练更好的数据驱动模型。换句话说,虽然正在开发数据驱动的方法,但对复杂工业过程第一性原理的研究不应被忽视。

《6、 结论》

6、 结论

本研究提出了一种基于因果效应的特征选择方法,用于开发复杂工业过程中KPI的软传感器。将PNM与信息论相结合,提出了一种因果效应量化方法来提取KPI的因果信息。该方法可以为KPI的软测量提供有用见解,并有助于提高ML的准确性和可解释性。此外,采用AdaBoost集成的决策树回归进行软传感器建模,几乎不需要对参数进行微调即可获得优异的性能。对实际工业过程的实验研究证实了该方法的有效性和应用前景。

然而,PNM是一个非时序因果模型,因此本文没有考虑因果关系的时间滞后效应。如果将该方法应用于时间序列数据,则需要首先估计因果延迟。这是在未来的工作中可能会讨论的另一个主题。此外,本研究侧重于基于因果效应的特征选择方法,而对下游ML模型的研究较薄弱。正如前面提到的,在包含因果信息的相同输入特征下,利用先进的ML模型对软测量结果的改进是有限的。因此,特别是对于复杂的工业场景,未来的工作将集中在基于不确定性量化理论的KPI模型的区间估计和风险评估上。