基于机器学习的设计与制造中的数据质量和不平衡问题系统综述

解家瑞 ,  孙立君 ,  赵瑶瑶

Engineering ›› 2025, Vol. 45 ›› Issue (2) : 111 -141.

PDF (5408KB)
Engineering ›› 2025, Vol. 45 ›› Issue (2) : 111 -141. DOI: 10.1016/j.eng.2024.04.024
研究论文

基于机器学习的设计与制造中的数据质量和不平衡问题系统综述

作者信息 +

On the Data Quality and Imbalance in Machine Learning-based Design and Manufacturing—A Systematic Review

Author information +
文章历史 +
PDF (5537K)

摘要

近年来,机器学习(ML)凭借其利用现有数据进行学习的卓越能力,在设计、制造和状态监测等许多建模任务中得到广泛应用。在工业中应用ML时,数据已成为限制因素。然而,目前尚无关于如何评估和提升基于ML的设计与制造中的数据质量的系统性研究。本文旨在揭示工业应用ML领域中的数据挑战,并综述用于解决这些挑战的技术。为给后续分析奠定基础,本文基于ML建模中的关键数据术语,将其分为数据获取、管理、分析和利用。随后,进一步探讨了用于评估数据质量和不平衡性所建立的概念和框架,包括数据质量评估、数据就绪、信息质量、数据偏差、公平性和多样性。本文识别并总结了数据挑战的根本原因和类型,包括人为因素、复杂系统、复杂关系、数据质量不足、数据异质性、数据不平衡和数据稀缺。同时,本文综述了提升数据质量和缓解数据不平衡问题的方法及其在该领域中的应用。本文重点关注两种有前景的方法:数据增强和主动学习。本文阐述了所述技术的优势、局限性及适用性,并从其应用、数据类型和方法等方面探讨了数据增强和主动学习的发展趋势,并在此基础上,明确了ML设计与制造领域未来在数据质量提升和数据不平衡缓解方面的研究方向。

Abstract

Machine learning (ML) has recently enabled many modeling tasks in design, manufacturing, and condition monitoring due to its unparalleled learning ability using existing data. Data have become the limiting factor when implementing ML in industry. However, there is no systematic investigation on how data quality can be assessed and improved for ML-based design and manufacturing. The aim of this survey is to uncover the data challenges in this domain and review the techniques used to resolve them. To establish the background for the subsequent analysis, crucial data terminologies in ML-based modeling are reviewed and categorized into data acquisition, management, analysis, and utilization. Thereafter, the concepts and frameworks established to evaluate data quality and imbalance, including data quality assessment, data readiness, information quality, data biases, fairness, and diversity, are further investigated. The root causes and types of data challenges, including human factors, complex systems, complicated relationships, lack of data quality, data heterogeneity, data imbalance, and data scarcity, are identified and summarized. Methods to improve data quality and mitigate data imbalance and their applications in this domain are reviewed. This literature review focuses on two promising methods: data augmentation and active learning. The strengths, limitations, and applicability of the surveyed techniques are illustrated. The trends of data augmentation and active learning are discussed with respect to their applications, data types, and approaches. Based on this discussion, future directions for data quality improvement and data imbalance mitigation in this domain are identified.

关键词

机器学习 / 设计与制造 / 数据质量 / 数据增强 / 主动学习

Key words

Machine learning / Design and manufacturing / Data quality / Data augmentation / Active learning

引用本文

引用格式 ▾
解家瑞,孙立君,赵瑶瑶. 基于机器学习的设计与制造中的数据质量和不平衡问题系统综述[J]. 工程(英文), 2025, 45(2): 111-141 DOI:10.1016/j.eng.2024.04.024

登录浏览全文

4963

注册一个新账户 忘记密码

1 引言

设计与制造是工业生产中两个不可或缺且相互关联的要素:设计必须通过制造得以实现,而高效的制造又能够通过先进的设计得以增强。因此,设计与制造常常在研发中被联合研究。对设计与制造过程的建模可以实现自动化决策,为产品整个生命周期提供预测[13]。目前主要有四种建模范式:基于物理的建模、基于规则的建模、数据驱动建模以及混合建模[4]。基于物理的建模方法是通过数学方程对相关领域的基本原理进行解析建模。这种方法能在早期以最少的数据进行建模。然而,在面对复杂系统时,这种建模方法通常对计算资源和领域专业知识要求极高,难以实现[5]。基于知识的建模则建立在基于规则的专家系统之上,由领域专家选择变量及其对应的阈值进行建模。知识驱动模型通常计算成本较低,并且在相对简单的系统中表现良好[6]。然而,这种方法受到输入和输出变量的数量较少的限制。

为应对复杂系统所带来的挑战,数据驱动方法(包括统计方法和计算智能)已广泛应用于生产建模[7]。这一方法利用历史数据对模型进行训练,从而学习一组参数以逼近潜在关系。与传统统计方法相比,计算智能方法[如机器学习(ML)]具有更高的灵活性、容量和学习能力[5,8]。混合建模也因结合多种建模策略的优势而广泛应用。例如,可以将偏微分方程嵌入到ML模型中,用基于物理的知识引导训练过程。由于模型从数据与物理原理中同时学习基础知识,因此减少了实现良好预测性能所需的训练数据量[9]。近年来,ML已成为推动数据驱动设计、制造与状态监测发展的主要力量,如下文所述[1011]。

数据驱动设计可分为设计表示、建模和合成[1213]。数据驱动设计表示旨在学习一组设计描述符,在可处理的维度上表示设计,同时避免信息丢失[14]。建模通常旨在利用从仿真或实验中获取的数据,捕捉设计空间与属性空间之间的关系。例如,性能预测模型可以根据设计形状预测其性能属性[15]。在设计优化中,这些模型常作为替代模型,以取代计算繁重的模拟。设计合成则包括生成满足设计需求的指导原则和方法。数据驱动合成的一个例子是生成模型,这些模型通过训练可以生成满足特定属性或约束条件的设计方案[16]。

数据驱动制造是一个复杂的领域,涵盖了多个主题,如制造设计、过程监测、过程建模和过程控制[1720]。在制造中必须考虑可制造性和成本效益等实际因素。从设计阶段开始,就要评估设计方案的可制造性,并预测零件质量[21]。在制造过程中,会使用声发射传感器、热成像传感器等设备采集制造过程中的实时数据[2223]。领域专家对收集的数据进行标注,可用于训练基于ML的缺陷检测模型。借助实时传感器数据,可以自适应地调整过程参数,从而提高制造质量,实现实时过程控制[19]。这种方法要求在过程参数与零件质量之间建立准确的过程模型。

数据驱动的状态监测与设计和制造密切相关。评估机器和产品的使用寿命对于确保生产的成本效益至关重要。ML模型通过使用从信息物理系统(CPSs)中收集的历史运行数据,或从仿真中获得的合成数据进行训练,以检测机械故障并对故障进行分类[5]。通过先进的时间序列预测方法,可以构建预测性维护模型,预测组件在其生命周期内任一时点的健康状态和剩余使用寿命(RUL)。因范围所限,本文的分析与讨论将更多聚焦于设计与制造,同时简要强调状态监测中的相关见解。

尽管研究人员已经开发了许多用于提升建模能力的ML方法,但调查显示,数据挑战仍然是ML在生产环境中应用的主要障碍。Chuo等[24]和Xu等[25]指出,数据稀缺、数据不平衡、数据质量和数据安全是智能制造中的主要挑战。Ito等[26]和Hagemann等[27]表示,数据可访问性不足、数据质量欠佳以及数字素养不足是自动化生产系统面临的主要挑战。缺乏数据管理和数据质量会引发工业4.0时代的后续问题,如价值链整合不良和标准缺失[1]。企业资源规划系统中数据质量的不足导致物流4.0时代出现信息断层[2]。Apostolidis等[28]强调,数据异质性(如各种数据来源和数据特性)是航空维修中的主要挑战。Williams等[29]指出,数据稀缺、数据质量差以及系统复杂是设计与制造领域应用人工智能的主要障碍。

为了支持基于ML的设计与制造的发展,必须对数据挑战进行探索并加以解决。现有的综述型论文从多个角度探讨了工业中的数据质量评估(DQA)和改进问题,如数据管理和数据分析[3031]。已有多项研究综述了用于提升ML数据质量或利用ML应对数据挑战的各类技术,涵盖数据异质性[32]、智能制造[2425]以及智能生产系统[26]。然而,针对设计与制造中数据偏差等新兴数据质量概念的系统性综述仍然较少。很少有综述专门提及相关领域中先进的数据质量提升技术,尤其是数据增强和主动学习方面。Lee等[33]最近的一篇综述详细讨论了超材料设计中现有的偏差缓解方法,这是首个涵盖这一领域数据偏差的综述,但主要聚焦于超材料设计和主动学习。本文的贡献包括:

(1)探索了基于ML的设计与制造中的数据处理技术、术语和挑战。

(2)综述了数据质量、数据就绪度和信息质量(InfoQ)等数据质量概念及其在目标领域的应用。

(3)分析了设计与制造数据集中的数据不平衡和偏差问题。

(4)提出并讨论了数据质量提升和偏差缓解技术,重点关注数据增强和主动学习。

本文其余部分的结构如下(图1):第2节介绍本文的研究方法,包括研究问题(RQs)和检索关键词;第3节梳理了基于ML建模中相关的数据术语,为后续分析奠定基础,随后,阐述了该领域中数据挑战的根本原因及其挑战类型;第4节综述了数据质量相关概念(数据质量、数据就绪和InfoQ)及其在设计与制造中的应用;第5节探讨了设计与制造数据集中存在的数据不平衡与偏差问题;第6节回顾并分析了提升数据质量和缓解偏差的技术,包括数据增强与主动学习;第7节讨论了所综述技术的发展趋势、应用领域与方法;第8节总结了本研究的主要观点。

2 方法论

本节介绍文中所采用的研究方法、用于研究数据质量问题及这一领域内已有的相关文献。本文的主要研究问题如下:

如何评估并提升基于ML的设计与制造中的数据质量?

这一核心问题可细化为表1中的若干子问题。RQ1旨在识别领域内最常用的数据术语,为后续分析建立全面的基础;RQ2旨在揭示阻碍ML在工业中部署的主要数据挑战,本文围绕这些已识别的挑战展开,以进一步聚焦研究范围,并从多个数据质量维度中选取最具代表性的话题;RQ3详细探讨了为研究已识别的数据质量挑战而提出的概念;RQ4则讨论了用于提升数据质量的具体技术;RQ5对所综述的技术进行比较,并考察其在基于ML的设计与制造中的适用性;RQ6从不同视角对所选文献进行分析。

本文选用了两个数据库——Scopus和Web of Science(WOS),用于检索相关出版物,重点关注英文期刊、会议论文集和书籍章节。检索范围进一步限定在2014年以来的工程类文献。表2所示的标准用于检索文献的标题、摘要与关键词字段。算法类关键词将综述限定在基于ML的建模。为了进行全面的综述,许多与设计与制造相关的应用关键词也包含在内。从数据质量开始,逐步扩展相关数据术语的关键词。数据质量、数据就绪、偏差、公平性及其变体、多样性及其变体为首批文献检索的关键词。带有星号(*)的关键词表示搜索范围包括所有以该词开头的词汇。例如,关键词“divers*”可包含diverse(多样的)、diversity(多样性)、diversify(使多样化)和diversification(多元化)等词汇。本文选取了数据增强、自适应采样和主动学习作为数据质量提升技术,以作进一步综述。

本次综述的文献筛选流程如图2所示。研究共在Scopus和WOS数据库中进行了三轮检索。将来自两个数据库的文献合并,并去除重复项。随后根据以下标准筛选出非相关文献:①必须采用ML方法;②设计类文献仅限于机械与材料设计领域;③制造、工业、维护与生产类文献需与机械产品相关;④关于数据增强、自适应采样和主动学习的文献必须为研究论文而非综述论文。经过这一轮筛选,数据质量相关文献数量从最初的1482篇减至112篇,主要是因为许多文献涉及的领域(如建筑或软件领域)与机械设计和制造无关。在进一步排除无法获取的文献后,最终保留了94篇与数据质量及相关关键词有关的文献。由于这些文献内容复杂且数量庞大,故在第3、4和5节中进行分类评述与总结。而与数据增强、自适应采样和主动学习相关的文献则在第6节中作详细讨论。需要注意的是,三轮检索之间存在部分文献重叠。

3 背景

数据质量的研究涵盖多个领域,不同领域的研究者往往基于各自的目标和视角,而对许多数据术语有不同的理解。有些术语被混用,而同一个术语在不同领域中的使用方式可能存在差异。因此,在基于ML的设计与制造中建立对相关术语的共识至关重要。本节将梳理ML建模中常被引用的数据相关术语(图3),随后探讨基于ML的设计与制造过程中面临的挑战。

3.1 数据术语

图3展示了在基于ML建模背景下的数据术语,主要聚焦于设计与制造领域。这些术语按照ML建模中的四个主要阶段进行排列:数据获取、数据管理、数据分析与数据利用。这四个阶段通常按序发生,如图中彩色箭头所示。为提升数据质量和建模性能,可以在不同阶段实施相应的数据处理技术,如彩色箭头旁的分支所示。彼此密切相关的技术列在一起,表示它们之间存在显著重叠,或常被混用。有些技术位于两个阶段之间,表明它们可以在任一阶段实施。此外,图中蓝色模块展示了一些用于描述数据的定义、研究数据质量的概念,以及促进数据管理的框架。这些内容分布于不同阶段,但并非在特定时间点或按顺序出现。同样,紧密相关的术语也被列在同一模块中,有些模块位于两个阶段之间,表示其适用于任一阶段。为回答RQ1,接下来的内容将介绍图3呈现的数据术语。

在基于ML的建模初期,需进行数据获取[34],即从一个或多个物理或数字数据源中获取数据。这一领域中典型的数据来源包括但不限于设计文档(如设计规范、二维草图、计算机辅助设计文件)、测量与传感设备(如摄像头、温度计、振动传感器、声发射传感器)、数值仿真(如有限元分析)、生产与工艺规划、企业资源计划系统、制造工艺参数以及操作日志等。数据收集和数据生成通常分别指从物理来源和数字来源获取数据的过程。因为设计与制造中存在多种数据类型、格式、结构和来源,所以数据异质性是数据获取过程中常见的问题。在分布式制造系统中,为了在时间上协调作为数据源的多台机器,通常会执行数据同步[35]。在完成数据获取后,应明确描述数据集基本特征的元数据,以指导后续的数据管理工作[36]。数据溯源是一种元数据,用于记录数据集的历史信息,包括其来源和转换过程[37]。

数据管理涉及使用科学方法对数据进行存储、组织和维护,以确保数据质量。数据质量[38]、数据就绪[39]以及InfoQ [40]是用于衡量数据集质量的不同方法论,后续将在第4节详细介绍。数据手册[41]、数据声明[42]、信息表[43]和数据集营养标签[44]等技术,均以数据质量或数据就绪为标准对数据集进行评估。数据治理规定了在组织内部将数据作为资产进行管理的相关政策、标准和准则[45]。数据治理在制造业中尤其具有挑战性,在企业层面部署和维护中又至关重要[46]。制造企业中的数据来自供应商、员工与客户等多个群体,因此必须识别并应对数据隐私与安全风险,以保护各方利益[47]。由于数据从多个流程、地点与时间点进行收集,其数据量常常十分庞大。因此,元数据管理是数据治理中不可或缺的一部分,其能够实现数据归档并推动数据挖掘[47]。元数据管理不仅需涵盖数据集的来源,还应记录其转化历史,以便于后期故障排除。作为一项跨学科活动,数据治理也为数据质量管理与数据集成等流程提供了指导。在制造企业中,通常会配备专门的代理人并执行管理原则以满足上述治理需求。例如,数据管理员负责监督组织内部的数据管理工作,并确保其符合数据治理规范[48]。FAIR准则是一种被广泛采用的数据管理指导原则,旨在使数据具备可发现性(findable)、可获取性(accessible)、可互操作性(interoperable)与可复用性(reusable),从而促进跨领域的数据共享与协作[36]。在完成数据获取后,可通过DQA和测量方法对数据质量进行评估[30]。此外,还需通过数据清洗与数据规整提升数据质量,并将数据转化为可用格式[49]。经过清洗与转化的数据将被结构化到数据库中,以实现高效的数据管理。在基于ML的建模中,数据融合与数据集成均指通过整合多个数据集来丰富信息基础,弥补知识缺口[50]。

在本研究背景下,数据分析是一套通过统计分析和ML等方法,从数据集中提取见解、构建模型并进行预测的过程。数据不平衡[51]是指由于分布不均导致数据集中不同群体之间存在不平衡的现象。数据采集和准备阶段存在的偏差,是导致数据不平衡及其他数据质量问题的根本原因[52]。若这些不平衡和偏差未得到妥善解决,将会削弱ML模型的性能。为评估数据偏差,研究人员提出了若干检测和衡量技术,如数据公平性、多样性和覆盖度等[52]。在数据分析阶段,从参数化到特征学习的一系列数据准备与预处理技术,有助于推进后续的ML任务[53],如第6.1.1节所述。数据配准是应对数据异质性的方法之一,其通过对数据集中不同数据源进行时空对齐来实现统一[54]。数据增强则可通过对现有样本进行部分修改或生成新的合成样本来扩大少数群体的数据规模,从而缓解数据不平衡问题[55]。数据增强既可在建模前实施,以提高模型性能,也可在建模后实施,通过模型生成合成数据。模型卡有助于记录已训练模型的信息,从而提升数据管理的可靠性与透明度[56]。

数据利用描述了使用数据和模型来生成见解、做出决策并提升生产效率的过程。决策融合将多个模型的决策结合起来,以做出更为明智的最终决策[57]。通过训练好的模型,可以实现数据合成、数据压缩和数据重建等技术。由训练模型生成的合成数据应被妥善地存储在数据库中,并按照数据管理准则进行管理。基于模型性能,可采用自适应采样和主动学习来高效地引导额外的数据获取,以进一步提升模型性能[58]。

3.2 数据挑战

据现有调查总结和观察到的困难,本小节列出了所关注领域中的主要数据挑战,以回答RQ2(图4)。在生产系统中,人为因素渗透至复杂系统,形成了错综复杂的关联关系,这是数据挑战的根本原因。对于基于ML的设计与制造而言,最突出的挑战包括:数据质量不足、数据异质性、数据稀缺以及数据不平衡。

3.2.1 根本原因

(1)人为因素在生产和数字化转型中起着至关重要的作用[5960]。工业中经常观察到由人为操作引起的错误[27]。不断发展的数字化环境持续引入先进的信息技术,这对工业从业人员的数字素养提出了更高的要求。然而,目前在高等教育和个人发展项目中,数字素养教育仍显不足[61]。此外,在不同数字素养水平的群体之间进行有效协调也非易事,如管理人员、工程师、技术员和操作员。

(2)复杂系统是指现代制造业通常涉及的多个生产活动,包括设计、制造、物流和维护。这些活动在不同时间以不同规模发生,并涉及多个群体。为了捕捉不同活动的数字和物理特征,通常需要以不同的频率、精度和格式获取数据,这就造成了数据的异质性和不平衡[28]。

(3)设计和制造领域普遍存在复杂关系。一些生产活动高度可变,如燃气轮机的操作条件不断变化[7],以及增材制造(AM)中存在多种候选材料[19]。另一些活动则具有复杂的潜在关系,这需要通过高容量且具备强因果因子解耦能力的模型加以处理。例如,多种故障可能同时发生,导致故障特征重叠,进而难以识别和分类[5]。此外,不同的生产活动之间可能会相互影响或发生交互。例如,制造设计是一种特殊的设计过程,可优化设计以改进后续制造流程。

3.2.2 挑战类型

(1)数据质量不足已成为工业数字化中的主要问题[27]。尽管数字化带来了数据量的快速增长,但DQA通常未能有效融入生产系统[27]。例如,工业数据中常见缺失值和异常值,其成因多种多样,如人为错误和传感器故障等。

(2)数据异质性是指单一数据集内部或多个数据集之间存在的不一致性[32]。由于复杂系统中信息来源多样,工业数据的异质性是主要挑战[28]。例如,从不同数据源采集的数据可能在时间点、类型、格式和结构上的储存都各不相同。此外,在不同系统间(如设计、制造和运行系统)对齐数据虽具有挑战性,却极其关键。例如,预测AM零件的质量涉及设计参数、制造过程参数和过程监测数据,这些数据往往具有不同的表现形式。

(3)数据稀缺源于生产本身的高变异性和低吞吐量。现代产品日益增长的定制化程度和复杂性,导致许多变量影响产品质量,从而增加了建模问题的维度[62]。维度越高,数据集的稀疏程度也越高。此外,产品越复杂,进行高保真实验或仿真所需的时间和资源也越多。数据稀缺的一个特殊表现是由于标注成本高而导致的标记数据缺乏,因标注往往需要设计与制造领域的专业知识。

(4)数据不平衡是指数据集中某些群体代表性不足的现象。在设计和制造数据集中,数据不平衡十分常见,因为人为定义的设计数据天然具有偏倚性[63];而制造或运行数据中,正常样本往往远多于存在缺陷或故障的样本[64]。

本文重点探讨了基于ML的设计与制造过程中的数据质量挑战。关于数据质量和数据不平衡的概念将在第4节和第5节进一步展开。尽管数据稀缺的概念尚不明确,第6节中的缓解方法将有助于解决这一问题。与复杂系统相关挑战的分析与解决方案涉及工程学、数据科学和社会科学等多个领域的知识,将留待未来研究深入探讨。

4 数据质量探究

本节围绕数据质量、数据就绪以及信息质量的概念展开探讨,以回答RQ3。文中将介绍并讨论用于提升数据质量的相关框架与流程。

4.1 数据质量

数据质量是一个广义术语,用以描述数据在其整个生命周期中的多个方面。Wang [65]最早在生产领域提出DQA方法论,并在研究中将数据质量保障划分为四个步骤:定义、度量、分析和改进。在这项研究中,DQA指标归为四大类,并进一步细分为15个维度(表3)。这些指标将数据视为信息产品,对数据质量进行全面评估。然而,测量这15个指标不仅耗时,而且在很多场景下不适用。因此,Askham等[38]将这15个维度精炼为6个主要维度(表3),这些维度在工业环境中最具相关性,受到广泛认可。Askham等[38]保留了Wang [65]在研究中提出的准确性、时效性、一致性和完整性四个维度,添加了唯一性和有效性,以评估重复和不一致这两个常见问题。Askham等[38]删除了Wang [65]的研究中与特定用例相关的许多指标,如涉及人类交互的声誉、访问和安全性。尽管上述两种评估方法已被广泛采用,但它们未能考虑提高ML性能所需的数据特征,如数据不平衡和数据稀缺问题。

针对工业数据管理,研究人员提出了侧重点不同的DQA范式[3031]。其中一种主要范式是基于六个核心维度,构建通用于多种工业应用场景且可适配的DQA工具[38]。例如,Günther等[66]开发了一种用于中小型制造企业的数据质量管理工具,可提供指导,帮助用户依据具体用例、上下文、领域知识和数据本身,从20个可用指标中选择合适的评估指标。Wiemer等[67]提出了一种名为V模型的整体DQA方法,适用于CPS,保障了从数据采集到结果呈现的全过程数据质量。这一方法还根据数据的系统属性、内容、展示形式和使用场景,提供选择合适数据质量指标的指导原则。另一类范式则针对特定的新兴应用场景,开发具有专用评估指标的DQA工具[26,68]。例如,Schelter等[69]在亚马逊研究基金资助下提出了一种面向大规模数据的DQA方法。他们定义了四个大规模数据的特征(声明性、灵活性、可扩展性和对持续增长的数据规模的支持性),并将这些特征融入其大数据DQA工具中。Byabazaire等[70]提出了一个面向物联网的端到端DQA框架,引入了信任这一概念。此框架在数据生命周期的不同阶段对数据质量进行评估,将评估得分整合为一个信任分数,并允许自定义分数的权重和指标。信任分数是一个动态指标,可通过元数据评估、数据预处理与分析以及模型监测,实现随着时间的推移而提升。受到这些DQA范式的启发,自2019年起,越来越多具备DQA功能的数据管理流程应用于基于ML的设计与制造研究项目中(表4 [29,35,7182])。然而,这些数据质量增强流程普遍未专注于提升数据驱动建模的性能,而更侧重于一般性的数据质量改进。

4.2 数据就绪与InfoQ

根据Lawrence [39]的定义,数据就绪描述了一个数据集在可访问性、有效性和实用性方面的状态。可访问性检查各种前提条件,包括数据的存在、访问权限、许可情况以及伦理问题。有效性评估数据的质量,如缺失值和异常值。数据集的实用性则用于判断其是否适合且足够支持目标数据驱动任务。数据就绪不同于数据质量,因为数据就绪并非用于通用的数据管理目的;相反,数据就绪是针对特定数据驱动任务进行评估的。这一特殊特性使数据就绪成为评估数据集在基于ML的建模任务中是否具备合格质量与充分性的合适方法。

InfoQ是用于评估数据集质量与价值的另一概念。过去40年中,InfoQ已有多种定义,且大多与数据质量和数据就绪重叠[83]。Kenett和Shmueli [40]提出了一个独特的InfoQ定义,用以衡量在使用特定数据分析方法(f )和考虑给定效用函数(U)的前提下,某数据集(X)实现特定分析目标(g)的潜力。这一InfoQ定义被公式化为InfoQ(g,X, f,U)=U{f (X|g)}。作者认为,大多数数据质量概念仅考虑U{X}或U{X|g},而忽视了分析方法和分析任务中的目标。为评估InfoQ,文中提出了包括数据分辨率、可泛化性和可操作性在内的八个维度[40]。基于这八个维度,学术界与工业界提出多个以InfoQ为基础的框架,用于提升数据质量和数据管理水平[40,8485]。这些框架采用高度实证和基于问题的评估方法,而非统计和数值度量。

数据就绪和信息质量也启发了多种数据管理工具的开发。数据集营养标签通过多个模块对数据集提供了全面的概览[44]。其中,数据可访问性通过元数据和数据来源模块描述;数据有效性则通过变量、统计量和变量对比图模块进行评估。与传统的数据质量评估工具不同,数据营养标签使用概率模型和真实标签相关性模块,为数据实用性提供了更多见解[44]。此方法能够告知数据使用者数据集适用于哪些潜在建模任务。Yang等[86]提出了一种名为ranking fact的工具,利用营养标签对排名任务进行数据就绪的评估。这一工具通过训练排序模型并基于输入的数据集比较其性能,根据营养标签[44]、公平性和多样性[55]评估数据集的就绪度。Stoyanovich和Howe [87]提出了一个可半自动生成数据集与模型营养标签的工具开发计划。Chmielinsk等[88]提出了第二代数据营养标签,这种标签具有情景特定功能和训练数据偏差缓解能力。Sun等[89]开发了MithraLabel,它可自动生成营养标签,以理解特定ML任务中数据集的就绪性。MithraLabel聚焦于四类ML任务(排序、分类、预测和聚类)和三类数据特征(少数群体代表性、偏差和正确性)。上述数据就绪工具可用于提升特定数据驱动建模任务中的数据集质量。然而,这些方法目前仅适用于表格型数据。

5 数据不平衡问题的研究

数据不平衡是基于ML建模中日益凸显的挑战。本节基于设计与制造过程中的偏差概念分析数据不平衡问题,随后探讨用于衡量代表性偏差的方法以回答RQ3。

5.1 基于ML的设计与制造中的偏差

数据不平衡描述的是由于有偏差的数据获取方式或偏斜的基础分布导致某些群体在数据集中代表性不足的现象[52]。如果不加以缓解,数据集中的偏差将传导到ML模型中,最终导致预测效果不理想[55]。数据偏差的类型有很多种:

(1)测量偏差是由于特征的测量和记录方式引起的。例如,在使用CPS收集数据时,不同特征的测量精度不可避免地存在差异。这可能会导致模型对不同群体的敏感程度不同。

(2)遗漏变量偏差是指某些重要特征未被包含在数据集中。例如,设计参数化过程中可能未能包含一些重要的设计参数,从而在数据集生成过程中引入偏差。在这样的数据集中,某些可能的设计变体将出现代表性不足。

(3)聚合偏差来源于不同群体的不同基础分布。当将它们聚合为一个数据集时,聚合后的分布可能与各自的分布有显著差异。例如,如果将多个不同设计的数据集合并为一个数据集,建模的复杂性将显著增加。

(4)表征偏差是数据不平衡最常见的根本原因,可以进一步分为选择偏差和基础分布偏斜。

选择偏差源于数据获取过程中的采样方式。如果数据采集有意偏向特征空间中的某些类别或区域,较少采样其余部分,那么数据集就会产生偏差。

基础分布偏斜描述的是总体本身就呈现出偏斜分布的现象。因此,即便消除了选择偏差,数据集仍可能是不平衡的。

虽然这些偏差与数据有关,但缓解其中一些偏差的关键并不在于数据集本身。测量偏差和遗漏变量偏差的缓解方法在很大程度上依赖于领域知识。聚合偏差可以通过能够分离各个群体底层分布的ML模型来解决,从而促进学习过程。本文聚焦于表征偏差,因为其缓解方式与数据集本身高度相关[52,55,90]。

表征偏差在设计与制造数据集中普遍存在。在设计数据集中,最显著的表征偏差存在于属性空间,其中样本被动分布[63]。在设计空间中进行的实验设计(DOE)可确保生成多样化的设计形状。然而,由于设计形状与设计属性之间的非线性关系,属性空间中会产生底层分布的偏斜。因此,设计数据集在属性空间中通常是非平衡的,有密集搜索区域、样本稀疏区域和未探索区域[91]。因此,ML模型可能会集中于被密集采样的属性区域,而忽视代表性不足的属性。制造数据集中的表征偏差通常更为显著,因为制造数据的采集成本远高于设计数据。与可通过模拟生成的设计数据不同,制造数据集主要来自真实实验或生产。由于这些数据集是根据生产计划而非DOE生成的,因此容易产生采样偏差。此外,由于可靠的制造过程降低了缺陷和故障的发生概率,制造数据集的底层分布天然地偏向于正常样本。

在工程领域中,偏差并不总是有害或不可取的。需要缓解还是加强现有偏差,取决于下游建模任务[33]。例如,如果数据驱动的设计任务是获得具有高冷却效率的设计方案,而设计性能与孔隙率成正比,那么数据采集就应偏向于高孔隙率的设计,而非对高、低孔隙率的设计平均采样。另一个来自状态监测的例子是,接近失效样本的采集通常比非常健康的样本更为关键。健康类与故障类之间的边界被失效和接近失效的样本所包围。因此,与采集非常健康的样本相比,采集接近失效的样本能够提供更多的信息。

不同的采样方法可以帮助控制数据集中的偏差。通常情况下,随机抽样和拉丁超立方抽样等传统的随机采样方法可以避免在数据采集过程中引入选择偏差。非随机采样具有主观性,通常会在数据集中引入偏差。例如,网格采样仅允许在网格交点上采集样本。尽管随机采样有助于缓解偏差,但它并不是提升ML模型性能的最有效方法。由空间填充实验设计指导的确定性采样可以实现更好的特征空间覆盖,从而揭示更多系统的底层知识[33,92]。最近开发的自适应采样和主动学习方法也是非随机的,但在提升ML性能方面却十分高效。这些方法可能会导致数据集出现偏差,但如上所述,这些偏差可能是可取的。

5.2 表征偏差的衡量方法

衡量表征偏差的方法可分为代表性和数据覆盖度[55]。代表性在文献[93]中有定义,通常适用于类别型特征,基于此可以将整个数据集划分为若干子群体。代表性衡量的是随机选取一个样本属于各子群体的概率。一旦对连续值特征进行切分,这一方法也可适用于连续值特征[94]。数据覆盖度衡量指定特征空间中数据集覆盖的范围,其概念是根据不同的背景和数据类型定义的[9597]。

此外,研究还提出了公平性和多样性的概念,用于评估代表性偏差[55]。公平性指标衡量的是数据集或模型中偏差的缺失程度[90]。尽管已经提出了许多公平性指标,但它们大多数都是为分类算法设计的[98],主要适用于社会科学和决策建模[52,99]。目前尚未有公平性指标用于评估设计与制造数据集,因为社会科学中的公平性概念无法直接应用于设计与制造领域。目前还没有针对基于ML的设计或制造任务开发的公平性指标。多样性指标描述品种的丰富程度,适用于各种使用场景。根据Drosou等[100]的定义,多样性指标可分为基于距离、覆盖度和新颖性的度量。基于距离的多样性指标通过样本间的成对距离来定义数据集的相似性;与数据覆盖度类似,基于覆盖度的多样性指标衡量数据集对指定空间的覆盖程度;基于新颖性的多样性指标则衡量新样本相对于已有样本的差异程度,用于减少冗余。多样性指标被广泛用于从现有数据集中采样或收集新样本,以减少设计与制造数据集中的表征偏差[63,91,101]。然而,现有的表征偏差衡量方法大多仅限于表格式数据。目前还未对图像、时间序列及时空数据定义数据覆盖度、公平性与多样性等概念。

6 数据质量提升与偏差缓解方法

上文阐明了数据质量的重要性,并介绍了若干评估范式。本节将探讨数据质量提升技术与表征偏差缓解方法,以回答RQ4。数据改进方法有两种应用情景:仅使用现有数据和允许获取新增数据。如果不允许获取新增数据,则对现有数据采用数据处理方法,包括数据清洗、特征提取、数据预处理、特征选择、特征学习和数据增强。若允许获取新增数据,则可使用自适应采样或主动学习方法以高效获取新数据。本节将详细回顾基于ML的设计与制造中的数据增强与主动学习方法。

6.1 仅使用现有数据

在使用相同原始数据集的情况下,ML模型的性能可能会因所采用的数据准备和预处理技术不同而产生显著差异。根据Xie等[7]的研究,数据准备是从原始数据中提取有用特征,而数据预处理则是对数据集进行转换,以提升ML的学习性能。

6.1.1 数据质量提升

本小节概述了从数据清洗到数据增强等数据分析阶段(图3)中常见的数据准备与预处理技术。数据清洗是ML项目中常见的操作,旨在提升数据的完整性、准确性、唯一性和有效性[102]。对于设计与制造类数据集而言,数据清洗是不可或缺的环节,因为数据质量已成为工业4.0时代的主要障碍[12]。表5概述了主要的数据清洗目标,包括其描述及常用方法[102103]。需注意,不同数据清洗目标之间可能存在一定的重叠(如剔除异常值与无关样本)。此外,数据清理与其他数据质量改进技术(如剔除无关特征和选择特征)之间也可能存在一些重叠。

参数化是指通过定义参数或变量来表示某类设计,从而便于ML与设计优化等后续分析的过程[104]。通过改变设计参数可生成不同的设计变体。设计参数化通常利用领域知识由人工定义,这会引发两个常见问题:参数化过度与参数化不足[105]。参数化过度是指为了表示一个设计而设置了过多的变量,从而在系统中引入了冗余。这不仅可能增加计算成本,还可能削弱后续建模任务的性能。相反,参数化不足则意味着变量数量不足,无法覆盖所有可能的设计变化,从而在生成设计数据集时导致知识缺失。在这种情况下训练出来的ML模型只能偏向于数据集中可表示的设计,导致预测精度降低,并影响生成设计的多样性。近年来的研究表明,可通过ML对设计参数进行学习,从而规避上述问题[105]。另一方面,由于传感器采集到的数据通常形式复杂,不易直接进行统计分析或训练ML模型,因此需要进行特征提取。常见做法是从原始数据中提取统计特征和几何特征,以便于后续分析[106]。例如,在AM中,可通过纹理分析和边缘检测等计算机视觉技术,从原始图像中提取熔池形状特征[107108];又如,通过频谱图和小波变换等时频分析技术,可以提取故障特征[109110]。

从原始数据中提取出初始特征后,可以进行特征选择和特征学习,以提升ML模型的性能。特征集可以定义为A = {X1, X2, X3, …, Xn },其中Xi 表示原始特征空间Rn中的第i个特征。如果特征集的维度较高,由于考虑的假设数量众多,理论上很难构建出最优的ML模型[111]。特征选择从A中选择一个子集S,将特征空间降维为Rs,其中s是小于n的新维度[112]。所选择的子集理应仅包含与建模任务相关的特征。通常,会根据所选方法对特征进行排序,然后选择一个子集作为新的特征空间[113]。据Xie等[7]所述,特征选择技术可分为三类:

(1)基于标签-特征相关性的方法是评估每个特征与标签之间相关性的监督式特征选择方法。其中,与标签高度相关的特征将被选作输入特征。

(2)基于相似性/交互性的方法通过研究特征之间的依赖性和交互作用来对特征进行排序。如果两个或多个特征在统计上相似或具有高度线性相关性,则只选择最具代表性的特征。此外,还会检测两个特征之间的交互作用,以逼近非线性关系。

(3)包裹式监督方法不是评估单个特征,而是研究标签与特征子集之间的相关性。通过使用不同的特征子集迭代训练ML模型,来确定最适合的特征子集。在每次迭代中,选择能带来最佳模型性能的子集。当达到设定的模型性能标准时,特征选择过程终止。

特征学习通过转换初始特征,在特征空间R1中生成一组新的特征LA [114]。新特征的生成旨在通过降低噪声和提取潜在规律,使得原始数据集表示效果更佳[115]。特征学习技术可分为统计方法和ML方法。最常用的统计方法之一是主成分分析(PCA)。PCA将原始数据集投影到一个低维空间,并将主成分作为新的特征。为了将训练集X={x(1),x(2),x(3),,x(m)}mN+)从Rn 空间转换到R1空间(其中1 < n),需要首先计算协方差矩阵:

Σ=1mi=1m(x(i))(x(i))T

随后计算协方差矩阵Σ的特征值和特征向量。选取与最大特征值对应的特征向量来组成变换矩阵 P。具有新特征的数据集可以通过Z=PT×X获得。新特征也可以通过ML方法学习得到。例如,可以训练自编码器(AEs)和领域对抗神经网络来学习具有代表性的特征。卷积神经网络和循环神经网络可以与自编码器结合,用于学习空间和时间特征。所学到的特征有可能具备可解缠的因果因素等理想属性。之前述及Xie等[7]对用于基于ML的燃气轮机建模的特征选择和特征学习技术进行了更为全面的综述。

数据预处理可提高数据质量或其对基于ML建模的适用性[116]。一般来说,预处理可以分为图像预处理和数值预处理。图像通常通过灰度处理和裁剪等技术进行预处理,以降低计算复杂性[117]。归一化等数值预处理技术可以提高ML训练过程的性能并加快其收敛速度[118]。此前述及Zhang等[19]系统回顾了用于AM的数据预处理技术。

上述数据质量改进方法之间存在许多重叠。例如,设计参数化可以视为对某一类设计的特征提取;特征学习也可以被看作使用统计或ML方法进行的特征提取。此外,实施上述方法并没有固定的顺序。例如,基于ML的特征学习通常发生在数据预处理之后。但是,如果用标准化对数据进行预处理并使特征具有统一的方差,则PCA必须在数据标准化之前实施。图3展示了每种数据改进方法通常实施的最早时点,其顺序和发生时间可能会因具体场景而有所不同。

6.1.2 数据增强

数据增强可以通过对现有样本进行部分修改或合成新样本来增加少数类样本的数量,从而缓解数据不平衡和数据稀缺的问题[55]。自2019年以来,领域内已实施了多种数据增强方法(表6 [105,109110,119168])。数据增强方法可分为三类:基于领域知识的方法、基于统计的方法和基于ML的方法。

(1)基于领域知识的数据增强方法

在基于ML的设计与制造中,根据领域知识人工创建新样本以减少表征偏差的做法十分常见。由于监测系统的限制(如摄像头位置和角度固定),实验获取的数据集通常存在偏差。基于知识的数据增强旨在利用领域知识补充数据集中未被充分表示的样本,从而减少偏差。许多增强技术借鉴了计算机视觉领域的做法,以生成新的图像数据,包括添加噪声[119128]、旋转[119120,122133]、亮度变化[120,122,124125,127,133134]、对比度变化[120,133135]、阴影处理[122,124125]、缩放[123,126,130,132,136137]、平移[123,126127,131133]、翻转[123126,131,133,137]以及形变[121,136,161]等。另外,也有方法借鉴信号处理领域的知识,对传感器采集的时间序列数据进行转换。Lee等[109]提出了一套基于ML的模型,用于预测车辆噪声水平,其输入为基于转速(RPM)的频谱图,并人工推导出了发动机阶次线与发动机汽缸数的数学表达式,从而合成更多频谱图。Sha等[138]提出了一种利用滑动窗口与快速傅里叶变换的方法,将长信号划分为若干短信号,以进行空化检测。Ye等[139]提出使用circshift函数方法,根据铁路车轮的周期性行为对时间序列数据进行增强。然而,Sha等[138]和Ye等[139]提出的方法是否属于数据增强尚不明确,因为其本质上是滑动窗口处理,这属于数据预处理技术。其他信号处理增强技术还包括添加噪声[140]、信号平移[140]、振幅平移[140141]以及时间拉伸[140141]等,还有部分基于机械工程领域知识的数据增强方法。Zhang等[142]通过随机修改工程图纸的尺寸参数,生成能代表不同用户绘图风格的合成图纸。Ruediger-Flore等[122]创建了高分辨率的计算机辅助设计模型,并与不同摄像角度下的真实车间背景进行叠加,以实现逼真的图像合成。Lyu等[143]提出了基于形变的数据增强方法,通过在两幅基于拓扑结构的断裂图像之间进行插值,对疲劳断裂图像进行过采样。

(2)统计数据增强方法

统计型数据增强方法通过统计手段对数据集进行统计过采样或下采样。最简单的统计方法是随机过采样(ROS),即随机重复少数类样本。应用最广泛的统计型数据增强技术是合成少数类过采样技术(SMOTE),它通过k近邻(KNN)算法生成少数类的合成样本。SMOTE针对某一少数类合成样本的伪代码,如算法1 [146]所示。

Martins等[144]将SMOTE与加性高斯白噪声相结合,对故障类别中稀缺的样本进行过采样。在滚动轴承多故障检测案例中,此方法将堆叠稀疏自编码器模型的故障分类准确率提升了3.5%。Fan等[145]在基于ML的晶圆生产缺陷识别中使用SMOTE对缺陷样本进行过采样,数据增强将线性回归模型的准确率从81%提升至100%。

(3)基于ML的数据增强方法

近年来,诸如生成对抗网络(GANs)和AEs等基于ML的数据增强技术得到了深入研究[147]。GAN由一个生成器(G)和一个判别器(D)组成,生成器从噪声向量中生成合成样本,而判别器则用于判断输入是真实样本还是合成样本[148]。通过竞争训练生成器和判别器的对抗方法,可指导GAN的学习过程,从而生成高质量的合成样本。图5(a)展示了GAN的原始形式,也称为原始GAN。在任意训练轮次i中,一批随机向量( Zg’s)被输入到生成器(Gi )中,以生成合成样本( Sg’s)。然后将合成样本输入判别器(Di )以生成预测结果( ŶG ’s),这些预测结果是sigmoid函数的输出。 ŶG 的取值范围在[0, 1]之间,可以理解为预测为正类的概率,公式(2)如下:

ŶG =Di ( Sg ) = Di (Gi ( Zg ))

通过基于预测值 ŶG ’s与全为1的向量之间的二元交叉熵(BCE)损失来更新生成器Gi,即可得到更新后的Gi+1。原始的BCE损失(LBCE)和用于更新生成器的损失(LG)分别为:

LBCE=BCEY,Y^=-1nYj=1nYYjlogY^j+1-Yjlog1-Y^j
LG=BCE1,Y^G=-1nYj=1nYlogY^G,j

式中,nY 是预测数量, Y 是真实标签, Ŷ 是预测值。生成器在第i轮迭代更新后,判别器接受训练,从而提升其区分真实样本和合成样本的能力。首先,一批新的随机向量( Zd ’s)被输入更新后的生成器(Gi+1),生成一批新的合成样本( Sd ’s)。然后,合成样本被输入Di,产生预测值 ŶD- ’s,这些被视为负样本,标签为 YD- = 0。训练集中的真实样本向量( S )也被输入Di,产生预测值 ŶD+ ’s,这些被视为正样本,标签为 YD+ = 1。预测值和标签分别被拼接,构成 YD ’s和 Y ’s,如下所示:

ŶD- =Di ( Sd ) = Di (Gi+1( Zd ))
ŶD+ =Di ( S )
ŶD = ŶD+ŶD-
YD = YD+YD-

可以通过基于 ŶD ’s和 Y ’s (LD)之间的BCE损失来更新Di,从而获得Di+1

LD=BCEYD,Y^D=-1nYj=1nYYD,jlogY^D,j+(1-YD,j)log1-Y^D,j

上述过程描述了训练原始GAN的典型方法。还有其他方法可以实现并增强对抗性训练。GAN训练完成后,可以通过将随机向量( Z )输入生成器来生成合成样本 Sg ’s,即 Sg = G( Z )。已有一些研究报道了使用GAN进行数据增强的应用。例如,Dong等[134]使用原始GAN合成了齿轮磨削烧伤图像;De Santo等[110]使用原始GAN为时间序列预测性维护数据生成了合成样本,主要用于对比递归图和格拉姆角场等不同时间序列编码技术。作者指出,原始GAN仅带来有限的性能提升,却消耗了大量计算资源,且其无法根据特定需求生成合成样本。

与仅从噪声向量生成合成样本不同,条件生成对抗网络(CGAN)允许模型结合额外信息(如类别标签)进行条件约束来合成指定的样本[图5(b)]。训练CGAN的常用方法是将样本向量与其相关的条件向量拼接。在训练过程中,首先,将一批随机向量( Zg )与条件向量( Pg ’s)拼接,以指示要生成的样本类型。接着,将拼接后的向量输入到生成器(Gi )中以获得合成样本( Sg ’s)。随后,将这些 Sg ’s再次与相关的条件向量拼接。最后,将拼接结果输入到判别器(Di )中生成预测值( ŶG ’s):

ŶG =Di ( SgPg ) = Di (Gi ( ZgPg ) ⊕ Pg )

在更新生成器之后,可以使用与公式(5)~(8)相同的过程获得 ŶD+ ’s和 ŶD- ’s。唯一的区别在于,随机向量和样本向量会与相关的条件向量拼接:

ŶD- = Di ( SdPd ) = Di (Gi+1( ZdPd ) ⊕ Pd )
ŶD+ = Di ( SP )

在使用CGAN生成合成样本时,指定的条件会与随机向量拼接,以生成能够满足这些条件的样本。上述方法可以生成一维向量,但无法生成图像,而图像是二维的(如灰度图),或由多个二维矩阵通道组成(如RGB颜色模型)。

为了生成图像,生成器和判别器可以采用卷积层和池化层来构建卷积GAN。图5(c)展示了一个条件卷积GAN的结构,其中标注了卷积层的维度。卷积层具有多个通道,每个通道嵌入一个二维特征图。当随机向量通过生成器时,通道数量逐渐减少,而特征图的尺寸逐渐增大。通过这种方式,生成器的输出将是一个具有指定尺寸和通道数量的图像。判别器则执行与生成器相反的过程,通过增加通道数量并减少特征图尺寸来处理输入。最后,在鉴别器对图像的真假做出预测之前,特征图会被平铺成一个全连接层。

基于原始GAN和CGAN,研究人员通过修改损失函数和网络结构,提出了多种改进的GAN模型,以应对数据驱动设计与制造领域的挑战。在数据驱动设计中,Chen和Ahmed [149]提出了一种性能增强多样性GAN(PaDGAN),这一模型在训练过程中将GAN损失与性能增强的行列式点过程(DPP)损失相结合,实现生成式设计。PaDGAN模型学习合成训练设计数据的同时,能够生成具有期望特性的多样化形状。考虑到设计任务中通常存在多个目标特性,Chen和Ahmed [105]进一步提出了MO-PaDGAN,此模型将性能增强多样性GAN与多目标贝叶斯优化(MOBO)相结合。如案例研究所示,此流程能够生成多样化的形状,并有助于在属性空间中探索完整的帕累托前沿(Pareto fronts)。Nobari等[150]提出了一种性能条件多样性GAN(PcDGAN),可用于生成具有指定特性的设计。与PaDGAN相比,PcDGAN更具灵活性,因为用户可以指定所需特性,而非仅进行最大化或最小化处理。上述GAN模型旨在实现数据表示或数据合成,而非数据增强。之所以将这些工作纳入本文,是因为它们有可能作为先进的数据增强方法并被加以应用。特别是通过这些方法,可以提升合成数据的多样性,而这往往是本文中其他数据增强方法所忽视的方面。此外,Yoo等[151]提出了一种可设计的GAN,利用反向生成器推断并可视化影响系统级性能的因素。Wu等[152]提出了一种双生成器的数据增强GAN(daGAN)流程:第一个生成器用于执行数据增强;第二个生成器则用基于马赫数条件的翼型设计生成。

在制造和状态监测的数据集中,GAN常被用于生成缺陷或故障样本。在数据驱动的制造领域,Jain等[124]训练了一种卷积GAN模型,用卷积层替代了全连接层,从而实现了用于热轧钢缺陷分类的图像生成。Wang等[153]提出了自适应平衡GAN(AdaBalGAN)模型,此模型在每次迭代中根据晶圆缺陷类别的分类准确率,自适应地为每个类别生成不同数量的合成样本。Niu等[156]引入了D2对抗损失[169]与循环一致性损失[170],以生成高度保真和多样的表面缺陷样本。在数据驱动的状态监测领域,Behera和Misra [159]使用CGAN扩充故障实例,以利用门控循环单元(GRU)构建预测性维护模型。Li等[157]采用Wasserstein GAN(WGAN)生成合成故障信号,其中Wasserstein距离用于衡量判别器感知的真实样本分布与生成器产生的合成样本分布之间的差异。为解决WGAN合成样本多样性不足的问题,研究中进一步结合SMOTE方法对少数类故障进行过采样。在机电故障诊断案例研究中,WGAN和SMOTE在不同数据不平衡比率下均能使深度神经网络模型的准确率提升5%以上。Li等[147]提出了一种增强型时间正则GAN(ATR-GAN),用于在线过程异常检测,适用于来自状态监测的时间序列信号。ATR-GAN采用时间正则化Hausdorff距离来衡量数据点间的相似性,并考虑时间效应。该模型嵌入了一个增强过滤层,用于计算真实样本与合成样本之间的相似性,并剔除与真实样本差异较大的合成样本。Zhou等[163]提出了一种分布偏差感知的协同GAN模型,通过协同训练生成与初始数据分布高度相似的合成样本。

一个自编码器(AE)由编码器(En)和解码器(De)组成,其中编码器将输入映射到代码层( C )中的低维潜在空间,解码器则从该代码重建原始输入[图6(a)]:

Sg =De
=De(En( S ))

在训练过程中, S ’s同时作为输入和标签。重建损失(LR)用于计算原始样本( S ’s)与生成样本( Sg ’s)之间的差异,并用于更新编码器和解码器:

重建损失=i=1nSLR(Si,Sg,i)=i=1nSLR(Si,De(En(Si)))

式中,nS 表示训练集的大小。常用的重建损失函数是均方误差。可以通过向编码层添加随机向量( ZS )来生成合成样本[图6(a)]。一旦输入被映射到编码,解码器将尝试从带有噪声的编码中重建输入。这样,每次向模型输入相同的输入时,重建样本都会略有不同。与GAN类似,AE也可以用卷积层构建成卷积AE,或者通过类标签进行条件控制,成为条件AE。变分自编码器(VAE)是一种特殊的AE,它将编码层重新参数化为多变量正态分布,从而构建出一个概率潜在空间[图6(b)]。编码器的输出如下:

CμCσ = En( S )

式中, CμCσ 分别为均值向量和标准差向量,接下来将其重新参数化为编码 C

Ci = Cμ,i + exp( Cσ,i ) ϵfori = 1, 2, 3, …, nC

其中, ϵ ~N (0,1);N表示正态分布;nC 表示编码层的维度。可以计算相对熵[Kullback-Leibler(KL)散度],用于比较潜在分布与标准正态分布之间的差异:

KL(C)=j=1nSi=1nCCμ,i,j2+exp2Cσ,i,j)-2ln(Cσ,i,j)-0.5

将KL散度加入到VAE的损失函数(LVAE)中,使潜在分布逼近标准正态分布:

LVAE=i=1nSLR(Si,Sg,i)+KL(C)

在生成合成样本时,从多变量标准正态分布中采样得到随机向量,作为编码 C,然后将随机向量输入到解码器中以输出 Sg ’s。为了对VAE进行条件控制,一种常见做法是将样本向量与相应的条件向量拼接在一起[图6(b)]。在从编码器获取潜在向量并进行重参数化后,这些潜在向量会再次与相应的条件向量拼接。通过这种方式,解码器学会根据不同条件生成不同类型的样本。在生成合成样本时,可以从多变量标准正态分布中采样随机向量作为潜在向量,并将其与指定的条件向量拼接。拼接后的向量被输入到解码器中以生成 Sg ’s。Yang等[164]使用卷积AE合成了方向舵缺陷图像片段,并将其植入到无缺陷图像中,以增加缺陷类别的样本数量。Li等[158]利用AE数据合成了齿轮故障数据用于故障诊断。Alawieh等[154]使用卷积AE生成了晶圆缺陷图像,以应对晶圆缺陷模式分类中的数据不平衡问题。Yun等[155]构建了条件卷积VAE用于合成金属表面的缺陷图像。Che等[162]训练了一个混合门控循环单元和VAE的混合模型,用于检测滚动轴承故障。

在数据增强中,也有一些利用ML方法的特殊技术。Niu等[168]在金属表面缺陷检测中,基于预训练卷积神经网络阻挡训练图像中的高置信度区域。这一方法平衡了模型对不同区域的关注度,避免了对高置信度区域的过拟合。Yang等[165]构建了一个轴承RUL预测工具,将时序信号通过傅里叶变换转化为频谱图,并使用图模型进行建模,提出了一种基于图的数据增强方法来对训练数据进行过采样。然而,在整个轴承生命周期中,使用增强数据训练的模型,表现有时不如未增强的数据训练出的模型。Peng等[166]通过AE学习嵌入表示,并在潜在空间中应用软布朗偏移方法(soft Brownian offset)来生成新样本,从而合成罕见故障样本。

(4)合成数据评估

目前仅有两篇论文对合成数据的质量进行了评估。Farady等[167]提出了PreAugNet模型,用于研究增强数据的质量。他们训练了一个支持向量机(SVM)来区分增强缺陷图像与原始数据集的分布相似性。但这一方法尚难以严谨地确保合成图像具有多样性并接近现实。Meister等[160]利用条件卷积GAN生成用于纤维铺层缺陷检测的合成图像。为了评估合成图像的多样性与逼真度,研究实施了GAN-train和GAN-test。多样性描述了合成样本的方差;逼真度则描述了合成样本与真实数据的接近程度。

合成数据评估旨在研究真实分布、真实数据和合成数据之间的关系(图7)。获取真实数据是为了捕捉系统的真实分布情况。然而,由于抽样偏差和数据稀缺等多种原因,真实数据集的分布可能与真实分布存在差异。图7中的合成数据是通过数据增强生成的数据点。需要注意的是,合成数据可能继承甚至放大真实数据中的偏差,尤其是在采用基于统计或ML的数据增强方法,并以真实数据作为训练基础的情况下。例如,在训练GAN时可能发生模式坍缩,导致合成数据多样性降低。以真实分布为基准来评估合成数据质量至关重要但又极具挑战。现有的评估方法通常用于验证合成数据是否遵循真实数据集的分布,而真实数据集被视为真实分布的代表。现有的合成验证方法包括但不限于描述性统计、图形表示、ML性能评估、GAN-train/GAN-test验证以及其他定量方法[171]。

通过比较基本描述性统计量(如均值、方差和中位数),可以研究真实数据集和合成数据集在分布上的相似性。描述性统计越相似,说明合成数据越接近真实数据的分布。然而,Anscombe [172]表示,不同的分布可能会产生相同的基本描述性统计。分布的图形表示(如直方图和分位数-分位数图)能以可视化方式提供比基本描述性统计更多的统计细节。各类图形工具包已经广泛支持多种图形表示以可视化数据集。但随着数据维度升高及多重共线性现象加剧,此类图形易引发解读困惑甚至误判。

在使用基于ML的数据增强技术时,ML模型的预测性可以指示两个数据集之间的相似性,如图8(a)[171,173]所示。真实数据集被分为训练集(Dtrain)和测试集(Dtest)。Dtrain被用于训练ML的数据增强模型,从而生成一个合成数据集(Dsyn)。随后,分别用DtrainDsyn训练两个ML模型。Dtest被用来测试这两个模型,并确定其预测性能。如果使用Dsyn训练的模型在Dtest上的预测性能接近使用Dtrain训练的模型,则说明DtrainDsyn相似。然而,此方法基于Dtest能充分代表真实数据分布的前提,如果Dtest太小,这一假设将不成立。此外,超参数的选择也可能显著影响模型的预测性能。

GAN-train和GAN-test是为评估GAN性能而开发的,如图8(b)[173]所示。先将真实数据集划分为DtrainDtest,使用Dtrain训练一个GAN模型,随后生成合成数据集Dsyn。使用Dsyn训练模型#2,再使用Dtest对模型#2进行评估,从而得出GAN-train性能。较高的GAN-train性能表明合成数据集具有较高的多样性和真实性。使用Dtrain训练模型#1,再用Dsyn对模型#1进行评估,从而得出GAN-test性能。若GAN-test性能非常高,说明GAN模型可能过拟合了Dtrain;若GAN-test性能非常低,则说明GAN模型可能未能有效学习Dtrain。与基于性能的评估方法类似,模型超参数的选择可能会显著影响模型的预测性能,从而导致评估结果不稳定。

目前已有多种量化指标用于评估合成数据质量。例如,inception分数[174]、Fréchet inception距离[175]和切片Wasserstein距离[176]可用于评估由GAN生成的合成图像的质量。Alaa等[177]提出了精确率(α-precision)、召回率(β-recall)和真实性(authenticity)三个指标,用于评估合成数据质量。α-precision衡量合成数据的真实性,β-recall衡量合成数据的多样性,而authenticity则用于检验数据增强模型是否对训练数据过拟合。这种综合方法全面评估了合成数据的真实性、多样性和泛化能力。

(5)关于数据增强技术的讨论

在所有数据增强方法中,ROS既简洁又广泛适用所有场景,因此被选为基线方法。ROS迫使学习过程更加关注少数类别,但可能导致对重复样本的过拟合。基于领域知识的方法在缓解偏差方面非常有效,但需要领域专业知识。基于领域知识的方法有助于缓解由环境变化和监测系统限制所引起的偏差,因此,大多数基于领域知识的方法在制造和部署传感系统的状态监测任务中具有很高的适用性。与其他技术相比,基于领域知识的方法不太可能导致对真实数据的过拟合,因其并不是使用真实数据进行训练。上述方法可以通过简单的变换快速生成大量的合成样本。然而,仍存在三个主要问题:

①许多方法并不保留标签。尽管通常假设变换后的样本与原始样本具有相同的标签,但这一假设并非始终成立。此外,除非对合成样本进行实验验证,否则无法证实这一假设的有效性。

②偏差可能被引入数据集中。尽管变换不太可能放大来自真实数据的偏差,但变换过程可能会引入新型偏差。

③随着合成数据数量的增加,训练ML模型的计算成本也会随之增加。并非所有合成数据在任务中都是有意义的,因此,必须谨慎地应用变换,避免生成与任务无关的样本,占用模型的学习容量。

SMOTE是一种灵活的方法,适用于多种数据类型和应用场景。尽管原始的SMOTE仅适用于表格数据,但可经过修改实现对图像、时间序列等其他类型数据的过采样处理。对不同数据类型的典型修改方法是使用AE将数据映射到潜在空间中,此时潜在空间中的数据可以用表格数据表示,并使用常规SMOTE进行过采样。SMOTE可以根据不同应用中的挑战进行修改。例如,borderline-SMOTE仅对分类任务中靠近不同类别边界的样本进行过采样;K-means SMOTE通过先对少数类进行聚类,再对每个聚类进行过采样,从而增强合成数据的多样性。与ROS相比,SMOTE不会偏向于某一个真实样本,因其融合了多个样本生成新数据。然而,合成数据可能会继承真实数据集中的偏差,并最终对其过拟合。SMOTE的另一个缺点是它不会从真实数据的潜在分布中学习,因此与基于ML的方法相比,其生成的合成数据不够逼真。例如,SMOTE在生成少数类样本时不会利用多数类的信息,因其无法从不同的群体中学习。此外,SMOTE在保持标签一致性和计算成本方面也存在问题。

基于ML的方法能够学习真实数据的潜在模式,因此比SMOTE更有可能生成更逼真且多样的样本。这类方法可以根据不同的数据类型进行调整[例如,使用卷积层进行图像增强,使用长短记忆网络(LSTM)层进行时间序列增强],也可以根据特定需求生成指定的合成样本。此外,越来越多先进的基于ML的数据增强模型不断涌现。扩散模型受到非平衡热力学的启发,是当前最先进的图像生成算法直译[178]。扩散过程涉及马尔可夫链,通过多个扩散步骤逐步向原始数据添加高斯噪声。随后,模型学习如何反向执行扩散过程,从噪声中合成样本。扩散模型已应用于计算机视觉[179]和医学影像[180]等领域的数据增强。与ROS相比,基于ML的方法虽然消耗的计算资源更多,但能够生成极其逼真和多样的合成数据。

基于ML的方法尽管功能强大,仍面临多种挑战。所有此类方法的共同局限是容易继承其训练数据集(即真实数据)中的偏差。目前没有任何一种方法能同时具备以下三种理想特性:样本质量高、采样速度快,以及模式覆盖全/多样性好(图9 [181])。GAN能够生成高质量样本并实现快速采样,但通常存在模式覆盖不足的问题,这种现象被称为模式崩溃,即如果训练不充分,GAN只会从一个模式中生成合成样本(即多样性有限),而训练集中可能存在多个模式。此外,由于生成器与判别器之间的对抗特性,GAN的训练过程不稳定。VAE采用变分推断方法进行训练,在输入噪声向量的条件下可以更好地逼近真实数据分布,因此不太容易发生模式崩溃。然而,VAE生成的样本质量通常较低,表现为模糊或泛白[182]。扩散模型能够合成高质量且多样的样本,但其扩散过程通常较为耗时。此外,扩散模型通常需要大量训练数据,这与数据稀缺的现实情况相矛盾。

6.2 新增数据采集

当允许新增数据采集时,就有机会从代表性不足的群体中获取更多样本。计算效率最高的数据采集或标注方式是仅收集足够满足ML任务需求的数据,以避免发生不必要的成本。主动学习是一种成本高效的方法,它通过迭代方式指导数据采集或数据标注过程,从而提升模型性能(图10)[183]。在每一轮迭代中,使用已标注数据集训练ML模型。如果模型未能达到预测性能要求,且指定的计算资源尚未耗尽,则进行自适应采样。此时选择一组样本,以最大限度地提升数据的代表性或模型的性能(图11)。这些样本可以从未标注数据池中或特征空间中选择,具体取决于任务需求。随后,人工标注所选样本,并添加到已标注数据集中,用于下一轮迭代。一些混合方法同时兼顾数据代表性与模型性能的提升[184187]。委员会查询法(query-by-committee)是一种特殊的主动学习方法,它可根据多个模型的性能选择下一批数据[188]。

主动学习可分为查询合成、基于流的选择性采样和基于池的采样[189190]。查询合成从特征空间中任意采样新数据;基于流的选择性采样通常每次从特征空间中采样一个新样本;基于池的采样则从一组已标注数据开始,迭代式从大型未标注数据池中标注新数据。自适应采样可以被视为主动学习的获取函数,用于确定下一批需要采集或标注的数据。自2019年以来,各种自适应采样和主动学习方法已应用于基于ML的设计、制造和状态监测中(表7 [12,63,91,101,183187,191219])。

6.2.1 数据代表性

用于衡量数据代表性的指标有多种,包括数据多样性和覆盖度。多样性指标通常基于成对距离建立[图11(a)]。在每一次迭代中,训练并评估ML模型,判断其是否达到所需的性能要求。如果未达到,则通过自适应采样获取新的样本,以填补特征空间中代表性最弱的区域。例如,Chan等[91]提出了METASET方法,用于从大型超材料形状数据库中筛选无偏子集,此方法可作为主动学习的自适应采样方法。研究中采用DPP对形状空间和属性空间中的多样性进行建模,并共同考虑两个空间来评估子集。使用DPP在给定子集大小(M)和整个形状数据集(DS)大小为N的情况下,选择形状空间中最具多样性的子集的过程如下。相似度矩阵( L )是基于成对距离函数Δ(DS,i, DS,j )定义的,其中DS,iDS,jDS中的两个形状。由于DPP要求输入的相似度矩阵是半正定的,Chan等[91]使用径向基函数核对距离函数进行了转换。

Li,j = exp(-0.5Δ(DS,i, DS,j )) for ∀ i,jN+

使用L-ensemble方法[190],选取任意可能子集M的概率为:

Prob(M)=det(LM)det(L+I)

式中,det(∙)表示矩阵的行列式; I 是大小为N × N的单位矩阵;LM=[Li,j]i,jN+是从相似度矩阵 L 中按照所选索引构成的子矩阵。包含两个不同样本的集合的选取概率与两个样本间的相似度成反比。因此,可以通过最大化P(M)来获得子集中相似度最小(即多样性最高)的组合,这等同于在固定大小的数据集DS上最大化det( LM),因为det( L+I )是常数。根据文献[91]的案例研究,所选子集在样本数量较少的情况下具有高度多样性,从而带来更优的预测性能,还能缩短训练时间。Lee等[63]提出了t-METASET方法,通过迭代方式生成多样的单元格形状,并从已有样本中获取多样化的属性信息。其任务感知功能可引导属性采样朝向目标区域进行。Jang等[12]则训练了一个强化学习(RL)智能体,通过使用基于欧几里得距离的像素差异和基于像素分布的结构差异来奖励拓扑结构的多样性,从而迭代生成多样化的设计。与传统的贪心搜索方法相比,RL智能体方法在轮胎设计的案例研究中平均可多生成5%的设计形状。

数据覆盖度衡量现有数据对特征空间的覆盖程度,如图11(b)所示。Samavatian等[191]提出使用迭代相关驱动网络,通过停留温度和时间预测焊点寿命。将输入特征空间划分为均匀网格,最稀疏的网格即为需采集新样本的代表性不足区域。Wang等[101]设计了一种形状扰动算法,逐步在属性空间中向尚未探索的区域采样新属性。这种算法基于一个假设,即对设计形状的微小扰动会使其属性发生微小变化。在属性空间中,周围设计数量最少的设计会被略微改变,以获得具有相似属性的新设计。上述基于网格和相对数据密度的数据覆盖度测量方法存在显著局限性:①在自然情况下,主体的覆盖范围通常由圆形而非矩形空间定义;②未考虑多个样本的重叠效应;③无法建立数据覆盖度的定量测量指标。Xie等[192]将Asudeh等[96]提出的严格数据覆盖概念引入到数据驱动的负泊松比结构设计中。此概念定义了在连续值特征空间中数据集的覆盖度[图11(b)]。给定数据集E、查询点q、距离函数Δ、邻域值ρ以及覆盖阶数k,数据集Eq的覆盖定义为:

Cov ρ,k (q,E) = true if tE|Δt,qρk false otherwise

这一概念主要检查查询点是否位于数据集E中至少k个数据点(t’s)的qΔ所定义的附近。根据用户定义的Δ、ρk,数据集所覆盖的区域可通过以下方式计算:

Coverage(E) = {q|Cov(q,E) = True}

这一概念可以涵盖任何适用的距离函数,考虑数据点之间的重叠情况,并量化数据覆盖度。

研究人员已提出一些特殊的不涉及多样性或覆盖度的数据代表性度量方法。Zhang等[193]利用信息熵选择最具代表性的材料数据用于主动学习。Lin等[194]基于K-means聚类使用K-medoids聚类方法,选择一组能够代表整个数据集的样本。将其应用于带有主动学习的光刻建模时,K-medoids聚类可将达到满意性能所需的标注数据量减少至原数据量的1/10~1/3。Shao等[195]提出了一种基于图采样的主动学习方法,用于光刻异常检测。这一方法首先用基于从AE模型中提取的潜在变量建立一个KNN图,随后设计一个随机游走算法在图中随机探索。节点的采样优先级由其总访问次数决定。

6.2.2 模型性能

模型性能可通过预测误差或不确定性进行评估。当使用预测误差指导数据采集时,预测误差最大的区域被定义为为感兴趣区域(ROI),如图11(c)所示。Kapusuzoglu等[183]提出了一种面向结构优化中高维时空问题的自适应替代建模方法,并基于平均绝对预测误差设计了一种兼具探索与开发利用能力的自适应采样技术。Zhang等[208]提出了一种结合K-means聚类、KNN和最大曲率的替代模型自适应采样技术。测试集首先通过K-means聚类和KNN划分为若干子群,预测误差总和最高的子群作为ROI,然后依据最大曲率从ROI中选取一组点生成新样本。Sun等[202]提出了基于bootstrap的自适应优化方法,通过子群预测误差进行自适应采样,以确定最优硬件配置设计。在初始数据采集阶段,采用批量推断式实验设计,通过最大化组内距离来选择多样性最优的配置子集。Wang等[200]还将基于预测误差的自适应采样应用于电磁设计替代建模改进;Li等[215]将其用于AM质量预测,Kolesnikov等[212]将其应用于防护涂层设计。

不确定性度量(如预测概率的熵)也广泛应用于主动学习中。根据不确定性估计函数,在不确定性较高的区域周围采集新的样本,如图11(d)所示。Xiao等[187]提出了一种预测不确定性度量方法,用于自适应采样新数据并迭代训练分类模型,预测电路设计中是否会出现热点。此不确定性度量通过评估测试点到SVM超平面的距离来实现。由于模型对接近超平面的样本不确定,因此优先选择新样本。作为对Xiao等[187]的扩展,Yang等[184]将上述不确定性度量与一种称为基于聚类的布局模式采样的多样性度量相结合。Farrokh和Fallah [217]在主动学习辅助的颤振失稳边界预测中,采用了与Xiao等[187]相同的基于SVM的不确定性表征方法。Zhu等[213]提出了一种基于贝叶斯神经网络(BNN)的机械故障预测模型,其通过捕捉预测分布的方差预测不确定性,并用于指导主动学习。Hughes等[211]在结构健康监测中,以及Wan等[214]在加工操作优化中,均采用期望信息量来衡量主动学习的不确定性。高斯过程(GP)回归模型具有不确定性度量功能,因此被广泛用作各种设计优化中的替代模型,并可用于指导自适应采样[58]。GP自适应采样还被应用于Xu等[209]的霍尔效应传感器设计、Liu等[210]的功能梯度蜂窝结构设计、Sarkar等[197]的压缩机转子设计、Luo等[218]的转子风扇空气动力学设计,以及Yue等[201]的机身控制。文献[185186]将不确定性度量与随机采样相结合,同时考虑数据代表性与模型不确定性。Cui和Ghosn [198]、Shim等[199]以及Verduzco等[204]分别在结构可靠性分析、晶圆图案分类和电池材料设计的案例研究中比较了多种不确定性度量方法,如最小置信度、最小间隔和最大不确定性。Botcha等[203]以及Cheng和Jin [205]采用了委员会查询法,即训练多个ML模型并计算预测方差来表征预测不确定性。上述研究大多聚焦于正向建模(如从设计形状到性能属性)中的预测不确定性度量。Xie等[220]开发了一种用于测量混合密度网络(MDN)预测不确定性的委员会查询法,这是一种逆向建模算法。这种方法训练多个MDN模型并比较预测结果,以测量输入的预测不确定性。结合数据覆盖,这种主动学习方法可以高效提升数据覆盖度,能以更少的新样本探索特征空间。因此,MDN模型的性能会随着样本数量的增加而快速提升。

主动优化是一种将主动学习与设计优化相结合的特殊情况,其通过迭代训练替代模型,直到模型在最优解处的预测结果与仿真结果足够接近为止[206207]。在每次迭代中,替代模型会快速定位可能包含全局最优解的区域,并将这些区域作为ROI。随后,自适应采样会在这些ROI内采集更多数据,以提升模型在ROI的预测性能。主动优化并非减少数据不平衡,而是主动在数据集中引入偏差,这带来了在优化初期,替代模型可能对最优设计估计不准确,从而误导后续的自适应采样的风险。需要注意的是,文献[206207]中的主动优化不同于其他兼顾探索与开发的设计优化方法(如贝叶斯优化)。结合主动学习后,主动优化法更加侧重开发,以加快优化过程。

6.2.3 主动学习技术讨论

采集新增数据的基线方法是随机采样,但这种方法效率不高,因为部分随机样本可能已经被现有数据集覆盖。在利用数据代表性进行自适应采样时,假设特征空间覆盖得越充分,数据集所包含的信息就越多,ML模型的性能也会越好。因此,利用数据代表性进行自适应采样是一种间接提升ML性能的方式。多样性度量应用广泛,因其可以引入欧几里得距离和曼哈顿距离等距离度量方法来应对不同场景(如不同数据类型)。与Asudeh等[96]定义的数据覆盖概念相比,多样性度量通常更快,因为它不需要计算已覆盖空间的面积或体积。

数据覆盖是一种新近发展的度量方法,仅直接兼容表格型数据。当其他数据类型被映射到潜在空间后,也可以使用数据覆盖分析。数据覆盖可以通过用户自定义的Δρk来适配不同场景。此外,数据覆盖可以被量化和可视化,以辅助开展自适应采样。然而,计算已覆盖空间的成本较高,因为不同样本的覆盖区域可能存在重叠。因此,有研究提出了基于Voronoi图的方法和覆盖近似方法来降低计算成本[96]。

尽管基于预测误差的自适应采样适用于所有类型的ML模型,但它对测试集有一个关键前提要求,即测试集必须具有足够的代表性,以确保采样过程能够覆盖特征空间中的所有区域。若某些区域未被测试集覆盖,则这些区域将不会被采样。在数据稀缺普遍存在的ML设计与制造场景中,这种方法存在显著局限性。基于不确定性的自适应采样方法功能强大且使用频率较高,它能够直接识别并采样模型不确定性最高的区域中的样本。此方法兼容大多数分类模型,但回归模型必须具备建模不确定性的能力(如GP和贝叶斯神经网络)才能实现基于不确定性的自适应采样。委员会查询法可以解除对回归模型的上述限制,但因为需要训练多个模型,会显著增加计算成本。

与随机采样相比,本文所述的所有方法都能避免采集已被覆盖或对模型性能提升无贡献的新样本。基于数据代表性的自适应采样适用性较广,因为它不依赖于特定类型的ML模型。其下一批样本的选择仅取决于数据集本身,ML模型仅用于判断何时终止主动学习。在模型性能提升方面,基于数据代表性的自适应采样可能不如基于模型性能的采样有效,因为后者能直接定位模型最需要的样本。然而,基于模型性能的自适应采样只聚焦于缓解数据稀缺问题,而基于数据代表性的采样同时解决数据不平衡与数据稀缺两大问题。未来,需要进一步提升各种自适应采样方法的适用性,使其能够兼容不同数据类型及混合变量场景。

7 讨论

本节针对本领域中关于DQA、数据增强和主动学习的最新文献,从现状、趋势和挑战三个方面进行讨论,以回答RQ6。

7.1 研究现状与趋势

文献汇总见表4表6表7,按发表年份排序如图12所示。自2019年起,DQA、数据增强和主动学习开始受到研究人员的关注。总体来看,2019—2023年5月期间,相关文献数量快速增长,表明基于ML的设计与制造领域对数据质量测量与提升的重视程度日益增长。报道DQA流程的文献数量从每年1篇增至5篇,增速相对较慢。然而,DQA已成为基于ML建模的标准流程,大多数相关研究虽已采用DQA但并未专门报道。本文中纳入的DQA文献主要讨论针对设计与制造特定研究领域开发的DQA流程,仅占所有进行DQA研究的小部分。报道数据增强的文献增速最快,从每年2篇增至19篇。数据增强广泛应用在基于ML的设计与制造中,尤其是在数据不平衡和稀缺问题较为突出的场景下。数据增强促进了ML的部署并提升了许多数据稀缺任务的模型性能(表6)。同样,也有其他实施了数据增强但并未作报道的研究。在上述三大类别中,2019年关于自适应采样和主动学习的文献数量最多,但其增长速度较慢,2022年仅有10篇相关文献。由于主动学习需要新增数据采集作为前提,其应用范围不如数据增强广泛,因此故障与缺陷检测中的数据不平衡等问题无法通过主动学习解决。然而,2023年1月至5月期间已有10篇文献应用主动学习,表明这一方向的研究在2023年呈快速增长态势。

图13显示了本文所述文献在设计、制造和状态监测方面的组成情况。对于DQA,大多数文献集中于制造和生产数据质量,涉及多个系统和利益相关者。研究人员针对多个制造阶段提出了DQA流程,如过程监测[78]和生产计划[79]。只有2篇和3篇论文分别研究了设计和状态监测中的DQA。数据增强技术由于其广泛的适用性,在所有三个类别中都经常出现。这些技术在基于ML的制造和状态监测的文献中出现的频率更高,因为对于缺陷和故障样品而言,通常无法选择新增数据采集,因此数据增强技术成为最佳选择。相比之下,基于ML的设计在主动学习相关的文献中占比超过60%,因为仿真通常是主要的数据来源,且能够生成更多设计样本。与主动学习相关的制造和状态监测论文分别只有6篇和8篇。大多数论文采用基于池的采样方法,有选择地标注现有输入数据,而非生成新数据。

图14将所调研的文献按照原始数据类型进行分类,包括表格数据、图像数据、时序数据和三维数据。图像数据增强相关的论文占比超过60%。减少偏差已成为图像数据采集过程中的常见做法[221]。关于表格数据的数据增强,有6篇论文采用了GAN和SMOTE方法。应用于时序数据的数据增强方法通常涉及信号处理技术或先将数据转换为表格数据。针对三维数据的数据增强仅在3篇论文中出现,且涉及大量领域知识。关于主动学习,表格数据和图像数据可见于大多数调研论文,因为大多数基于ML的设计任务使用表格或图像数据来表征设计方案。此外,基于池的主动学习在基于ML的制造中通常涉及过程监控图像数据。时序数据不适合池式采样,且大多来源于状态监测论文,在这些论文中合成数据较为困难。有3篇论文将时序数据转换为表格数据以进行主动学习。仅有1篇论文实现了基于三维数据的主动学习,因为大多数基于ML的设计研究仍集中于图像数据。

本文调研的数据增强和主动学习技术文献构成如图15所示。51篇实施数据增强技术的论文中,有29篇受领域知识(如图像分析、信号处理和工程领域专业知识)的启发。近一半的数据增强相关论文使用基于ML的数据增强来生成合成数据,包括GAN和AE。统计型数据增强在基于ML的设计与制造领域关注度最低,仅见于12%的数据增强论文。有7篇论文述及了不止一种数据增强技术,但这些不同的技术按顺序述及,以相互补充,并非作为一种技术整合在一起。在主动学习方面,预测误差和不确定性等模型性能是最常用的采样技术,在相关论文中占比超过70%,主要是因为模型性能类技术比数据代表性更直接,无需构建多样性或覆盖率度量。多样性度量是评估数据代表性的主流技术,在各类数据代表性度量方法中占比超过80%。这是因为多样性度量更灵活,且更容易集成到ML流程中[91]。只有3篇论文采用了基于覆盖率的度量。另有3篇论文结合了不确定性和多样性度量来指导主动学习,并建立了自适应机制调整这两种度量的影响权重,从而在探索与利用之间进行权衡。

7.2 挑战与未来方向

综上所述,已有大量研究工作围绕基于ML的设计与制造中的数据挑战展开。然而,在设计与制造数据集的DQA、数据增强和主动学习方面,仍然存在挑战,这也意味着存在潜在的研究机会。下文将讨论了这些挑战与机遇。

7.2.1 时间序列与三维数据的数据增强

尽管大部分数据增强方法与表格数据和图像数据兼容,但仍然缺少针对时间序列数据和三维数据的增强技术。现有的时间序列与三维数据方法非常依赖领域知识,其变换步骤需要人工选择并执行。时间序列数据在进行基于ML的数据增强前,必须先预处理为表格数据。然而,大多数数据增强技术在合成时间序列数据时并未考虑其固有的时序相关性。尽管GAN和AE可用于合成三维数据,但计算成本较高。因此,亟须开发一种能在考虑三维空间关系的同时,以较低的计算成本增强三维数据的方法。

7.2.2 先进数据增强方法

尽管GAN和AE在数据合成方面展现了卓越的能力,但更先进的ML模型仍在不断涌现,并已在其他领域中用于数据增强。例如,一种名为VAE-GAN的混合模型结合了VAE和GAN的优点,可生成逼真且多样化的合成数据[222]。在基于ML的设计中,扩散模型已被用于生成理想的设计方案。然而,目前尚无工作在本文所述领域中使用扩散模型进行数据增强。应将更多先进的数据增强模型引入基于ML的设计与制造,以提升合成数据的质量。

7.2.3 合成数据的验证

本文所调研的所有关于实现数据增强的论文均通过案例研究中模型性能的提升展示了方法的有效性,然而,论文中普遍缺乏对合成数据质量的评估。合成数据的评估包括真实性与多样性两个方面。即使合成数据与真实数据的接近度不足,模型的测试性能也可能会提高(如测试集较小时)。此外,缺乏多样性的合成数据会导致数据集出现偏差,仅能代表真实数据总体的一部分。真实性和多样性这两个标准可以提升数据合成及上述数据增强技术的可信度。此外,需要数据增强的任务通常存在数据稀缺的问题,因此必须为其开发合适的验证方法。

7.2.4 生成模型的主动学习

在所调研的论文中,主动学习在本文所述领域不仅可以减少高达80%的数据量,还能保持与全量数据训练相似的模型性能。然而,这些论文全部聚焦于利用主动学习构建一对一关系的正向预测模型。主动学习尚未被开发或应用于构建描述逆向和一对多关系的生成模型。例如,在设计中,可根据目标属性生成多个形状;在制造过程中,可以选择多组控制参数来实现相同的结果[223]。这种逆向关系比正向的一对一关系复杂得多。当前的主动学习方法(包括基于数据代表性和模型性能的自适应采样)均无法处理生成模型。然而,诸如生成式设计等生成任务正日益受到广泛关注[105,149]。因此,必须开发适用于生成模型的主动学习方法。

7.2.5 从零开始的自适应数据获取

随着数据驱动的设计与制造日益普及,需要获取和标注的数据量迅速增加。这些不断增多的数据获取工作会产生资源消耗,如果缺乏高效策略,还将导致成本较高。因此,需要从项目开始就监控并引导数据获取的先进流程。这类流程必须执行DQA,以确保获取高质量的数据,从而可用于建模任务。DQA的设计应根据任务特定的数据特征(如数据类型、格式、结构及用途)进行定制。同时,还必须引入先进的采样与主动学习方法,以减少数据获取的工作量。这样,就能以最少的资源消耗实现模型性能达标。

8 结论

在设计与制造领域利用ML日益流行。数据可用性是多数工业应用中的主要挑战与限制因素。本文回顾了基于ML驱动设计和制造中评估与提升数据质量的方法,并提出了6个研究子问题来指导综述内容。本文首先通过回顾与ML建模相关的数据术语,建立了工业数据质量的研究背景。接着,明确了数据挑战的根本原因与类型,包括人为因素、复杂系统、复杂关系、数据质量不足、数据异构、数据不平衡以及数据稀缺等。

本文重点关注数据质量与数据不平衡问题。研究了数据质量的概念以及数据不平衡的根本原因,讨论了数据质量、数据就绪与InfoQ的定义、指标与框架。随后,从设计与制造中的偏差角度分析了数据不平衡问题,并介绍了公平性与多样性等衡量与评估表示偏差的指标。接着,系统回顾了提升数据质量与缓解数据不平衡的方法,重点分析了数据增强与主动学习,并探讨了它们在设计与制造中的应用。本文从优势、局限性与适用性方面对不同方法进行比较。在讨论部分,本文还从年度发文量、应用领域、数据类型、技术方法等角度,分析了所调研技术的现状与趋势。

本文全面介绍了基于机器学习的设计与制造中的数据质量,包括相关术语、挑战、概念与应用,展示了数据质量提升与偏差缓解技术的最新进展。本文存在两方面局限性:第一,本文聚焦于与ML建模相关的数据质量,而与其他主题相关的数据质量问题(如数据治理与数据异构)同样是工业数字化进程中的重要障碍。然而,工业数字化中的数据质量研究范畴极为庞大,本文只能涵盖其中的一个方面。第二,本文仅调研了改善数据集的方法,未涵盖在ML过程中更多可应对数据挑战的方法。例如,重加权技术可在计算损失时为代表性不足的类别分配更高权重,从而促使模型更关注少数类别;迁移学习从相似数据集迁移知识,来缓解数据稀缺问题。由于本文聚焦于数据质量,因此未涵盖这些学习方法。

参考文献

[1]

Kumar P, Bhamu J, Sangwan KS. Analysis of barriers to Industry 4.0 adoption in manufacturing organizations: an ISM approach. Procedia CIRP 2021;98:85‒90. . 10.1016/j.procir.2021.01.010

[2]

Silva N, Barros J, Santos MY, Costa C, Cortez P, Carvalho MS, et al. Advancing logistics 4.0 with the implementation of a big data warehouse: a demonstration case for the automotive industry. Electronics 2021;10 (18):2221. . 10.3390/electronics10182221

[3]

Carvalho TP, Soares FA, Vita R, Francisco RP, Basto JP, Alcalá SG. A systematic literature review of machine learning methods applied to predictive maintenance. Comput Ind Eng 2019;137:106024. . 10.1016/j.cie.2019.106024

[4]

Wilhelm Y, Reimann P, Gauchel W, Mitschang B. Overview on hybrid approaches to fault detection and diagnosis: combining data-driven, physics-based and knowledge-based models. Procedia CIRP 2021;99:278‒83. . 10.1016/j.procir.2021.03.041

[5]

Fentaye AD, Baheta AT, Gilani SI, Kyprianidis KG. A review on gas turbine gas-path diagnostics: state-of-the-art methods, challenges and opportunities. Aerospace 2019;6(7):83. . 10.3390/aerospace6070083

[6]

Fan CM, Lu YP. A Bayesian framework to integrate knowledge-based and data-driven inference tools for reliable yield diagnoses. In: Proceedings of the 2008 Winter Simulation Conference; 2008 Dec 7‒10; Miami, FL, USA. Piscataway: IEEE; 2008. p. 2323‒9. . 10.1109/wsc.2008.4736337

[7]

Xie J, Sage M, Zhao YF. Feature selection and feature learning in machine learning applications for gas turbines: a review. Eng Appl Artif Intl 2023;117:105591. . 10.1016/j.engappai.2022.105591

[8]

Goodfellow I, Bengio Y, Courville A. Deep learning. Natrue 2015;521:436‒44. . 10.1038/nature14539

[9]

Liu D, Wang Y. Multi-fidelity physics-constrained neural network and its application in materials modeling. J Mech Des 2019;141(12):121403. . 10.1115/1.4044400

[10]

Kotsiopoulos T, Sarigiannidis P, Ioannidis D, Tzovaras D. Machine learning and deep learning in smart manufacturing: the smart grid paradigm. Comput Sci Rev 2021;40:100341. . 10.1016/j.cosrev.2020.100341

[11]

Wu J, Qian X, Wang MY. Advances in generative design. Comput Aided Des 2019;116:102733. . 10.1016/j.cad.2019.102733

[12]

Jang S, Yoo S, Kang N. Generative design by reinforcement learning: enhancing the diversity of topology optimization designs. Comput Aided Des 2022;146:103225. . 10.1016/j.cad.2022.103225

[13]

Zhang C, Xie J, Shanian A, Kibsey M, Zhao YF. A hybrid deep learning approach for the design of 2D low porosity auxetic metamaterials. Eng Appl Artif Intell 2023;123:106413. . 10.1016/j.engappai.2023.106413

[14]

Xu H, Liu R, Choudhary A, Chen W. A machine learning-based design representation method for designing heterogeneous microstructures. J Mech Des 2015;137(5):051403. . 10.1115/1.4029768

[15]

Ling C, Kuo W, Xie M. An overview of adaptive-surrogate-model-assisted methods for reliability-based design optimization. IEEE Trans Reliab 2023;72 (3):1243‒64. . 10.1109/tr.2022.3200137

[16]

Zhang C, Ridard A, Kibsey M, Zhao YF. Variant design generation and machine learning aided deformation prediction for auxetic metamaterials. Mech Mater 2023;181:104642. . 10.1016/j.mechmat.2023.104642

[17]

Edwards K. Design for manufacturing: a structured approach. Mater Des 2003;24:157‒8. . 10.1016/s0261-3069(02)00108-5

[18]

Xie J, Saluja A, Rahimizadeh A, Fayazbakhsh K. Development of automated feature extraction and convolutional neural network optimization for real-time warping monitoring in 3D printing. Int J Comput Integr Manuf 2022;5 (8):813‒30. . 10.1080/0951192x.2022.2025621

[19]

Zhang Y, Safdar M, Xie J, Li J, Sage M, Zhao YF. A systematic review on data of additive manufacturing for machine learning applications: the data quality, type, preprocessing, and management. J Intell Manuf 2022;34:3305‒40. . 10.1007/s10845-022-02017-9

[20]

Yang M, Liu J. In situ monitoring of corrosion under insulation using electrochemical and mass loss measurements. Int J Corrosion 2022;2022:6681008. . 10.1155/2022/6681008

[21]

Yang S, Page T, Zhang Y, Zhao YF. Towards an automated decision support system for the identification of additive manufacturing part candidates. J Intell Manuf 2020;31(8):1917‒33. . 10.1007/s10845-020-01545-6

[22]

Saluja A, Xie J, Fayazbakhsh K. A closed-loop in-process warping detection system for fused filament fabrication using convolutional neural networks. J Manuf Process 2020;58:407‒15. . 10.1016/j.jmapro.2020.08.036

[23]

Yang M, Keshavarz MK, Vlasea M, Molavi-Kakhki A, Laher M. Supersolidus liquid phase sintering of water-atomized low-alloy steel in binder jetting additive manufacturing. Heliyon 2023;9(3):e13882. . 10.1016/j.heliyon.2023.e13882

[24]

Chuo YS, Lee JW, Mun CH, Noh IW, Rezvani S, Kim DC, et al. Artificial intelligence enabled smart machining and machine tools. J Mech Sci Technol 2022;36(1):1‒23. . 10.1007/s12206-021-1201-0

[25]

Xu J, Kovatsch M, Mattern D, Mazza F, Harasic M, Paschke A, et al. A review on AI for smart manufacturing: deep learning challenges and solutions. Appl Sci 2022;12(16):8239. . 10.3390/app12168239

[26]

Ito A, Hagström M, Bokrantz J, Skoogh A, Nawcki M, Gandhi K, et al. Improved root cause analysis supporting resilient production systems. J Manuf Syst 2022;64:468‒78. . 10.1016/j.jmsy.2022.07.015

[27]

Hagemann S, Sünnetcioglu A, Stark R. Hybrid artificial intelligence system for the design of highly-automated production systems. Procedia Manuf 2019;28:160‒6. . 10.1016/j.promfg.2018.12.026

[28]

Apostolidis A, Pelt M, Stamoulis KP. Aviation data analytics in MRO operations: prospects and pitfalls. In: Proceedings of the 2020 Annual Reliability and Maintainability Symposium (RAMS); 2020 Jan 27‒30; Palm Springs, CA, USA. Piscataway: IEEE; 2020. p. 1‒7. . 10.1109/rams48030.2020.9153694

[29]

Williams G, Meisel NA, Simpson TW, McComb C. Design for artificial intelligence: proposing a conceptual framework grounded in data wrangling. J Comput Inf Sci Eng 2022;22(6):060903. . 10.1115/1.4055854

[30]

Ehrlinger L, Wöß W. A survey of data quality measurement and monitoring tools. Front Big Data 2022;5:850611. . 10.3389/fdata.2022.850611

[31]

Chandran DR, Gupta V. A short review of the literature on automatic data quality. J Compu Commun 2022;10(5):55‒73. . 10.4236/jcc.2022.105004

[32]

Kamm S, Veekati SS, Müller T, Jazdi N, Weyrich M. A survey on machine learning based analysis of heterogeneous data in industrial automation. Comput Ind 2023;149:103930. . 10.1016/j.compind.2023.103930

[33]

Lee D, Chen W, Wang L, Chan Y, Chen W. Data-driven design for metamaterials and multiscale systems: a review. Adv Mater 2023;36(8):2305254. . 10.1002/adma.202305254

[34]

Kirianaki NV, Yurish SY, Shpak NO, Deynega VP. Data acquisition and signal processing for smart sensors. Hoboken: Wiley; 2002. . 10.1002/0470846100

[35]

Schmetz A, Lee TH, Zontar D, Brecher C. The time synchronization problem in data-intense manufacturing. Procedia CIRP 2022;107:827‒32. . 10.1016/j.procir.2022.05.070

[36]

Wilkinson MD, Dumontier M, Aalbersberg IJ, Appleton J, Axton M, Baak A, et al. The FAIR guiding principles for scientific data management and stewardship. Sci Data 2016;3(1):160018. . 10.1038/sdata.2016.18

[37]

Simmhan Y, Plale B, Gannon D. A survey of data provenance techniques [dissertation]. Bloomington: Indiana University; 2005. . 10.1145/1084805.1084812

[38]

Askham N, Cook D, Doyle M, Fereday H, Gibson M, Landbeck U, et al. The six primary dimensions for data quality assessment. Report. Olympia: Washington State Board for Community and Technical Colleges. 2013.

[39]

Lawrence ND. Data readiness levels. 2017. arXiv:

[40]

Kenett RS, Shmueli G. Information quality: the potential of data and analytics to generate knowledge. Hoboken: Wiley; 2017. . 10.1002/9781118890622

[41]

Gebru T, Morgenstern J, Vecchione B, Vaughan JW, Wallach H, Iii HD, et al. Datasheets for datasets. Commun ACM 2021;64(12):86‒92. . 10.1145/3458723

[42]

Bender EM, Friedman B. Data statements for natural language processing: toward mitigating system bias and enabling better science. Trans Assoc Comput Linguist 2018;6:587‒604. . 10.1162/tacl_a_00041

[43]

Arnold M, Bellamy RKE, Hind M, Houde S, Mehta S, Mojsilović A, et al. FactSheets: increasing trust in AI services through supplier’s declarations of conformity. IBM J Res Dev 2019;63:6:1‒13. . 10.1147/jrd.2019.2942288

[44]

Holland S, Hosny A, Newman S, Joseph J, Chmielinski K. The dataset nutrition label: a framework to drive higher data quality standards. 2018. arXiv:

[45]

Alhassan I, Sammon D, Daly M. Data governance activities: an analysis of the literature. J Decis Systems 2016;25:64‒75. . 10.1080/12460125.2016.1187397

[46]

Lismont J, Vanthienen J, Baesens B, Lemahieu W. Defining analytics maturity indicators: a survey approach. Int J Inf Manage 2017;37(3):114‒24. . 10.1016/j.ijinfomgt.2016.12.003

[47]

Gökalp MO, Gökalp E, Kayabay K, Koçyiğit A, Eren PE. Data-driven manufacturing: an assessment model for data science maturity. J Manuf Syst 2021;60:527‒46. . 10.1016/j.jmsy.2021.07.011

[48]

Rosenbaum S. Data governance and stewardship: designing data stewardship entities and advancing data access. Health Serv Res 2010;45:1442‒55. . 10.1111/j.1475-6773.2010.01140.x

[49]

Endel F, Piringer H. Data wrangling: making data useful again. IFAC-PapersOnLine 2015;48(1):111‒2. . 10.1016/j.ifacol.2015.05.197

[50]

Meng T, Jing X, Yan Z, Pedrycz W. A survey on machine learning for data fusion. Inform Fusion 2020;57:115‒29. . 10.1016/j.inffus.2019.12.001

[51]

Ali H, Salleh M, Saedudin R, Hussain K, Mushtaq M. Imbalance class problems in data mining: a review. Indonesian J Electr Eng Comput Sci 2019;14(3):1552‒63. . 10.11591/ijeecs.v14.i3.pp1552-1563

[52]

Mehrabi N, Morstatter F, Saxena N, Lerman K, Galstyan A. A survey on bias and fairness in machine learning. ACM Comput Surv 2021;54(6):1‒35. . 10.1145/3457607

[53]

Safdar M, Lamouche G, Paul PP, Wood G, Zhao YF. Feature engineering in additive manufacturing. In: Safdar M, Lamouche G, Paul PP, Wood G, Zhao Y, editors. Engineering of additive manufacturing features for data-driven solutions: sources, techniques, pipelines, and applications. Cham: Springer; 2023. p. 17‒43. . 10.1007/978-3-031-32154-2_2

[54]

Kim J, Yang Z, Ko H, Cho H, Lu Y. Deep learning-based data registration of melt-pool-monitoring images for laser powder bed fusion additive manufacturing. J Manuf Syst 2023;68:117‒29. . 10.1016/j.jmsy.2023.03.006

[55]

Shahbazi N, Lin Y, Asudeh A, Jagadish H. A survey on techniques for identifying and resolving representation bias in data. 2022. arXiv:10.1145/3588433

[56]

Mitchell M, Wu S, Zaldivar A, Barnes P, Vasserman L. Hutchinson B,et al. Model cards for model reporting. In: Proceedings of the FAT* ’19: Conference on Fairness, Accountability, and Transparency; 2019 Jan 29‒31; Atlanta, GA, USA. New York City: Association for Computing Machinery; 2019. p. 220‒9. . 10.1145/3287560.3287596

[57]

Zaccaria V, Rahman M, Aslanidou I, Kyprianidis K. A review of information fusion methods for gas turbine diagnostics. Sustainability 2019;11(22):6202. . 10.3390/su11226202

[58]

Tan YT, Kunapareddy A, Kobilarov M. Gaussian process adaptive sampling using the cross-entropy method for environmental sensing and monitoring. In: Proceedings of the 2018 IEEE International Conference on Robotics and Automation (ICRA); 2018 May 21‒25; Brisbane, QLD, Australia: Piscataway: IEEE; 2018. p. 6220‒7. . 10.1109/icra.2018.8460821

[59]

Ngoc N, Lasa G, Lriarte L. Human-centred design in Industry 4.0: case study review and opportunities for future research. J Intell Manuf 2022;33 (1):35‒76. . 10.1007/s10845-021-01796-x

[60]

Robert M, Giuliani P, Gurau C. Implementing Industry 4.0 real-time performance management systems: the case of schneider electric. Prod Plan Control 2022;33(2‒3):244‒60.

[61]

Leon-Urrutia M, Taibi D, Pospelova V, Splendore S, Urbsiene L, Marjanovic U. Data literacy: an essential skill for the industry. In: Lalic B, Gracanin D, Tasic N, Simeunović N, editors. Proceedings on 18th International Conference on Industrial Systems‒IS’20. Cham: Springer; 2022. p. 326‒31. . 10.1007/978-3-030-97947-8_43

[62]

Verleysen M, François D. The curse of dimensionality in data mining and time series prediction. In: Cabestany J, Prieto A, Sandoval F, editors. Computational intelligence and bioinspired systems. Berlin: Springer; 2005. p. 758‒70. . 10.1007/11494669_93

[63]

Lee D, Chan Y, Chen W, Wang L, Chen W. T-METASET: task-aware generation of metamaterial datasets by diversity-based active learning. 2022. arXiv:10.1115/detc2022-87653

[64]

Volponi AJ. Gas turbine engine health management: past, present, and future trends. J Eng Gas Turbines Power 2014;136(5):051201. . 10.1115/1.4026126

[65]

Wang RY. A product perspective on total data quality management. Commun ACM 1998;41(2):58‒65. . 10.1145/269012.269022

[66]

Günther LC, Colangelo E, Wiendahl HH, Bauer C. Data quality assessment for improved decision-making: a methodology for small and medium-sized enterprises. Procedia Manuf 2019;29:583‒91. . 10.1016/j.promfg.2019.02.114

[67]

Wiemer H, Dementyev A, Ihlenfeldt S. A holistic quality assurance approach for machine learning applications in cyber-physical production systems. Appl Sci 2021;11(20):9590. . 10.3390/app11209590

[68]

Liewald M, Bergs T, Groche P, Behrens BA, Briesenick D, Müller M, et al. Perspectives on data-driven models and its potentials in metal forming and blanking technologies. Prod Eng 2022;16(5):607‒25. . 10.1007/s11740-022-01115-0

[69]

Schelter S, Lange D, Schmidt P, Celikel M, Biessmann F, Grafberger A. Automating large-scale data quality verification. Proc VLDB Endow 2018;11(12):1781‒94. . 10.14778/3229863.3229867

[70]

Byabazaire J, O’Hare GMP, Delaney DT. End-to-end data quality assessment using trust for data shared IoT deployments. IEEE Sens J 2022;22 (20):19995‒20009. . 10.1109/jsen.2022.3203853

[71]

Zacarias AGV, Reimann P, Mitschang B. A framework to guide the selection and configuration of machine-learning-based data analytics solutions in manufacturing. Procedia CIRP 2018;72:153‒8. . 10.1016/j.procir.2018.03.215

[72]

Frye M, Schmitt, Robert H. Structured data preparation pipeline for machine learning-applications inpro-duction. In: Proceedings of the 17th IMEKO TC 10 and ConferenceEUROLABVirtual; 2020 Oct 20‒22; Aachen, Germany. London: IMEKO; 2020. p. 241‒6.

[73]

Malik S, Rouf R, Mazur K, Kontsos A. The Industry Internet of Things (IIoT) as a methodology for autonomous diagnostics in aerospace structural health monitoring. Aerospace 2020;7(5):64. . 10.3390/aerospace7050064

[74]

Bekar ET, Nyqvist P, Skoogh A. An intelligent approach for data pre-processing and analysis in predictive maintenance with an industrial case study. Adv Mech Eng 2020;12(5):1‒14. . 10.1177/1687814020919207

[75]

Frye M, Gyulai D, Bergmann J, Schmitt RH. Production rescheduling through product quality prediction. Procedia Manuf 2021;54:142‒7. . 10.1016/j.promfg.2021.07.022

[76]

Chen Q, Liu Y, Hou S, Duan F, Cai Z. Data-driven methodology for state detection of gearbox in PHM context. In: Proceedings of the 2021 Global Reliability and Prognostics and Health Management (PHM-Nanjing); 2021 Oct 15‒17; Nanjing, China. Piscataway: IEEE; 2021. p. 1‒6. . 10.1109/phm-nanjing52125.2021.9612946

[77]

Xie Q, Suvarna M, Li J, Zhu X, Cai J, Wang X. Online prediction of mechanical properties of hot rolled steel plate using machine learning. Mater Des 2021;197:109201. . 10.1016/j.matdes.2020.109201

[78]

Guo S, Wang D, Feng Z, Guo W. UIR‒NET: object detection in infrared imaging of thermomechanical processes in automotive manufacturing. IEEE Trans Autom Sci Eng 2022;19(4):3276‒87. . 10.1109/tase.2021.3116040

[79]

Iantovics LB, Enăchescu C. Method for data quality assessment of synthetic industrial data. Sensors 2022;22(4):1608. . 10.3390/s22041608

[80]

Segreto T, Teti R. Data quality evaluation for smart multi-sensor process monitoring using data fusion and machine learning algorithms. Prod Eng 2022;19:197‒210. . 10.1007/s11740-022-01155-6

[81]

Klaproth T, Hornung M. Off-design mission performance prediction for unmanned aerial vehicles based on machine learning. In: Proceedings of the 2022 IEEE Aerospace Conference (AERO); 2022 Mar 5‒12; SkyBig, MT, USA. Piscataway: IEEE; 2022. p. 1‒13. . 10.1109/aero53065.2022.9843480

[82]

Sen S, Husom EJ, Goknil A, Politaki D, Tverdal S, Nguyen P, et al. Virtual sensors for erroneous data repair in manufacturing a machine learning pipeline. Comput Ind 2023;149:103917. . 10.1016/j.compind.2023.103917

[83]

Lee YW, Strong DM, Kahn BK, Wang RY. AIMQ: a methodology for information quality assessment. Inf Manag 2002;40(2):133‒46. . 10.1016/s0378-7206(02)00043-5

[84]

Kenett RS. Reviewing of applied research with an Industry 4.0 perspective. Report. Rochester: Social Science Research Network. 2020. SSRN scholarly paper ID 3591808.

[85]

Coleman SY, Kenett RS. The information quality framework for evaluating data science programs. Encycl Semant Comput Robot Intell 2018;2 (2):1730001.

[86]

Yang K, Stoyanovich J, Asudeh A, Howe B . Jagadish, HV, Miklau, G. A nutritional label for rankings. In: Proceedings of the 2018 International Conference on Management of Data; 2018 Jul 10‒15; Houston, TX, USA. New York City: Association for Computing Machinery; 2018. p.1773‒6. . 10.1145/3183713.3193568

[87]

Stoyanovich J, Howe B. Nutritional labels for data and models. IEEE Tech Comm Data Eng 2019;42(3):13‒23.

[88]

Chmielinski KS, Newman S, Taylor M, Joseph J, Thomas K, Yurkofsky J, et al. The dataset nutrition label (2nd Gen): leveraging context to mitigate harms in artificial intelligence. 2022. arXiv:

[89]

Sun C, Asudeh A, Jagadish HV, Howe B, Stoyanovich J. Mithralabel: flexible dataset nutritional labels for responsible data science. In: Proceedings of the 28th ACM International Conference on Information and Knowledge Management; 2019 Nov 3‒7; Beijing; China. New York City: Association for Computing Machinery; 2019. p. 2893‒6. . 10.1145/3357384.3357853

[90]

Catania B, Guerrini G, Accinelli C. Fairness & friends in the data science era. AI Soc 2023;38:721‒31. . 10.1007/s00146-022-01472-5

[91]

Chan YC, Ahmed F, Wang L, Chen W. METASET: exploring shape and property spaces for data-driven metamaterials design. J Mech Des 2021;143 (3):031707. . 10.1115/1.4048629

[92]

Simpson T, Lin D, Chen W. Sampling strategies for computer experiments: design and analysis. International Journal of Reliability and applications 2001;2(3):209‒40.

[93]

Celis L, Keswani, V, Vishnoi N. Data preprocessing to mitigate bias: a maximum entropy based approach. In: Proceedings of the 37th International Conference on Machine Learning; 2020 Jul 13‒18; online. Cambridge: JMLR; 2020. p. 1349‒59.

[94]

Tea KH, Whang SE. Slice tuner: a selective data acquisition framework for accurate and fair machine learning models. In: Proceedings of the 2021 International Conference on Management of Data; 2021 Jun 20‒25; Xi’an, China. New York City: Association for Computing Machinery; 2021. p. 1771‒83. . 10.1145/3448016.3452792

[95]

Lin Y, Guan Y, Asudeh A, Jagadish HV. Identifying insufficient data coverage in databases with multiple relations. Proc VLDB Endow 2020;13 (12):2229‒42. . 10.14778/3407790.3407821

[96]

Asudeh A, Shahbazi N, Jin Z, Jagadish HV. Identifying insufficient data coverage for ordinal continuous-valued attributes. In: Proceedings of the 2021 International Conference on Management of Data; 2021 Jun 20‒25; Xi’an, Chinsa. New York: Association for Computing Machinery; 2021. p. 129‒41. . 10.1145/3448016.3457315

[97]

Asudeh A, Jin Z, Jagadish HV. Assessing and remedying coverage for a given dataset. In: Proceedings of the 2019 IEEE 35th International Conference on Data Engineering (ICDE); 2019 Apr 8‒11; Macao, China. Piscataway: IEEE; 2019. p. 554‒65. . 10.1109/icde.2019.00056

[98]

Verma S, Rubin J. Fairness definitions explained. In: Proceedings of the International Workshop on Software Fairness; 2018 May 29; Gothenburg, Sweden. New York City: Association for Computing Machinery; 2018. p. 1‒7. . 10.1145/3194770.3194776

[99]

Oneto L, Chiappa S. Fairness in machine learning. In: Oneto L, Navarin N, Sperduti A, Anguita D, editors. Recent trends in learning from data. Cham: Springer; 2020. p. 155‒96. . 10.1007/978-3-030-43883-8

[100]

Drosou M, Jagadish HV, Pitoura E, Stoyanovich J. Diversity in big data: a review. Big Data 2017;5(2):73‒84. . 10.1089/big.2016.0054

[101]

Wang L, Chan YC, Liu Z, Zhu P, Chen W. Data-driven metamaterial design with laplace-beltrami spectrum as “shape-DNA”. Struc Multidiscip Optim 2020;61(6):2613‒28. . 10.1007/s00158-020-02523-5

[102]

Brownlee J. Data preparation for machine learning: data cleaning, feature selection, and data transforms in Python. San Francisco: Machine Learning Mastery; 2020.

[103]

Slater K, Li Y, Wang Y, Shan Y, Liu C. A generative adversarial network (GAN)-assisted data quality monitoring approach for out-of-distribution detection of high dimensional data. Report. Norcross: Institute of Industrial and Systems Engineers; 2023.

[104]

Chang KH. E-design: computer-aided engineering design. New York City: Academic Press; 2015.

[105]

Chen W, Ahmed F. MO-PaDGAN: reparameterizing engineering designs for augmented multi-objective optimization. Appl Soft Comput 2021;113:107909. . 10.1016/j.asoc.2021.107909

[106]

Guyon I, Gunn S, Nikravesh M, Zadeh L. Feature extraction: foundations and applications. Cham: Springer; 2008.

[107]

Yazdi RM, Imani F, Yang H. A hybrid deep learning model of process-build interactions in additive manufacturing. J Manuf Syst 2020;57:460‒8. . 10.1016/j.jmsy.2020.11.001

[108]

Roach DJ, Rohskopf A, Hamel CM, Reinholtz WD, Bernstein R, Qi HJ, et al. Utilizing computer vision and artificial intelligence algorithms to predict and design the mechanical compression response of direct ink write 3D printed foam replacement structures. Addit Manuf 2021;41:101950. . 10.1016/j.addma.2021.101950

[109]

Lee H, Lee J. Neural network prediction of sound quality via domain knowledge-based data augmentation and bayesian approach with small data sets. Mech Syst Signal Process 2021;157:107713. . 10.1016/j.ymssp.2021.107713

[110]

De Santo A, Ferraro A, Galli A, Moscato V, Sperlì G. Evaluating time series encoding techniques for predictive maintenance. Expert Syst Appl 2022;210:118435. . 10.1016/j.eswa.2022.118435

[111]

Blum AL, Langley P. Selection of relevant features and examples in machine learning. Artif Intell 1997;97(1‒2):245‒71.

[112]

Li J, Cheng K, Wang S, Morstatter F, Trevino RP, Tang J, et al. Feature selection: a data perspective. ACM Comput Surv 2017;50(6):1‒45. . 10.1145/3136625

[113]

Pfingsten T, Herrmann DJL, Schnitzler T, Feustel A, Scholkopf B. Feature selection for troubleshooting in complex assembly lines. IEEE Trans Automn Sci Eng 2007;4(3):465‒9. . 10.1109/tase.2006.888054

[114]

Janssens O, Slavkovikj V, Vervisch B, Stockman K, Loccufier M, Verstockt S, et al. Convolutional neural network based fault detection for rotating machinery. J Sound Vib 2016;377:331‒45. . 10.1016/j.jsv.2016.05.027

[115]

Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Trans Pattern Anal Mach Intell 2013;35(8):1798‒828. . 10.1109/tpami.2013.50

[116]

Alasadi SA, Bhaya WS. Review of data preprocessing techniques in data mining. ARPN J Eng Appl Sci 2017;12(16):4102‒417.

[117]

Chaki J, Dey N. A beginner’s guide to image preprocessing techniques. Boca Raton: CRC Press; 2018. . 10.1201/9780429441134

[118]

Singh D, Singh B. Investigating the impact of data normalization on classification performance. Appl Soft Comput 2020;97:105524. . 10.1016/j.asoc.2019.105524

[119]

Yu L, Zhu J, Zhao Q, Wang Z. An efficient YOLO algorithm with an attention mechanism for vision-based defect inspection deployed on FPGA. Micromachines 2022;13(7):1058. . 10.3390/mi13071058

[120]

You Z, Gao H, Li S, Guo L, Liu Y, Li J. Multiple activation functions and data augmentation-based lightweight network for in situ tool condition monitoring. IEEE Trans Ind Electron 2022;69(12):13656‒64. . 10.1109/tie.2021.3139202

[121]

Wang Y, Joseph J, Unni TPA, Yamakawa S, Farimani A, Shimada K. Three-dimensional ship hull encoding and optimization via deep neural networks. J Mech Des 2022;144(10):101701. . 10.1115/1.4054494

[122]

Ruediger-Flore P, Glatt M, Hussong M, Aurich JC. CAD-based data augmentation and transfer learning empowers part classification in manufacturing. Int J Adv Manuf Technol 2023;125:5065‒118. . 10.1007/s00170-023-10973-6

[123]

De la Rosa FL, Gómez-Sirvent JL, Sánchez-Reolid R, Morales R, Fernández-Caballero A. Geometric transformation-based data augmentation on defect classification of segmented images of semiconductor materials using a ResNet50 convolutional neural network. Expert Syst Appl 2022;206:117731. . 10.1016/j.eswa.2022.117731

[124]

Jain S, Seth G, Paruthi A, Soni U, Kumar G. Synthetic data augmentation for surface defect detection and classification using deep learning. J Intell Manuf 2022;33(4):1007‒20. . 10.1007/s10845-020-01710-x

[125]

Davtalab O, Kazemian A, Yuan X, Khoshnevis B. Automated inspection in robotic additive manufacturing using deep learning for layer deformation detection. J Intell Manuf 2022;33(3):771‒84. . 10.1007/s10845-020-01684-w

[126]

Xie Y, Li S, Wu CT, Lai Z, Su M. A novel hypergraph convolution network for wafer defect patterns identification based on an unbalanced dataset. J Intell Manuf 2024;35:633‒46. . 10.1007/s10845-022-02067-z

[127]

Molitor DA, Kubik C, Becker M, Hetfleisch RH, Lyu F, Groche P. Towards high-performance deep learning models in tool wear classification with generative adversarial networks. J Mater Process Technol 2022;302:117484. . 10.1016/j.jmatprotec.2021.117484

[128]

Zhang Z, Wen G, Chen S. Weld image deep learning-based on-line defects detection using convolutional neural networks for Al alloy in robotic arc welding. J Manuf Process 2019;45:208‒16. . 10.1016/j.jmapro.2019.06.023

[129]

Donda K, Zhu Y, Merkel A, Wan S, Assouar B. Deep learning approach for designing acoustic absorbing metasurfaces with high degrees of freedom. Extreme Mech Lett 2022;56:101879. . 10.1016/j.eml.2022.101879

[130]

Shi P, Qi Q, Qin Y, Scott PJ, Jiang X. A novel learning-based feature recognition method using multiple sectional view representation. J Intell Manuf 2020;31 (5):1291‒309. . 10.1007/s10845-020-01533-w

[131]

Dai W, Li D, Tang D, Jiang Q, Wang D, Wang H, et al. Deep learning assisted vision inspection of resistance spot welds. J Manuf Process 2021;62:262‒74. . 10.1016/j.jmapro.2020.12.015

[132]

Singh SA, Desai KA. Automated surface defect detection framework using machine vision and convolutional neural networks. J Intell Manuf 2023;34(4):1995‒2011. . 10.1007/s10845-021-01878-w

[133]

Ma G, Yu L, Yuan H, Xiao W, He Y. A vision-based method for lap weld defects monitoring of galvanized steel sheets using convolutional neural network. J Manuf Process 2021;64:130‒9. . 10.1016/j.jmapro.2020.12.067

[134]

Dong L, Chen W, Yang S, Yu H. A new machine vision‒based intelligent detection method for gear grinding burn. Int J Adv Manuf Technol 2023;125(9‒10):4663‒77.

[135]

Tang J, Zhou H, Wang T, Jin Z, Wang Y, Wang X. Cascaded foreign object detection in manufacturing processes using convolutional neural networks and synthetic data generation methodology. J Intell Manuf 2022;34:2925‒41. . 10.1007/s10845-022-01976-3

[136]

Wong V, Ferguson M, Law K, Lee Y, Witherell P. Segmentation of additive manufacturing defects using U-Net. J Comput Inf Sci Eng 2022;22(3):31005.

[137]

Kumaresan S, Aultrin K, Kumar S, Anand M. Deep learning-based weld defect classification using VGG16 transfer learning adaptive fine-tuning. Int J Interact Des Manuf 2023;17:2999‒3010. . 10.1007/s12008-023-01327-3

[138]

Sha Y, Faber J, Gou S, Liu B, Li W, Schramm S, et al. A multi-task learning for cavitation detection and cavitation intensity recognition of valve acoustic signals. Eng Appl Artif Intell 2022;113:104904. . 10.1016/j.engappai.2022.104904

[139]

Ye Y, Huang C, Zeng J, Zhou Y, Li F. Shock detection of rotating machinery based on activated time-domain images and deep learning: an application to railway wheel flat detection. Mech Syst Sig Process 2023;186:109856. . 10.1016/j.ymssp.2022.109856

[140]

Li X, Zhang W, Ding Q, Sun JQ. Intelligent rotating machinery fault diagnosis based on deep learning using data augmentation. J Intell Manuf 2020;31:433‒52. . 10.1007/s10845-018-1456-1

[141]

Becker P, Roth C, Roennau A, Dillmann R. Acoustic anomaly detection in additive manufacturing with long short-term memory neural networks. In: Proceeding of the 2020 IEEE 7th International Conference on Industrial Engineering and Applications (ICIEA); 2020 Apr 16‒21; Bangkok, Thailand. Piscataway: IEEE; 2020. p. 921‒6. . 10.1109/iciea49774.2020.9102002

[142]

Zhang W, Joseph J, Chen Q, Koz C, Xie L, Regmi A, et al. A data augmentation method for data-driven component segmentation of engineering drawings. J Comput Inf Sci Eng 2024;14(1):011001. . 10.1115/1.4062233

[143]

Lyu Y, Yang Z, Liang H, Zhang B, Ge M, Liu R, et al. Artificial intelligence-assisted fatigue fracture recognition based on morphing and fully convolutional networks. Fatigue Fract Eng Mater Struct 2022;45 (6):1690‒702. . 10.1111/ffe.13693

[144]

Martins D, Lima A, Pinto M, Hemerly D, Prego T, Silva F, et al. Hybrid data augmentation method for combined failure recognition in rotating machines. J Intell Manuf 2022;34:1795‒813. . 10.1007/s10845-021-01873-1

[145]

Fan SKS, Cheng CW, Tsai DM. Fault diagnosis of wafer acceptance test and chip probing between front-end-of-line and back-end-of-line processes. IEEE Trans Autom Sci Eng 2022;19(4):3068‒82. . 10.1109/tase.2021.3106011

[146]

Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP. SMOTE: synthetic minority over-sampling technique. J Artif Intell Res 2002;16:321‒57. . 10.1613/jair.953

[147]

Li Y, Shi Z, Liu C, Tian W, Kong Z, Williams CB. Augmented time regularized generative adversarial network (ATR‒GAN) for data augmentation in online process anomaly detection. IEEE Trans Autom Sci Eng 2022;19(4):3338‒55. . 10.1109/tase.2021.3118635

[148]

Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. Generative adversarial networks. Commun ACM 2020;63(11):139‒44. . 10.1145/3422622

[149]

Chen W, Ahmed F. PaDGAN: learning to generate high-quality novel designs. J Mech Des 2021;143(3):031703. . 10.1115/1.4048626

[150]

Nobari AH, Chen W, Ahmed F. PcDGAN: a continuous conditional diverse generative adversarial network for inverse design. In: Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining; 2021 Aug 14‒18; Singapore; online. New York City: Association for Computing Machinery; 2021 p. 606‒16. . 10.1145/3447548.3467414

[151]

Yoo Y, Jung UJ, Han YH, Lee J. Data augmentation-based prediction of system level performance under model and parameter uncertainties: role of designable generative adversarial networks (DGAN). Reliab Eng Syst Saf 2021;206:107316. . 10.1016/j.ress.2020.107316

[152]

Wu H, Liu X, An W, Lyu H. A generative deep learning framework for airfoil flow field prediction with sparse data. Chinese J Aeronaut 2022;35 (1):470‒84. . 10.1016/j.cja.2021.02.012

[153]

Wang J, Yang Z, Zhang J, Zhang Q, Chien WTK. AdaBalGAN: an improved generative adversarial network with imbalanced learning for wafer defective pattern recognition. IEEE Trans Semicond Manuf 2019;32(3):310‒9. . 10.1109/tsm.2019.2925361

[154]

Alawieh MB, Boning D, Pan DZ. Wafer map defect patterns classification using deep selective learning. In: Proceedings of the 2020 57th ACM/IEEE Design Automation Conference (DAC); 2020 Jul 20‒24; FranciscoSan, CA, USA. Piscataway: IEEE; 2020. p. 1‒6. . 10.1109/dac18072.2020.9218580

[155]

Yun JP, Shin WC, Koo G, Kim MS, Lee C, Lee SJ. Automated defect inspection system for metal surfaces based on deep learning and data augmentation. J Manuf Syst 2020;55:317‒24. . 10.1016/j.jmsy.2020.03.009

[156]

Niu S, Li B, Wang X, Lin H. Defect image sample generation with GAN for improving defect recognition. IEEE Trans Autom Sci Eng 2020;17 (3):1611‒22.

[157]

Li H, Fan R, Shi Q. oversampling and deep forest based minorityclass sensitive fault diagnosis approach. In: Proceedings of the 2020 IEEE International Conference on Systems, Man, and Cybernetics (SMC); 2020 Oct 11‒14; Toronto, ON, Canada. Piscataway: IEEE; 2020. p. 3629‒36. . 10.1109/smc42975.2020.9283190

[158]

Li XY, Li J, Qu Y, He D. Semi-supervised gear fault diagnosis using raw vibration signal based on deep learning. Chinese J Aeronaut 2020;33 (2):418‒26. . 10.1016/j.cja.2019.04.018

[159]

Behera S, Misra R. Generative adversarial networks based remaining useful life estimation for IIoT. Comput Electr Eng 2021;92:107195. . 10.1016/j.compeleceng.2021.107195

[160]

Meister S, Möller N, Stüve J, Groves RM. Synthetic image data augmentation for fibre layup inspection processes: techniques to enhance the data set. J Intell Manuf 2021;32:1767‒89. . 10.1007/s10845-021-01738-7

[161]

Wiederkehr P, Finkeldey F, Merhofe T. Augmented semantic segmentation for the digitization of grinding tools based on deep learning. CIRP Annals 2021;70(1):297‒300. . 10.1016/j.cirp.2021.04.051

[162]

Che C, Wang H, Fu Q, Ni X. Intelligent fault prediction of rolling bearing based on gate recurrent unit and hybrid autoencoder. Proc Inst Mech Eng C 2021;235(6):1106‒14. . 10.1177/0954406220941037

[163]

Zhou X, Hu Y, Wu J, Liang W, Ma J, Jin Q. Distribution bias aware collaborative generative adversarial network for imbalanced deep learning in industrial IOT. IEEE Trans Ind Inf 2023;19(1):570‒80. . 10.1109/tii.2022.3170149

[164]

Yang Z, Zhang M, Chen Y, Hu N, Gao L, Liu L, et al. Surface defect detection method for air rudder based on positive samples. J Intell Manuf 2022;35 (1):99‒113.

[165]

Yang C, Liu J, Zhou K, Li X. Dynamic spatial‒temporal graph-driven machine remaining useful life prediction method using graph data augmentation. J Intell Manuf 2022;35:355‒66.

[166]

Peng P, Lu J, Xie T, Tao S, Wang H, Zhang H. Open-set fault diagnosis via supervised contrastive learning with negative out-of-distribution data augmentation. IEEE Trans Ind Inf 2023;19(3):2463‒73. . 10.1109/tii.2022.3149935

[167]

Farady I, Lin CY, Chang MC. PreAugNet: improve data augmentation for industrial defect classification with small-scale training data. J Intell Manuf 2024;35:1233‒46. . 10.1007/s10845-023-02109-0

[168]

Niu S, Peng Y, Li B, Qiu Y, Niu T, Li W. A novel deep learning motivated data augmentation system based on defect segmentation requirements. J Intell Manuf 2024;35:687‒701. . 10.1007/s10845-022-02068-y

[169]

Nguyen T, Le T, Vu H, Phung D. Dual discriminator generative adversarial nets. 2017. arXiv:

[170]

Zhu JY, Park T, Isola P, Efros AA. Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceeding of the 2017 IEEE International Conference on Computer Vision (ICCV); 2017 Oct 22‒29; Venice, Italy. Piscataway: IEEE; 2017. p. 2242‒51. . 10.1109/iccv.2017.244

[171]

Figueira A, Vaz B. Survey on synthetic data generation, evaluation methods and GANs. Mathematics 2022;10(15):2733. . 10.3390/math10152733

[172]

Anscombe FJ. Graphs in statistical analysis. Am Stat 1973;27(1):17‒21. . 10.1080/00031305.1973.10478966

[173]

Shmelkov K, Schmid C, Alahari K. How good is my GAN? In: Proceedings of Computer Vision‒ECCV 2018; 2018 September 8‒14; Munich, Germany. Berlin: Springer; 2018. p. 218‒34. . 10.1007/978-3-030-01216-8_14

[174]

Salimans T, Goodfellow I, Zaremba W, Cheung V, Radford A, Chen X. Improved techniques for training gans. In: Proceedings of the 30th International Conference on Neural Information Processing Systems; 2016 Dec 5‒10; Barcelona, Spain. New York City: Curran Associates Inc.; 2016. p. 2234‒42.

[175]

Heusel M, Ramsauer H, Unterthiner T, Nessler B, Hochreiter S. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In: Proceedings of the 31st International Conference on Neural Information Processing Systems; 2017 Dec 4‒9; LongBeach, CA, USA. New York City: Curran Associates Inc.; 2017. p. 6629‒40. . 10.18034/ajase.v8i1.9

[176]

Karras T, Aila T, Laine S, Lehtinen J. Progressive growing of gans for improved quality, stability, and variation. 2017. arXiv:

[177]

Alaa A, Von Breugel B, Saveliev E, van de Schaar M. How faithful is your synthetic data? Sample-level metrics for evaluating and auditing generative models. 2022. arXiv:

[178]

Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models. In: Proceedings of the 34th International Conference on Neural Information Processing Systems; 2020 Dec 6‒12; Vancouver, BC, Canada. New York City: Curran Associates Inc.; 2017. p. 6840‒50.

[179]

Trabucco B, Doherty K, Gurinas M, Salakhutdinov R. Effective data augmentation with diffusion models. 2023. arXiv:

[180]

Kebaili A, Lapuyade-Lahorgue J, Ruan S. Deep learning approaches for data augmentation in medical imaging: a review. J Imaging 2023;9(4):81. . 10.3390/jimaging9040081

[181]

Xiao Z, Kreis K, Vahdat A. Tackling the generative learning trilemma with denoising diffusion GANs. 2021. arXiv:2112.07804 .

[182]

Chlap P, Min H, Vandenberg N, Dowling J, Holloway L, Haworth A. A review of medical image data augmentation techniques for deep learning applications. J Med Imaging Radiat Oncol 2021;65(5):545‒63. . 10.1111/1754-9485.13261

[183]

Kapusuzoglu B, Mahadevan S, Matsumoto S, Miyagi Y, Watanabe D. Adaptive surrogate modeling for high-dimensional spatio-temporal output. Struct Multidiscip Optim 2022;65(10):300. . 10.1007/s00158-022-03402-x

[184]

Yang H, Li S, Tabery C, Lin B, Yu B. Bridging the gap between layout pattern sampling and hotspot detection via batch active learning. IEEE Trans Comput-Aided Des Integr Circuits Syst 2020;40(7):1464‒75. . 10.1109/tcad.2020.3015903

[185]

Rožanec J, Bizjak L, Trajkova E, Zajec P, Keizer J, Fortuna B, et al. Active learning and novel model calibration measurements for automated visual inspection in manufacturing. J Intell Manuf 2023;35:1963‒84. . 10.1007/s10845-023-02098-0

[186]

Van Houtum GJJ, Vlasea ML. Active learning via adaptive weighted uncertainty sampling applied to additive manufacturing. Addit Manuf 2021;48:102411. . 10.1016/j.addma.2021.102411

[187]

Xiao Y, Su M, Yang H, Chen J, Yu J, Yu B. Low-cost lithography hotspot detection with active entropy sampling and model calibration. In: Proceedings of the 2021 58th ACM/IEEE Design Automation Conference (DAC); 2021 Dec 5‒9; FranciscoSan, CA, USA. Piscataway: IEEE; 2021. p. 907‒21. . 10.1109/dac18074.2021.9586273

[188]

Seung H, Opper M, Sompolinsky H. Query by committee. Proceedings of the Fifth Annual Workshop on Computational Learning Theory; 1992 Jul 27‒29; Pittsburgh, PA, USA. New York City: Association for Computing Machinery; 1992. p. 287‒94. . 10.1145/130385.130417

[189]

Settles B. Active learning literature survey [dissertation]. Madison: University of Wisconsin‒Madison; 2009.

[190]

Borodin A. Determinantal point processes. 2009. arXiv:10.1090/ulect/051/04

[191]

Samavatian V, Fotuhi-Firuzabad M, Samavatian M, Dehghanian P, Blaabjerg F. Iterative machine learning-aided framework bridges between fatigue and creep damages in solder interconnections. IEEE Trans Compon Packag Manuf Technol 2022;12(2):349‒58. . 10.1109/tcpmt.2021.3136751

[192]

Xie J, Zhang C, Sun L, Zhao YF. Fairness-and uncertainty-aware data generation for data-driven design based on active learning. J Comput Inf Sci Eng 2024;24(5):051004. . 10.1115/1.4064408

[193]

Zhang H, Chen W, Rondinelli JM, Wei C. et al: entropy-targeted active learning for bias mitigation in materials data. Appl Phys Rev 2023;10 (2):021403.

[194]

Lin Y, Li M, Watanabe Y, Kimura T, Matsunawa T, Nojima S, et al. Data efficient lithography modeling with transfer learning and active data selection. IEEE Trans Comput-Aided Des Integr Circuits Syst 2019;38(10):1900‒13. . 10.1109/tcad.2018.2864251

[195]

Shao H, Ping H, Chen K, Su W, Lin C, Fang S, et al. Keeping deep lithography simulators updated: global-local shape-based novelty detection and active learning. IEEE Trans Comput-Aided Des Integr Circuits Syst 2023;42 (3):1000‒14. . 10.1109/tcad.2022.3192175

[196]

Bull LA, Worden K, Rogers TJ, Wickramarachchi C, Cross EJ, McLeay T, et al. A probabilistic framework for online structural health monitoring: active learning from machining data streams. J Phys Conf Ser 2019;1264(1):012028. . 10.1088/1742-6596/1264/1/012028

[197]

Sarkar S, Mondal S, Joly M, Lynch ME, Bopardikar SD, Acharya R, et al. Multifidelity and multiscale Bayesian framework for high-dimensional engineering design and calibration. J Mech Des 2019;141(12):121001. . 10.1115/1.4044598

[198]

Cui F, Ghosn M. Implementation of machine learning techniques into the subset simulation method. Struct Saf 2019;79:12‒25. . 10.1016/j.strusafe.2019.02.002

[199]

Shim J, Kang S, Cho S. Active learning of convolutional neural network for cost-effective wafer map pattern classification. IEEE Trans Semicond Manuf 2020;33(2):258‒66. . 10.1109/tsm.2020.2974867

[200]

Wang Y, Franzon PD, Smart D, Swahn B. Multi-fidelity surrogate-based optimization for electromagnetic simulation acceleration. ACM Trans Des Autom Electron Syst 2020;25(5):45. . 10.1145/3398268

[201]

Yue X, Wen Y, Hunt JH, Shi J. Active learning for gaussian process considering uncertainties with application to shape control of composite fuselage. IEEE Trans Autom Sci Eng 2020;18(1):36‒46. . 10.1109/tase.2020.2990401

[202]

Sun Q, Bai C, Geng H, Yu B. Deep neural network hardware deployment optimization via advanced active learning. In: Proceedings of the 2021 Design, Automation & Test in Europe Conference & Exhibition (DATE); 2021 Feb 1‒5; Grenoble, France. Piscataway: IEEE; 2021. p. 1510‒5. . 10.23919/date51398.2021.9474100

[203]

Botcha B, Iquebal AS, Bukkapatnam STS. Efficient manufacturing processes and performance qualification via active learning: application to a cylindrical plunge grinding platform. Procedia Manuf 2021;53:716‒25. . 10.1016/j.promfg.2021.06.070

[204]

Verduzco JC, Marinero EE, Strachan A. An active learning approach for the design of doped LLZO ceramic garnets for battery applications. Integr Mater Manuf Innov 2021;10:299‒310. . 10.1007/s40192-021-00214-7

[205]

Cheng J, Jin H. An adaptive extreme learning machine based on an active learning method for structural reliability analysis. J Brazilian Soc Mech Sci Eng 2021;43(12):546. . 10.1007/s40430-021-03257-1

[206]

Owoyele O, Pal P. A novel active optimization approach for rapid and efficient design space exploration using ensemble machine learning. J Energy Resour Technol 2021;143(3):032307. . 10.1115/1.4049178

[207]

Yang S, Lee S, Yee K. Inverse design optimization framework via a two-step deep learning approach: application to a wind turbine airfoil. Eng Comput 2022;39:2239‒55. . 10.1007/s00366-022-01617-6

[208]

Zhang Q, Wu Y, Lu L, Qiao P. An adaptive dendrite-HAMR metamodeling technique for high-dimensional problems. J Mech Des 2022;144(8):081701. . 10.1115/1.4053526

[209]

Xu Y, Zheng Z, Arora K, Senesky D, Wang P. Hall effect sensor design optimization with multi-physics informed gaussian process modeling. In: Proceedings of the International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. 2022 Aug 14‒17; St. Louis, MO, USA. New York City: ASME; 2022. p. V03BT03A028. . 10.1115/detc2022-91196

[210]

Liu Z, Renteria A, Zheng Z, Wang P, Li Y. Design of additively manufactured functionally graded cellular structures. In: Proceedings of the IISE Annual Conference and Expo 2022; 2022 May 21‒24; Seattle, WA, USA. Montreal: IISE; 2022.

[211]

Hughes AJ, Bull LA, Gardner P, Barthorpe RJ, Dervilis N, Worden K. On risk-based active learning for structural health monitoring. Mech Syst Signal Process 2022;167:108569. . 10.1016/j.ymssp.2021.108569

[212]

Kolesnikov VI, Pashkov DM, Belyak OA, Guda AA, Danilchenko SA, Manturov DS, et al. Design of double layer protective coatings: finite element modeling and machine learning approximations. Acta Astronaut 2023;204:869‒77. . 10.1016/j.actaastro.2022.11.007

[213]

Zhu R, Peng W, Wang D, Huang CG. Bayesian transfer learning with active querying for intelligent cross-machine fault prognosis under limited data. Mech Syst Signal Process 2023;183:109628. . 10.1016/j.ymssp.2022.109628

[214]

Wan J, Che Y, Wang Z, Cheng C. Uncertainty quantification and optimal robust design for machining operations. J Comput Inf Sci Eng 2023;23 (1):011005. . 10.1115/1.4055039

[215]

Li Z, Segura LJ, Li Y, Zhou C, Sun H. Multiclass reinforced active learning for droplet pinch-off behaviors identification in inkjet printing. J Manuf Sci Eng 2023;145(7):071002. . 10.1115/1.4057002

[216]

Hao P, Duan Y, Liu D, Yang H, Liu D, Wang B. Image-driven intelligent prediction of buckling behavior for geometrically imperfect cylindrical shells. AIAA J 2023;61(5):2266‒80. . 10.2514/1.j062470

[217]

Farrokh M, Fallah MR. Flutter instability boundary determination of composite wings using adaptive support vector machines and optimization. J Brazilian Soc Mech Sci Eng 2023;45(3):181. . 10.1007/s40430-023-04098-w

[218]

Luo J, Fu Z, Zhang Y, Fu W, Chen J. Aerodynamic optimization of a transonic fan rotor by blade sweeping using adaptive Gaussian process. Aerosp Sci Technol 2023;137:108255. . 10.1016/j.ast.2023.108255

[219]

Pidaparthi B, Missoum S. A multi-fidelity approach for reliability assessment based on the probability of classification inconsistency. J Comput Inf Sci Eng 2023;23(1):011008. . 10.1115/1.4055508

[220]

Xie J, Zhang C, Sun L, Zhao Y. Fairness-and uncertainty-aware data generation for data-driven design. 2023. arXiv:10.1115/detc2023-114687

[221]

Shorten C, Khoshgoftaar TM. A survey on image data augmentation for deep learning. J Big Data 2019;6(1):60. . 10.1186/s40537-019-0197-0

[222]

Niu Z, Yu K, Wu X. LSTM-based VAE‒GAN for time-series anomaly detection. Sensors 2020;20(13):3738. . 10.3390/s20133738

[223]

Zhang C, Sedal A, Zhao YF. Differentiable surrogate models for design and trajectory optimization of auxetic soft robots. In: Proceedings of the 2023 IEEE International Conference on Soft Robotics (RoboSoft); 2023 Apr 3‒7; Singapore. Piscataway: IEEE; 2023. p. 1‒8. . 10.1109/robosoft55895.2023.10121968

PDF (5408KB)

13321

访问

0

被引

详细

导航
相关文章

AI思维导图

/