Search | Engineering

订阅投稿

首页工程期刊工程焦点工程成就工程前沿关于我们 English

资源类型

期刊论文 4589

会议视频 408

会议信息 80

会议专题 4

年份

2024 18

2023 410

2022 513

2021 569

2020 353

2019 336

2018 239

2017 279

2016 176

2015 149

2014 124

2013 96

2012 109

2011 106

2010 117

2009 116

2008 137

2007 159

2006 162

2005 164

展开︾

关键词

智能制造 62

人工智能 50

能源 42

农业科学 36

可持续发展 36

机器学习 27

医学 25

增材制造 25

大数据 25

工程管理 24

神经网络 23

绿色化工 23

2020 22

信息技术 20

创新 20

遗传算法 19

管理 17

环境 15

发展 14

展开︾

检索范围：

排序：展示方式：

MDLB：一种基于强化学习的元数据动态负载均衡机制 Research Articles

武兆琪1,卫今2,3,张帆1,郭威1,谢光伟2,3

《信息与电子工程前沿（英文）》 2020年第21卷第7期页码 963-1118 doi: 10.1631/FITEE.1900121

摘要：随着信息和数据量增长，面向对象的存储系统已被广泛应用到很多领域，包括Google文件系统、AmazonS3、Hadoop分布式文件系统和Ceph。其中元数据负载均衡在提高整个系统输入/输出性能方面起着重要作用，元数据负载不平衡会导致服务器出现严重的系统性能瓶颈问题。然而现有元数据负载平衡策略缺乏良好动态性和适用性，如基于子树分割或者哈希的负载策略。提出一种基于强化学习的动态负载平衡机制（MDLB）。采用Q_learning算法，所提基于强化学习机制由3个模块组成，即策略选择网络、负载均衡网络和参数更新网络。实验结果表明MDLB算法可根据元数据服务器的性能动态调节负载，在数据量骤变情况下仍具有很好适应性。

关键词：面向对象的存储系统；元数据；动态负载均衡；强化学习；Q_learning

HTML PDF 收藏

线性离散时间系统H∞控制的极小极大Q-学习设计 Research Articles

李新兴1,奚乐乐2,3,查文中1,彭志红2

《信息与电子工程前沿（英文）》 2022年第23卷第3期页码 438-451 doi: 10.1631/FITEE.2000446

摘要： H∞控制是一种消除系统扰动的有效方式，但是由于需要求解非线性哈密顿—雅克比—伊萨克斯方程，H∞控制器往往很难得到，即便对于线性系统。本文考虑了线性离散时间系统的H∞控制器设计问题。为求解涉及的博弈代数黎卡提方程，在离线策略算法基础上提出一种新型无模型极小极大Q-学习算法，并证明离线策略迭代算法是求解博弈代数黎卡提方程的牛顿法。提出的极小极大Q-学习算法采用离轨策略强化学习技术，利用行为策略产生的系统状态数据，可实现对最优控制器和最佳干扰策略的在线学习。不同于当前Q-学习算法，本文提出一种基于梯度的策略提高方法。证明在一定持续激励条件下，对于初始可行的控制策略并结合合适学习率，提出的极小极大Q-学习算法可收敛到鞍点策略。将提出的极小极大Q-学习算法用于受负载扰动的电力系统H∞负载频率控制器设计，仿真结果表明，最终得到的H∞负载频率控制器具有良好抗干扰性能。

关键词： H∞控制；零和动态博弈；强化学习；自适应动态规划；极小极大Q-学习；策略迭代

HTML PDF 收藏

Actor-Critic强化学习算法及其在开发基于计算机视觉的界面跟踪中的应用 Article

Oguzhan Dogru, Kirubakaran Velswamy, 黄彪

《工程（英文）》 2021年第7卷第9期页码 1248-1261 doi: 10.1016/j.eng.2021.04.027

摘要：

本文通过将对象跟踪形式化为序列决策过程，使控制理论与计算机视觉实现同步。强化学习（RL）智能体成功跟踪了两种液体之间的界面，这通常是化学、石化、冶金和石油行业中跟踪的关键变量。该方法使用少于100 张图像来创建环境，智能体无需专家知识即可从中生成自己的数据。与依赖大量参数的监督学习（SL）方法不同，这种方法需要的参数少得多，这自然降低了维护成本。除了经济性外，该智能体还对环境不确定性（如遮挡、强度变化和过度噪声）具有鲁棒性。在闭环控制情境下，基于界面位置的偏差被选作训练阶段的优化目标。该方法展示了RL方法在油砂行业中的实时对象跟踪应用。本文除了介绍界面跟踪问题外，还详细回顾了最有效的RL方法之一——actor-critic策略。

关键词：界面跟踪对象跟踪遮挡强化学习均匀流形逼近和投影

HTML PDF 收藏

面向强化学习自动驾驶模型的异步监督学习预训练方法 Research Articles

王云鹏,郑坤贤,田大新,段续庭,周建山

《信息与电子工程前沿（英文）》 2021年第22卷第5期页码 615-766 doi: 10.1631/FITEE.1900637

摘要：基于人定规则所设计的自动驾驶系统可能会因大规模相互耦合的规则而变得越来越复杂，因此许多研究人员致力于探索基于学习的解决方案。强化学习（reinforcement learning，RL）因其在各种顺序控制问题上的出色表现而被应用于自动驾驶系统设计。然而，基于RL的自动驾驶系统落地应用所面临的主要挑战是其初始性能不佳。强化学习训练需要大量训练数据，然后模型才能达到合理的性能要求，这使得基于强化学习的模型不适用于现实环境，尤其在数据昂贵的情况下。本文为基于强化学习的端到端自动驾驶模型提出一种异步监督学习（asynchronous supervised learning，ASL）方法，以解决在实际环境中训练基于强化学习模型时初始性能差的问题。此外，建立一个实车验证系统，以验证所提预训练方法在实车部署中的可行性。仿真结果表明，在有监督的预训练阶段使用一些演示，可以显著提高强化学习训练阶段的初始性能和收敛速度。

关键词：自主驾驶；自动驾驶车辆；强化学习；监督学习

HTML PDF 收藏

面向人—多机器人协同系统的带记忆强化学习行为控制任务管理器 Research Article

黄捷1,2,3,莫智斌1,2,3,张祯毅1,2,3,陈宇韬1,2,3

《信息与电子工程前沿（英文）》 2022年第23卷第8期页码 1174-1188 doi: 10.1631/FITEE.2100280

摘要：针对人—多机器人协同系统提出一种基于行为控制框架的带记忆强化学习任务管理器（RLTS）。由于重复的人工干预，现有人—多机器人协同系统决策时间成本高、任务跟踪误差大，限制了多机器人系统的自主性。此外，基于零空间行为控制框架的任务管理器依赖手动制定优先级切换规则，难以在多机器人和多任务情况下实现最优行为优先级调整策略。提出一种带记忆强化学习任务管理器，基于零空间行为控制框架融合深度Q-网络和长短时记忆神经网络知识库，实现任务冲突时最优行为优先级调整策略以及降低人为干预频率。当机器人在紧急情况下置信度不足时，所提带记忆强化学习任务管理器会记忆人类干预历史，在遭遇相同人工干预情况时重新加载历史控制信号。仿真结果验证了该方法的有效性。最后，通过一组受外界噪声和干扰的移动机器人实验，验证了所提带记忆强化学习任务管理器在不确定现实环境中的有效性。

关键词：人—多机器人协同系统；基于零空间行为控制；任务管理器；强化学习；知识库

HTML PDF 收藏

工程化DNA材料构建DNA活字系统实现可持续的数据存储 Article

巩子祎, 宋理富, 裴广胜, 董雨菲, 李炳志, 元英进

《工程（英文）》 2023年第29卷第10期页码 130-136 doi: 10.1016/j.eng.2022.05.023

摘要：

DNA分子作为一种具有潜力的数据存储绿色材料，具有密度高和保存期长的优势。然而，目前DNA数据存储的数据写入依赖于DNA从头合成，写入成本高昂，且产生有害物，限制了其实际应用。在本研究中，我们开发了一种DNA活字存储系统，该系统可以利用由细胞工厂预生产的DNA活字片段进行数据写入。在这个系统中，这些预先生成的DNA片段，在这里称为“DNA活字”，是可重复使用的基本数据单元。通过这些DNA活字的快速组装来实现数据写入，从而避免了昂贵且对环境有害的DNA化学合成过程。通过DNA活字片段的反复使用和生物组装，该系统在降低写入成本方面的潜力非常突出，为经济和可持续的DNA数据存储技术开辟了一条新颖路线。

关键词：合成生物学 DNA信息存储 DNA活字存储系统经济性DNA数据存储

HTML PDF 收藏

基于解耦价值和策略强化学习的家庭能源管理方法

熊珞琳,唐漾,刘臣胜,毛帅,孟科,董朝阳,钱锋

《信息与电子工程前沿（英文）》 2023年第24卷第9期页码 1261-1272 doi: 10.1631/FITEE.2200667

摘要：由于电动汽车的普及性和家用电器的灵活性，在动态电价下对家庭能源系统进行能源调度优化电力成本和保障居民舒适度是可行的。本文提出一种基于数据驱动的深度强化学习家庭能源管理方法。首先，为揭示影响电动汽车充电行为的多种不确定因素，引入一种结合驾驶员经验、突发事件和交通状况的改进数学模型描述电动汽车在家庭能源系统中的动态能量需求。其次，提出一种解耦优势演员-评论家（DA2C）算法，通过缓解策略和价值共享网络导致的过拟合问题提升能源优化性能。此外，策略函数和价值函数的解耦网络确保了所提方法在不可见场景中的泛化性。

关键词：家庭能源系统电动汽车强化学习泛化性

HTML 收藏

带有网络智能体的去中心化多智能体强化学习进展 Review Article

张凯清1,杨卓然2,Tamer BAŞAR1

《信息与电子工程前沿（英文）》 2021年第22卷第6期页码 802-814 doi: 10.1631/FITEE.1900661

摘要：多智能体强化学习长期以来一直是机器学习和控制领域的重要研究课题。最近在（单智能体）深度强化学习领域的进展重新唤醒了对多智能体强化学习的研究兴趣，尤其在理论分析方面。本文回顾这个大课题中的一个子领域：带有网络智能体的去中心化多智能体强化学习。在这一场景中，多个智能体在一个共同的环境中进行序贯决策，无需中心控制器的协调，且智能体被允许和它们在通信网络上的邻居交换信息。这样的一个模型在很多方向都有相关应用，包括机器人控制、无人车控制、移动传感器网络控制、智能电网，等等。本综述旨在覆盖和整理我们和其他科研人员在这一方向的相关工作。我们希望该综述能够激发更多研究热情，投入到这个激动人心却又充满挑战的领域。

关键词：强化学习；多智能体系统；网络系统；一致性优化；分布式优化；博弈论

HTML PDF 收藏

基于多智能体强化学习的车载自组织网络协作信道分配 Research Articles

王云鹏,郑坤贤,田大新,段续庭,周建山

《信息与电子工程前沿（英文）》 2020年第21卷第7期页码 1047-1058 doi: 10.1631/FITEE.1900308

摘要：动态信道分配（DCA）在扩展车载自组织网络容量和缓解其拥塞方面起着关键作用。然而，在车—车直连通信场景下，信道分配面临大规模节点相互影响、缺乏集中式协调、全局网络状态信息未知以及其他挑战。为解决该问题，提出一种基于多智能体强化学习（RL）的协作动态信道分配（RL-CDCA）机制。具体而言，每个车辆节点都可借助2个互相协作的RL模型，从实时信道状态信息中成功学习信道选择和信道接入自适应退避的正确策略。此外，将神经网络构造为非线性Q函数逼近器，有助于将感测到的连续输入值映射到混合策略输出。仿真结果表明，与4种现有机制相比，所提多智能体RL-CDCA算法即便在路网车辆高度密集的情况下仍能将单跳数据包传输延迟减少不小于73.73％，将平均数据包递送成功率提高不小于12.66％，并更好地保证网络资源分配公平性

关键词：车载自组织网络；强化学习；动态信道分配；多信道

HTML PDF 收藏

ONFS：面向高性能计算的基于内存、固态硬盘和磁盘的层次式混合文件系统 Article

Xin LIU, Yu-tong LU, Jie YU, Peng-fei WANG, Jie-ting WU, Ying LU

《信息与电子工程前沿（英文）》 2017年第18卷第12期页码 1940-1971 doi: 10.1631/FITEE.1700626

摘要：大规模科学计算、新的工作流应用以及检查点操作均需要存储系统具有非常高的带宽和低延迟，这使得高性能存储系统面临严峻的技术挑战。当前基于磁盘的底层存储系统难以满足新一代Eflops超级计算机和应用的要求。为此，本文提出了基于计算结点内存、固态硬盘和磁盘的层次式混合存储系统ONFS (on-line and near-line file system)。它具有三个存储层次和统一的命名空间，支持可移植操作系统接口（portable operating system interface, POSIX）协议，可提供高带宽、低延迟和超大存储容量。本文详细分析了分布式元数据管理、内存借用和归还策略、数据一致性、并行访问控制，以及向下迁移和向上主动预迁移机制。与Lustre相比，运行在ONFS上的典型数据密集型应用可获得6.35倍的I/O加速。

关键词：高性能计算；层次式混合存储系统；分布式元数据管理；数据迁移

HTML PDF 收藏

针对意外崩溃智能体的教练辅助多智能体强化学习框架 Research Article

赵鉴1,赵有朋1,王维埙2,阳明宇1,胡迅晗1,周文罡1,郝建业2,李厚强1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1032-1042 doi: 10.1631/FITEE.2100594

摘要：多智能体强化学习在实际场景中很难应用，一部分原因在于模拟环境和现实环境之间存在差距。造成这种差距的一个原因是，模拟系统总是假设智能体可以一直正常工作，而实际上，由于不可避免的硬件或软件故障，一个或多个智能体可能会在合作过程中意外 “崩溃”。这样的崩溃会破坏智能体之间的合作，导致系统性能下降。本文中，我们给出了意外崩溃情况下合作多智能体强化学习系统的正式定义。为增强系统应对崩溃时的鲁棒性，提出教练辅助多智能体强化学习框架，其在训练过程中引入一个虚拟教练智能体，以调整系统的崩溃概率。为教练智能体设计了3种教练策略和重采样策略。据我们所知，这是研究多智能体系统中意外崩溃情况的首项工作。在网格环境和星际争霸微管理任务上的大量实验表明，相比固定崩溃概率和课程学习的教练策略，自适应策略更加有效。

关键词：多智能体系统；强化学习；意外崩溃智能体

HTML PDF 收藏

面向物联网的激励感知区块链辅助的智能边缘缓存与计算迁移研究 Article

王倩, 陈思光, 吴蒙

《工程（英文）》 2023年第31卷第12期页码 127-138 doi: 10.1016/j.eng.2022.10.014

摘要：

人工智能的快速发展将物联网推向了一个新阶段，面对数据的爆炸性增长和用户对更高服务质量的迫切需求，边缘计算和缓存被视为富有前景的技术解决手段。然而，边缘节点（Edge Nodes, ENs）中的资源并不是取之不尽的。本文提出了一种面向物联网的激励感知区块链辅助的智能边缘缓存与计算迁移方案，该方案致力于为协作ENs在资源优化和控制方面提供安全和智能的解决方案。具体地，该方案通过联合优化迁移和缓存决策以及计算和通信资源分配，以最大限度地降低EN中完成任务的总成本。此外，为解决上述优化问题，本文设计了区块链激励和贡献联合感知的联邦深度强化学习算法。在本地训练期间，该算法构建了一个激励感知区块链辅助的协作机制，即在安全保障前提下增强ENs参与协作的意愿。

关键词：计算迁移缓存激励区块链联邦深度强化学习

HTML PDF 收藏

人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用 Article

吴京达, 黄志宇, 胡中旭, 吕辰

《工程（英文）》 2023年第21卷第2期页码 75-91 doi: 10.1016/j.eng.2022.05.017

摘要：

由于机器学习智能和能力有限，它目前仍无法处理各种情况，因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性，所以将人类引入人工智能（AI）的训练回路并利用人类智能进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人类指导（Hug）的深度强化学习
（DRL）方法，用于端到端自动驾驶案例中的策略训练。所提出的Hug-DRL的快速收敛允许实时的人类指导行为融合到智能体的训练回路中，进一步提高了DRL的效率和性能。本研究通过40 名受试者的人在回路实验对开发的方法进行了验证，并与其他最先进的学习方法进行了比较。

关键词：人在回路AI 深度强化学习人类指导自动驾驶

HTML PDF 收藏

基于专家示教聚类经验池的高效深度强化学习 Research Article

王士珉1,赵彬琦1,张政锋1,张军平1,浦剑2

《信息与电子工程前沿（英文）》 2023年第24卷第11期页码 1541-1556 doi: 10.1631/FITEE.2300084

摘要：作为强化学习领域最基本的主题之一，样本效率对于深度强化学习算法的部署至关重要。与现有大多数从不同类型的后验分布中对动作进行采样的探索方法不同，我们专注于策略的采样过程，提出一种有效的选择性采样方法，通过对环境的内部层次结构建模来提高样本效率。具体来说，首先在策略采样过程中使用聚类方法生成动作候选集，随后引入一个用于对内部层次结构建模的聚类缓冲区，它由同轨数据、异轨数据以及专家数据组成，用于评估探索阶段动作候选集中不同类别动作的价值。通过这种方式，我们的方法能够更多地利用专家示教数据中的监督信息。在6种不同的连续运动环境中进行了实验，结果表明选择性采样方法具有卓越的强化学习性能和更快的收敛速度。特别地，在LGSVL任务中，该方法可以减少46.7%的收敛步数和28.5%的收敛时间。代码已开源，见https://github.com/Shihwin/SelectiveSampling。

关键词：强化学习；采样效率；采样过程；聚类方法；自动驾驶

HTML PDF 收藏

基于多智能体微分博弈的数据驱动协同一致控制 Research Article

石宇1,化永朝2,于江龙1,董希旺1,2,任章1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1043-1056 doi: 10.1631/FITEE.2200001

摘要：本文研究了多智能体微分博弈问题及其在协同一致控制中的应用。提出系统化的多智能体微分博弈构建和分析方法，同时给出一种基于强化学习技术的数据驱动方法。首先论证了由于网络交互的耦合特性，典型的分布式控制器无法充分保证微分博弈的全局纳什均衡。其次通过定义最优对策的概念，将问题分解为局部微分博弈问题，并给出局部纳什均衡解。构造了一种无需系统模型信息的离轨策略强化学习算法，利用在线邻居交互数据对控制器进行优化更新，并证明控制器的稳定性和鲁棒性。进一步提出一种基于改进耦合指标函数的微分博弈模型及其等效的强化学习求解方法。与现有研究相比，该模型解决了多智能体所需信息的耦合问题，并实现分布式框架下全局纳什均衡和稳定控制。构造了与此纳什解对应的等价并行强化学习方法。最后，仿真结果验证了学习过程的有效性和一致控制的稳定性。

关键词：多智能体系统；微分博弈；一致控制；数据驱动；强化学习