Search | Engineering

订阅投稿

首页工程期刊工程焦点工程成就工程前沿关于我们 English

资源类型

期刊论文 1888

会议视频 256

会议信息 104

会议专题 4

年份

2024 6

2023 211

2022 255

2021 307

2020 254

2019 197

2018 144

2017 113

2016 61

2015 62

2014 30

2013 35

2012 34

2011 32

2010 40

2009 24

2008 38

2007 53

2006 67

2005 51

展开︾

关键词

智能制造 113

人工智能 89

2020 33

机器学习 27

农业科学 20

能源 17

2019 15

系统工程 14

指标体系 13

深度学习 13

仿真技术 11

运载系统 11

大数据 10

新一代智能制造 10

智能工业 10

学术会议 9

智能 9

智能化 9

信息技术 8

展开︾

检索范围：

排序：展示方式：

针对意外崩溃智能体的教练辅助多智能体强化学习框架 Research Article

赵鉴1,赵有朋1,王维埙2,阳明宇1,胡迅晗1,周文罡1,郝建业2,李厚强1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1032-1042 doi: 10.1631/FITEE.2100594

摘要：多智能体强化学习在实际场景中很难应用，一部分原因在于模拟环境和现实环境之间存在差距。造成这种差距的一个原因是，模拟系统总是假设智能体可以一直正常工作，而实际上，由于不可避免的硬件或软件故障，一个或多个智能体可能会在合作过程中意外 “崩溃”。这样的崩溃会破坏智能体之间的合作，导致系统性能下降。本文中，我们给出了意外崩溃情况下合作多智能体强化学习系统的正式定义。为增强系统应对崩溃时的鲁棒性，提出教练辅助多智能体强化学习框架，其在训练过程中引入一个虚拟教练智能体，以调整系统的崩溃概率。为教练智能体设计了3种教练策略和重采样策略。据我们所知，这是研究多智能体系统中意外崩溃情况的首项工作。在网格环境和星际争霸微管理任务上的大量实验表明，相比固定崩溃概率和课程学习的教练策略，自适应策略更加有效。

关键词：多智能体系统；强化学习；意外崩溃智能体

HTML PDF 收藏

带有网络智能体的去中心化多智能体强化学习进展 Review Article

张凯清1,杨卓然2,Tamer BAŞAR1

《信息与电子工程前沿（英文）》 2021年第22卷第6期页码 802-814 doi: 10.1631/FITEE.1900661

摘要：多智能体强化学习长期以来一直是机器学习和控制领域的重要研究课题。最近在（单智能体）深度强化学习领域的进展重新唤醒了对多智能体强化学习的研究兴趣，尤其在理论分析方面。本文回顾这个大课题中的一个子领域：带有网络智能体的去中心化多智能体强化学习。在这一场景中，多个智能体在一个共同的环境中进行序贯决策，无需中心控制器的协调，且智能体被允许和它们在通信网络上的邻居交换信息。这样的一个模型在很多方向都有相关应用，包括机器人控制、无人车控制、移动传感器网络控制、智能电网，等等。本综述旨在覆盖和整理我们和其他科研人员在这一方向的相关工作。

关键词：强化学习；多智能体系统；网络系统；一致性优化；分布式优化；博弈论

HTML PDF 收藏

多智能体协作与博弈展望：挑战、技术和应用 Perspective

刘瑜1,李徵2,姜智卓2,何友1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1002-1009 doi: 10.1631/FITEE.2200055

摘要：近年来，多智能体系统在解决复杂环境中各种决策问题方面取得显著进步，并已实现与人类相似甚至更好的决策性能。本文从任务挑战、技术方向和应用领域3个角度简要回顾多智能体协作和博弈相关技术。首先回顾近期多智能体系统工作中的典型研究问题和挑战，然后进一步讨论关于多智能体协作和游戏任务的前沿研究方向，最后对多智能体协作与博弈的应用领域进行重点展望。

关键词：多智能体；博弈论；集体智能；强化学习；智能控制

HTML PDF 收藏

基于多智能体微分博弈的数据驱动协同一致控制 Research Article

石宇1,化永朝2,于江龙1,董希旺1,2,任章1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1043-1056 doi: 10.1631/FITEE.2200001

摘要：本文研究了多智能体微分博弈问题及其在协同一致控制中的应用。提出系统化的多智能体微分博弈构建和分析方法，同时给出一种基于强化学习技术的数据驱动方法。构造了一种无需系统模型信息的离轨策略强化学习算法，利用在线邻居交互数据对控制器进行优化更新，并证明控制器的稳定性和鲁棒性。进一步提出一种基于改进耦合指标函数的微分博弈模型及其等效的强化学习求解方法。与现有研究相比，该模型解决了多智能体所需信息的耦合问题，并实现分布式框架下全局纳什均衡和稳定控制。构造了与此纳什解对应的等价并行强化学习方法。最后，仿真结果验证了学习过程的有效性和一致控制的稳定性。

关键词：多智能体系统；微分博弈；一致控制；数据驱动；强化学习

HTML PDF 收藏

多智能体分布式智能控制在VAV空调系统中的应用

张宏伟,吴爱国,盛涛

《中国工程科学》 2006年第8卷第7期页码 58-62

摘要：

针对变风量（VAV）空调系统的特性，将VAV系统分解为多个智能体，提出了基于多智能体技术的分布式智能控制方法，有效地解决了变风量空调系统回路间的解耦和协调问题。建立了VAV系统的动态仿真程序，仿真结果表明该控制方法是有效的。

关键词：变风量智能体多智能体系统分布式智能控制

HTML PDF 收藏

基于多智能体深度强化学习的工业无线网络端边协同资源分配 Research Article

刘晓宇1,2,3,4,许驰1,2,3,于海斌1,2,3,曾鹏1,2,3

《信息与电子工程前沿（英文）》 2022年第23卷第1期页码 47-60 doi: 10.1631/FITEE.2100331

摘要：面向资源受限的工业无线网络，我们提出一种基于多智能体深度强化学习的资源分配（MADRL-RA）算法，实现了端边协同资源分配，支持计算密集型、时延敏感型工业应用。首先，建立了端边协同的工业无线网络系统模型，将具有感知能力的工业设备作为自学习的智能代理。然后，采用马尔可夫决策过程对端边资源分配问题进行形式化描述，建立关于时延和能耗联合优化的最小系统开销问题。接着，利用多智能体深度强化学习克服状态空间维灾，同时学习关于计算决策、算力分配和传输功率的有效资源分配策略。为了打破训练数据的时间相关性，同时加速MADRL-RA学习过程，设计了一种带经验权重的经验回放方法，对经验进行分类存储和采样。在此基础上，提出步进的ε-贪婪方法来平衡智能代理对经验的利用与探索。实验结果表明，MADRL-RA收敛速度快，能够学习到有效资源分配策略以实现最小系统开销。

关键词：多智能体深度强化学习；端边协同；工业无线网络；时延；能耗

HTML PDF 收藏

基于多智能体强化学习的车载自组织网络协作信道分配 Research Articles

王云鹏,郑坤贤,田大新,段续庭,周建山

《信息与电子工程前沿（英文）》 2020年第21卷第7期页码 1047-1058 doi: 10.1631/FITEE.1900308

摘要：为解决该问题，提出一种基于多智能体强化学习（RL）的协作动态信道分配（RL-CDCA）机制。具体而言，每个车辆节点都可借助2个互相协作的RL模型，从实时信道状态信息中成功学习信道选择和信道接入自适应退避的正确策略。多智能体RL-CDCA驱动节点共享本地奖励并合并区域内其他节点各自的奖励，以便它们能够以分布式协作方式优化各自策略。仿真结果表明，与4种现有机制相比，所提多智能体RL-CDCA算法即便在路网车辆高度密集的情况下仍能将单跳数据包传输延迟减少不小于73.73％，将平均数据包递送成功率提高不小于12.66％，并更好地保证网络资源分配公平性

关键词：车载自组织网络；强化学习；动态信道分配；多信道

HTML PDF 收藏

输入饱和下多智能体系统最优一致性控制：一类非零和博弈方法 Research Article

李洪阳1,2,魏庆来1,2,3

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1010-1019 doi: 10.1631/FITEE.2200010

摘要：本文针对输入饱和下的多智能体系统，提出一种最优一致性控制方法。引入多智能体博弈理论，将最优一致性控制问题转化为多智能体非零和博弈。提出脱策强化学习方法，在系统模型未知情况下获得Nash平衡解；引入评判神经网络和执行神经网络实现所提方法。理论分析显示迭代控制律收敛到Nash平衡。仿真实验验证了所提方法的有效性。

关键词：最优一致性控制；多智能体系统；非零和博弈；自适应动态规划；输入饱和；脱策强化学习；策略迭代

HTML PDF 收藏

博弈的存在与实践：对多智能体博弈发展的思考 Perspective

董琦1,吴镇宇1,2,陆军1,孙凤松1,3,王锦宇1,3,杨焱煜1,尚晓舟1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 995-1001 doi: 10.1631/FITEE.2100593

摘要：本文从人类对博弈的认识过程出发，探讨了博弈的存在与实践，阐述了多智能体博弈研究难点，并基于演化思想，从系统论的角度出发，提出多智能体演化博弈理论框架。以下一代预警探测系统为例，介绍了多智能体演化博弈的应用实践。构建了多智能体自组织博弈决策模型和多智能体强化学习方法，对研究高维复杂环境下的组织化、体系化博弈行为具有重要意义。

关键词：博弈；多智能体系统；多智能体演化博弈；预警探测

HTML PDF 收藏

基于自适应置信度校准的交互式医疗图像分割框架

沈楚云,李文浩,徐琪森,胡斌,金博,蔡海滨,朱凤平,李郁欣,王祥丰

《信息与电子工程前沿（英文）》 2023年第24卷第9期页码 1332-1348 doi: 10.1631/FITEE.2200299

摘要：为更好地利用不同时间尺度上的交互信息，本文提出一种基于自适应置信度校准的交互式医疗图像分割框架MECCA，其结合了基于分割决策的置信度学习技术和多智能体强化学习技术，并通过预测分割决策与短期交互信息的对齐水平来学习一个新颖的置信度网络

关键词：医疗图像分割交互式分割多智能体强化学习置信度学习半监督学习

HTML 收藏

一种新型的有向拓扑条件下普通线性多智能体系统的一致性协议 Article

Hao-liang LI, Ren-nong YANG, Qiu-ni LI

《信息与电子工程前沿（英文）》 2017年第18卷第8期页码 1071-1081 doi: 10.1631/FITEE.1601422

摘要：本文研究了普通线性多智能体系统在有向拓扑条件下的一致性问题。首先基于分布式PID（Proportional-integral-derivative）控制提出了一种新的一致性协议，然后通过变量转换将一致性问题转变为一个渐进稳定问题，通过状态投影方法给出了系统实现一致性的充分必要条件和一致性函数的显示表达式

关键词：多智能体；一致性；PID（Proportional-integral-derivative）控制；线性矩阵不等式

HTML PDF 收藏

具有异构时延的多智能体系统的领导-跟随同步 Research Articles

Branislav REH罧, Volodymyr LYNNYK

《信息与电子工程前沿（英文）》 2021年第22卷第1期页码 1-140 doi: 10.1631/FITEE.2000207

摘要：提出一种由时滞线性智能体组成的多智能体系统的领导-跟随同步算法。各智能体中存在的不同时滞会导致不收敛于零的同步误差。但是，可限制误差范数并给出误差边界。利用线性矩阵不等式对主要结果进行验证，且该问题的规模与智能体数量无关。通过案例对结果进行说明，强调稳定误差是由异构延迟引起的事实，并验证该算法在一定误差范围内有实现同步的能力。

关键词：多智能体系统；时滞；线性矩阵不等式

HTML PDF 收藏

面向人—多机器人协同系统的带记忆强化学习行为控制任务管理器 Research Article

黄捷1,2,3,莫智斌1,2,3,张祯毅1,2,3,陈宇韬1,2,3

《信息与电子工程前沿（英文）》 2022年第23卷第8期页码 1174-1188 doi: 10.1631/FITEE.2100280

摘要：针对人—多机器人协同系统提出一种基于行为控制框架的带记忆强化学习任务管理器（RLTS）。由于重复的人工干预，现有人—多机器人协同系统决策时间成本高、任务跟踪误差大，限制了多机器人系统的自主性。此外，基于零空间行为控制框架的任务管理器依赖手动制定优先级切换规则，难以在多机器人和多任务情况下实现最优行为优先级调整策略。提出一种带记忆强化学习任务管理器，基于零空间行为控制框架融合深度Q-网络和长短时记忆神经网络知识库，实现任务冲突时最优行为优先级调整策略以及降低人为干预频率。当机器人在紧急情况下置信度不足时，所提带记忆强化学习任务管理器会记忆人类干预历史，在遭遇相同人工干预情况时重新加载历史控制信号。仿真结果验证了该方法的有效性。最后，通过一组受外界噪声和干扰的移动机器人实验，验证了所提带记忆强化学习任务管理器在不确定现实环境中的有效性。

关键词：人—多机器人协同系统；基于零空间行为控制；任务管理器；强化学习；知识库

HTML PDF 收藏

正实特征值切换拓扑的一般线性多智能体动态系统稳定性 Article

李升波, 王志涛, 郑洋, 杨殿阁, 游科友

《工程（英文）》 2020年第6卷第6期页码 688-694 doi: 10.1016/j.eng.2020.05.006

摘要：

时变的网络拓扑结构对多智能体系统的稳定性具有重要的影响。本文研究了在拓扑结构切换情况下，具有“领航者-跟随者”拓扑结构的一般线性多智能体动态系统的稳定性，并将其用于网联汽车的队列控制。为描述多智能体之间的信息交换，本文将切换拓扑建模为关联矩阵特征值均为正实数的有向图，利用黎卡提不等式设计了分布式控制率，并估算了闭环系统的收敛速度。研究提出了具有切换拓扑的多智能体系统稳定性充分判据，同时利用共同李雅普诺夫函数证明了该闭环系统的稳定性。将所得到的结论应用于网联汽车的队列控制，证明了所提出方法的有效性。

关键词：稳定性多智能体系统切换拓扑共同李雅普诺夫函数

HTML PDF 收藏

人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用 Article

吴京达, 黄志宇, 胡中旭, 吕辰

《工程（英文）》 2023年第21卷第2期页码 75-91 doi: 10.1016/j.eng.2022.05.017

摘要：

由于机器学习智能和能力有限，它目前仍无法处理各种情况，因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性，所以将人类引入人工智能（AI）的训练回路并利用人类智能进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人类指导（Hug）的深度强化学习
（DRL）方法，用于端到端自动驾驶案例中的策略训练。通过新设计的人类与自动化之间的控制转移机制，人类能够在模型训练过程中实时干预和纠正智能体的不合理行为。所提出的Hug-DRL的快速收敛允许实时的人类指导行为融合到智能体的训练回路中，进一步提高了DRL的效率和性能。

关键词：人在回路AI 深度强化学习人类指导自动驾驶