Search | Engineering

订阅投稿

首页工程期刊工程焦点工程成就工程前沿关于我们 English

资源类型

期刊论文 1390

会议视频 208

会议信息 98

会议专题 3

年份

2024 4

2023 155

2022 200

2021 235

2020 218

2019 176

2018 103

2017 89

2016 42

2015 36

2014 25

2013 19

2012 20

2011 27

2010 26

2009 30

2008 24

2007 41

2006 44

2005 36

展开︾

关键词

智能制造 113

人工智能 89

2020 33

机器学习 27

农业科学 19

2019 15

深度学习 15

学术会议 11

新一代智能制造 10

智能工业 10

仿真技术 9

智能 9

智能化 9

大数据 8

控制 8

智能电网 8

仿真 7

绿色化工 7

信息技术 6

展开︾

检索范围：

排序：展示方式：

多智能体协作与博弈展望：挑战、技术和应用 Perspective

刘瑜1,李徵2,姜智卓2,何友1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1002-1009 doi: 10.1631/FITEE.2200055

摘要：近年来，多智能体系统在解决复杂环境中各种决策问题方面取得显著进步，并已实现与人类相似甚至更好的决策性能。本文从任务挑战、技术方向和应用领域3个角度简要回顾多智能体协作和博弈相关技术。首先回顾近期多智能体系统工作中的典型研究问题和挑战，然后进一步讨论关于多智能体协作和游戏任务的前沿研究方向，最后对多智能体协作与博弈的应用领域进行重点展望。

关键词：多智能体；博弈论；集体智能；强化学习；智能控制

HTML PDF 收藏

带有网络智能体的去中心化多智能体强化学习进展 Review Article

张凯清1,杨卓然2,Tamer BAŞAR1

《信息与电子工程前沿（英文）》 2021年第22卷第6期页码 802-814 doi: 10.1631/FITEE.1900661

摘要：多智能体强化学习长期以来一直是机器学习和控制领域的重要研究课题。最近在（单智能体）深度强化学习领域的进展重新唤醒了对多智能体强化学习的研究兴趣，尤其在理论分析方面。本文回顾这个大课题中的一个子领域：带有网络智能体的去中心化多智能体强化学习。在这一场景中，多个智能体在一个共同的环境中进行序贯决策，无需中心控制器的协调，且智能体被允许和它们在通信网络上的邻居交换信息。这样的一个模型在很多方向都有相关应用，包括机器人控制、无人车控制、移动传感器网络控制、智能电网，等等。本综述旨在覆盖和整理我们和其他科研人员在这一方向的相关工作。

关键词：强化学习；多智能体系统；网络系统；一致性优化；分布式优化；博弈论

HTML PDF 收藏

基于多智能体微分博弈的数据驱动协同一致控制 Research Article

石宇1,化永朝2,于江龙1,董希旺1,2,任章1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1043-1056 doi: 10.1631/FITEE.2200001

摘要：本文研究了多智能体微分博弈问题及其在协同一致控制中的应用。提出系统化的多智能体微分博弈构建和分析方法，同时给出一种基于强化学习技术的数据驱动方法。首先论证了由于网络交互的耦合特性，典型的分布式控制器无法充分保证微分博弈的全局纳什均衡。其次通过定义最优对策的概念，将问题分解为局部微分博弈问题，并给出局部纳什均衡解。构造了一种无需系统模型信息的离轨策略强化学习算法，利用在线邻居交互数据对控制器进行优化更新，并证明控制器的稳定性和鲁棒性。进一步提出一种基于改进耦合指标函数的微分博弈模型及其等效的强化学习求解方法。与现有研究相比，该模型解决了多智能体所需信息的耦合问题，并实现分布式框架下全局纳什均衡和稳定控制。构造了与此纳什解对应的等价并行强化学习方法。最后，仿真结果验证了学习过程的有效性和一致控制的稳定性。

关键词：多智能体系统；微分博弈；一致控制；数据驱动；强化学习

HTML PDF 收藏

针对意外崩溃智能体的教练辅助多智能体强化学习框架 Research Article

赵鉴1,赵有朋1,王维埙2,阳明宇1,胡迅晗1,周文罡1,郝建业2,李厚强1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1032-1042 doi: 10.1631/FITEE.2100594

摘要：多智能体强化学习在实际场景中很难应用，一部分原因在于模拟环境和现实环境之间存在差距。造成这种差距的一个原因是，模拟系统总是假设智能体可以一直正常工作，而实际上，由于不可避免的硬件或软件故障，一个或多个智能体可能会在合作过程中意外 “崩溃”。这样的崩溃会破坏智能体之间的合作，导致系统性能下降。本文中，我们给出了意外崩溃情况下合作多智能体强化学习系统的正式定义。为增强系统应对崩溃时的鲁棒性，提出教练辅助多智能体强化学习框架，其在训练过程中引入一个虚拟教练智能体，以调整系统的崩溃概率。为教练智能体设计了3种教练策略和重采样策略。据我们所知，这是研究多智能体系统中意外崩溃情况的首项工作。在网格环境和星际争霸微管理任务上的大量实验表明，相比固定崩溃概率和课程学习的教练策略，自适应策略更加有效。

关键词：多智能体系统；强化学习；意外崩溃智能体

HTML PDF 收藏

输入饱和下多智能体系统最优一致性控制：一类非零和博弈方法 Research Article

李洪阳1,2,魏庆来1,2,3

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1010-1019 doi: 10.1631/FITEE.2200010

摘要：本文针对输入饱和下的多智能体系统，提出一种最优一致性控制方法。引入多智能体博弈理论，将最优一致性控制问题转化为多智能体非零和博弈。提出脱策强化学习方法，在系统模型未知情况下获得Nash平衡解；引入评判神经网络和执行神经网络实现所提方法。理论分析显示迭代控制律收敛到Nash平衡。仿真实验验证了所提方法的有效性。

关键词：最优一致性控制；多智能体系统；非零和博弈；自适应动态规划；输入饱和；脱策强化学习；策略迭代

HTML PDF 收藏

多智能体分布式智能控制在VAV空调系统中的应用

张宏伟,吴爱国,盛涛

《中国工程科学》 2006年第8卷第7期页码 58-62

摘要：

针对变风量（VAV）空调系统的特性，将VAV系统分解为多个智能体，提出了基于多智能体技术的分布式智能控制方法，有效地解决了变风量空调系统回路间的解耦和协调问题。建立了VAV系统的动态仿真程序，仿真结果表明该控制方法是有效的。

关键词：变风量智能体多智能体系统分布式智能控制

HTML PDF 收藏

博弈的存在与实践：对多智能体博弈发展的思考 Perspective

董琦1,吴镇宇1,2,陆军1,孙凤松1,3,王锦宇1,3,杨焱煜1,尚晓舟1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 995-1001 doi: 10.1631/FITEE.2100593

摘要：博弈是宇宙中的一种普遍存在。本文从人类对博弈的认识过程出发，探讨了博弈的存在与实践，阐述了多智能体博弈研究难点，并基于演化思想，从系统论的角度出发，提出多智能体演化博弈理论框架。以下一代预警探测系统为例，介绍了多智能体演化博弈的应用实践。构建了多智能体自组织博弈决策模型和多智能体强化学习方法，对研究高维复杂环境下的组织化、体系化博弈行为具有重要意义。

关键词：博弈；多智能体系统；多智能体演化博弈；预警探测

HTML PDF 收藏

基于多智能体深度强化学习的工业无线网络端边协同资源分配 Research Article

刘晓宇1,2,3,4,许驰1,2,3,于海斌1,2,3,曾鹏1,2,3

《信息与电子工程前沿（英文）》 2022年第23卷第1期页码 47-60 doi: 10.1631/FITEE.2100331

摘要：边缘人工智能通过协同利用设备侧和边缘侧有限的网络、计算资源，赋能工业无线网络以支持复杂和动态工业任务。面向资源受限的工业无线网络，我们提出一种基于多智能体深度强化学习的资源分配（MADRL-RA）算法，实现了端边协同资源分配，支持计算密集型、时延敏感型工业应用。首先，建立了端边协同的工业无线网络系统模型，将具有感知能力的工业设备作为自学习的智能代理。然后，采用马尔可夫决策过程对端边资源分配问题进行形式化描述，建立关于时延和能耗联合优化的最小系统开销问题。接着，利用多智能体深度强化学习克服状态空间维灾，同时学习关于计算决策、算力分配和传输功率的有效资源分配策略。为了打破训练数据的时间相关性，同时加速MADRL-RA学习过程，设计了一种带经验权重的经验回放方法，对经验进行分类存储和采样。在此基础上，提出步进的ε-贪婪方法来平衡智能代理对经验的利用与探索。

关键词：多智能体深度强化学习；端边协同；工业无线网络；时延；能耗

HTML PDF 收藏

基于多智能体强化学习的车载自组织网络协作信道分配 Research Articles

王云鹏,郑坤贤,田大新,段续庭,周建山

《信息与电子工程前沿（英文）》 2020年第21卷第7期页码 1047-1058 doi: 10.1631/FITEE.1900308

摘要：为解决该问题，提出一种基于多智能体强化学习（RL）的协作动态信道分配（RL-CDCA）机制。具体而言，每个车辆节点都可借助2个互相协作的RL模型，从实时信道状态信息中成功学习信道选择和信道接入自适应退避的正确策略。多智能体RL-CDCA驱动节点共享本地奖励并合并区域内其他节点各自的奖励，以便它们能够以分布式协作方式优化各自策略。仿真结果表明，与4种现有机制相比，所提多智能体RL-CDCA算法即便在路网车辆高度密集的情况下仍能将单跳数据包传输延迟减少不小于73.73％，将平均数据包递送成功率提高不小于12.66％，并更好地保证网络资源分配公平性

关键词：车载自组织网络；强化学习；动态信道分配；多信道

HTML PDF 收藏

人工智能在化学逆合成中的应用 Review

Yinjie Jiang, Yemin Yu, Ming Kong, Yu Mei, Luotian Yuan, Zhengxing Huang, Kun Kuang, Zhihua Wang, Huaxiu Yao, James Zou, Connor W. Coley, Ying Wei

《工程（英文）》 2023年第25卷第6期页码 32-50 doi: 10.1016/j.eng.2022.04.021

摘要：

近年来，人们对通过人工智能（AI）技术解决化学逆合成预测问题产生了巨大的兴趣。与化学家和基于规则的专家系统进行的逆合成预测不同，AI驱动的逆合成预测自动从现成的实验数据集中学习化学知识，以预测反应和逆合成路径。我们首先讨论了化学逆合成的数学定义，并回顾了这个问题中的研究挑战。然后，我们回顾相关的AI技术和最新进度，以实现逆合成预测。

关键词：化学逆合成预测人工智能图神经网络深度强化学习

HTML PDF 收藏

基于自适应置信度校准的交互式医疗图像分割框架

沈楚云,李文浩,徐琪森,胡斌,金博,蔡海滨,朱凤平,李郁欣,王祥丰

《信息与电子工程前沿（英文）》 2023年第24卷第9期页码 1332-1348 doi: 10.1631/FITEE.2200299

摘要：为更好地利用不同时间尺度上的交互信息，本文提出一种基于自适应置信度校准的交互式医疗图像分割框架MECCA，其结合了基于分割决策的置信度学习技术和多智能体强化学习技术，并通过预测分割决策与短期交互信息的对齐水平来学习一个新颖的置信度网络

关键词：医疗图像分割交互式分割多智能体强化学习置信度学习半监督学习

HTML 收藏

新一代人工智能引领下的智能产品与装备

谭建荣,刘振宇,徐敬华

《中国工程科学》 2018年第20卷第4期页码 35-43 doi: 10.15302/J-SSCAE-2018.04.007

摘要：

智能产品与装备是智能制造和服务的价值载体、技术前提和物质基础。智能产品与装备的内涵体现在两个辩证的方面：一是智能技术的产品化，主要体现在物联网、大数据、云计算、边缘计算、机器学习、深度学习、安全监控、自动化控制、计算机技术、精密传感技术、GPS定位技术等的综合应用；二是传统产品的智能化，借势新一代人工智能，赋予传统产品以更高智慧，在智能制造装备、智能生产、智能管理等方面注入强劲生命力和发展动能。在广泛科学调研和已有研究基础上，结合《中国制造2025》的十大重点领域及《人工智能三年行动计划》等宏观政策，拟定了智能产品与装备的十二大装备领域。研究表明，新一代智能产品与装备以知识工程为核心，以自感应、自适应、自学习和自决策为显著特征。未来将重点发展该领域的十大关键技术。

关键词：智能产品与装备知识工程智能状态感应智能变异适应智能知识学习智能控制决策

HTML PDF 收藏

人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用 Article

吴京达, 黄志宇, 胡中旭, 吕辰

《工程（英文）》 2023年第21卷第2期页码 75-91 doi: 10.1016/j.eng.2022.05.017

摘要：

由于机器学习智能和能力有限，它目前仍无法处理各种情况，因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性，所以将人类引入人工智能（AI）的训练回路并利用人类智能进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人类指导（Hug）的深度强化学习
（DRL）方法，用于端到端自动驾驶案例中的策略训练。通过新设计的人类与自动化之间的控制转移机制，人类能够在模型训练过程中实时干预和纠正智能体的不合理行为。所提出的Hug-DRL的快速收敛允许实时的人类指导行为融合到智能体的训练回路中，进一步提高了DRL的效率和性能。

关键词：人在回路AI 深度强化学习人类指导自动驾驶

HTML PDF 收藏

基于非正交多址接入的雾无线接入网络中网络效益最大化的资源分配：博弈论方法 Research Article

曹雪妍,闫实,张洪铭

《信息与电子工程前沿（英文）》 2022年第23卷第10期页码 1546-1561 doi: 10.1631/FITEE.2100341

摘要：

基于非正交多址接入(NOMA)的雾无线接入网(F-RANs)提供了高频谱效率、超低延迟和巨大的网络吞吐量，这得益于雾接入点(F-APs)的边缘计算和通信功能。最后，我们提出一种迭代方法和一种基于Stackelberg博弈的方法来求解各子问题。数值结果表明，在基于NOMA的F-RANs中，与现有资源分配方案相比，所提出的方法可以显著提高网络效益。

关键词：雾无线接入网；非正交多址接入；博弈论；缓存放置；资源分配