检索范围:
排序: 展示方式:
针对意外崩溃智能体的教练辅助多智能体强化学习框架 Research Article
赵鉴1,赵有朋1,王维埙2,阳明宇1,胡迅晗1,周文罡1,郝建业2,李厚强1
《信息与电子工程前沿(英文)》 2022年 第23卷 第7期 页码 1032-1042 doi: 10.1631/FITEE.2100594
关键词: 多智能体系统;强化学习;意外崩溃智能体
带有网络智能体的去中心化多智能体强化学习进展 Review Article
张凯清1,杨卓然2,Tamer BAŞAR1
《信息与电子工程前沿(英文)》 2021年 第22卷 第6期 页码 802-814 doi: 10.1631/FITEE.1900661
多智能体协作与博弈展望:挑战、技术和应用 Perspective
刘瑜1,李徵2,姜智卓2,何友1
《信息与电子工程前沿(英文)》 2022年 第23卷 第7期 页码 1002-1009 doi: 10.1631/FITEE.2200055
基于多智能体微分博弈的数据驱动协同一致控制 Research Article
石宇1,化永朝2,于江龙1,董希旺1,2,任章1
《信息与电子工程前沿(英文)》 2022年 第23卷 第7期 页码 1043-1056 doi: 10.1631/FITEE.2200001
张宏伟,吴爱国,盛涛
《中国工程科学》 2006年 第8卷 第7期 页码 58-62
针对变风量(VAV)空调系统的特性,将VAV系统分解为多个智能体,提出了基于多智能体技术的分布式智能控制方法,有效地解决了变风量空调系统回路间的解耦和协调问题。建立了VAV系统的动态仿真程序,仿真结果表明该控制方法是有效的。
基于多智能体深度强化学习的工业无线网络端边协同资源分配 Research Article
刘晓宇1,2,3,4,许驰1,2,3,于海斌1,2,3,曾鹏1,2,3
《信息与电子工程前沿(英文)》 2022年 第23卷 第1期 页码 47-60 doi: 10.1631/FITEE.2100331
基于多智能体强化学习的车载自组织网络协作信道分配 Research Articles
王云鹏,郑坤贤,田大新,段续庭,周建山
《信息与电子工程前沿(英文)》 2020年 第21卷 第7期 页码 1047-1058 doi: 10.1631/FITEE.1900308
输入饱和下多智能体系统最优一致性控制:一类非零和博弈方法 Research Article
李洪阳1,2,魏庆来1,2,3
《信息与电子工程前沿(英文)》 2022年 第23卷 第7期 页码 1010-1019 doi: 10.1631/FITEE.2200010
博弈的存在与实践:对多智能体博弈发展的思考 Perspective
董琦1,吴镇宇1,2,陆军1,孙凤松1,3,王锦宇1,3,杨焱煜1,尚晓舟1
《信息与电子工程前沿(英文)》 2022年 第23卷 第7期 页码 995-1001 doi: 10.1631/FITEE.2100593
一种新型的有向拓扑条件下普通线性多智能体系统的一致性协议 Article
Hao-liang LI, Ren-nong YANG, Qiu-ni LI
《信息与电子工程前沿(英文)》 2017年 第18卷 第8期 页码 1071-1081 doi: 10.1631/FITEE.1601422
关键词: 多智能体;一致性;PID(Proportional-integral-derivative)控制;线性矩阵不等式
具有异构时延的多智能体系统的领导-跟随同步 Research Articles
Branislav REH罧, Volodymyr LYNNYK
《信息与电子工程前沿(英文)》 2021年 第22卷 第1期 页码 1-140 doi: 10.1631/FITEE.2000207
关键词: 多智能体系统;时滞;线性矩阵不等式
面向人—多机器人协同系统的带记忆强化学习行为控制任务管理器 Research Article
黄捷1,2,3,莫智斌1,2,3,张祯毅1,2,3,陈宇韬1,2,3
《信息与电子工程前沿(英文)》 2022年 第23卷 第8期 页码 1174-1188 doi: 10.1631/FITEE.2100280
正实特征值切换拓扑的一般线性多智能体动态系统稳定性 Article
李升波, 王志涛, 郑洋, 杨殿阁, 游科友
《工程(英文)》 2020年 第6卷 第6期 页码 688-694 doi: 10.1016/j.eng.2020.05.006
时变的网络拓扑结构对多智能体系统的稳定性具有重要的影响。本文研究了在拓扑结构切换情况下,具有“领航者-跟随者”拓扑结构的一般线性多智能体动态系统的稳定性,并将其用于网联汽车的队列控制。为描述多智能体之间的信息交换,本文将切换拓扑建模为关联矩阵特征值均为正实数的有向图,利用黎卡提不等式设计了分布式控制率,并估算了闭环系统的收敛速度。研究提出了具有切换拓扑的多智能体系统稳定性充分判据,同时利用共同李雅普诺夫函数证明了该闭环系统的稳定性。将所得到的结论应用于网联汽车的队列控制,证明了所提出方法的有效性。
人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用 Article
吴京达, 黄志宇, 胡中旭, 吕辰
《工程(英文)》 2023年 第21卷 第2期 页码 75-91 doi: 10.1016/j.eng.2022.05.017
由于机器学习智能和能力有限,它目前仍无法处理各种情况,因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性,所以将人类引入人工智能(AI)的训练回路并利用人类智能进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人类指导(Hug)的深度强化学习
(DRL)方法,用于端到端自动驾驶案例中的策略训练。通过新设计的人类与自动化之间的控制转移机制,人类能够在模型训练过程中实时干预和纠正智能体的不合理行为。所提出的Hug-DRL的快速收敛允许实时的人类指导行为融合到智能体的训练回路中,进一步提高了DRL的效率和性能。
标题 作者 时间 类型 操作