检索范围:
排序: 展示方式:
基于混合强化学习的自动驾驶汽车行人避撞方法 Research Article
李惠乾1,黄晋1,曹重1,杨殿阁1,钟志华2
《信息与电子工程前沿(英文)》 2023年 第24卷 第1期 页码 131-140 doi: 10.1631/FITEE.2200128
关键词: 行人;混合强化学习;自动驾驶汽车;决策
面向强化学习自动驾驶模型的异步监督学习预训练方法 Research Articles
王云鹏,郑坤贤,田大新,段续庭,周建山
《信息与电子工程前沿(英文)》 2021年 第22卷 第5期 页码 615-766 doi: 10.1631/FITEE.1900637
MDLB:一种基于强化学习的元数据动态负载均衡机制 Research Articles
武兆琪1,卫今2,3,张帆1,郭威1,谢光伟2,3
《信息与电子工程前沿(英文)》 2020年 第21卷 第7期 页码 963-1118 doi: 10.1631/FITEE.1900121
带有网络智能体的去中心化多智能体强化学习进展 Review Article
张凯清1,杨卓然2,Tamer BAŞAR1
《信息与电子工程前沿(英文)》 2021年 第22卷 第6期 页码 802-814 doi: 10.1631/FITEE.1900661
Actor-Critic强化学习算法及其在开发基于计算机视觉的界面跟踪中的应用 Article
Oguzhan Dogru, Kirubakaran Velswamy, 黄彪
《工程(英文)》 2021年 第7卷 第9期 页码 1248-1261 doi: 10.1016/j.eng.2021.04.027
熊珞琳,唐漾,刘臣胜,毛帅,孟科,董朝阳,钱锋
《信息与电子工程前沿(英文)》 2023年 第24卷 第9期 页码 1261-1272 doi: 10.1631/FITEE.2200667
基于专家示教聚类经验池的高效深度强化学习 Research Article
王士珉1,赵彬琦1,张政锋1,张军平1,浦剑2
《信息与电子工程前沿(英文)》 2023年 第24卷 第11期 页码 1541-1556 doi: 10.1631/FITEE.2300084
自监督脓毒症治疗推荐算法 Research Articles
朱思涵1,浦剑2
《信息与电子工程前沿(英文)》 2021年 第22卷 第7期 页码 926-939 doi: 10.1631/FITEE.2000127
人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用 Article
吴京达, 黄志宇, 胡中旭, 吕辰
《工程(英文)》 2023年 第21卷 第2期 页码 75-91 doi: 10.1016/j.eng.2022.05.017
由于机器学习智能和能力有限,它目前仍无法处理各种情况,因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性,所以将人类引入人工智能(AI)的训练回路并利用人类智能进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人类指导(Hug)的深度强化学习
(DRL)方法,用于端到端自动驾驶案例中的策略训练。本研究通过40 名受试者的人在回路实验对开发的方法进行了验证,并与其他最先进的学习方法进行了比较。
基于多智能体强化学习的车载自组织网络协作信道分配 Research Articles
王云鹏,郑坤贤,田大新,段续庭,周建山
《信息与电子工程前沿(英文)》 2020年 第21卷 第7期 页码 1047-1058 doi: 10.1631/FITEE.1900308
针对意外崩溃智能体的教练辅助多智能体强化学习框架 Research Article
赵鉴1,赵有朋1,王维埙2,阳明宇1,胡迅晗1,周文罡1,郝建业2,李厚强1
《信息与电子工程前沿(英文)》 2022年 第23卷 第7期 页码 1032-1042 doi: 10.1631/FITEE.2100594
关键词: 多智能体系统;强化学习;意外崩溃智能体
面向人—多机器人协同系统的带记忆强化学习行为控制任务管理器 Research Article
黄捷1,2,3,莫智斌1,2,3,张祯毅1,2,3,陈宇韬1,2,3
《信息与电子工程前沿(英文)》 2022年 第23卷 第8期 页码 1174-1188 doi: 10.1631/FITEE.2100280
碳配额市场下以乙醇胺溶液进行碳捕集的电厂的优化竞标和运行:基于强化学习的Sarsa时间差分算法的解决
李子昂, 王美宏, 丁正桃
《工程(英文)》 2017年 第3卷 第2期 页码 257-265 doi: 10.1016/J.ENG.2017.02.014
对于处在碳配额市场条件下以乙醇胺(MEA) 进行碳捕集的燃煤电厂,本文应用了基于强化学习的Sarsa 时间差分算法为其自行搜寻一种统一的竞标和运行策略。比较两家电厂的贴现累计利润,结果表明:采用Sarsa 学习算法、找到统一的竞标和运行策略的原电厂会更具竞争力。
基于多智能体深度强化学习的工业无线网络端边协同资源分配 Research Article
刘晓宇1,2,3,4,许驰1,2,3,于海斌1,2,3,曾鹏1,2,3
《信息与电子工程前沿(英文)》 2022年 第23卷 第1期 页码 47-60 doi: 10.1631/FITEE.2100331
基于带积分补偿近端策略优化算法的四旋翼控制 Research
胡欢,王庆领
《信息与电子工程前沿(英文)》 2020年 第21卷 第5期 页码 649-808 doi: 10.1631/FITEE.1900641
标题 作者 时间 类型 操作