Search | Engineering

订阅投稿

首页工程期刊工程焦点工程成就工程前沿关于我们 English

资源类型

期刊论文 411

年份

2024 1

2023 63

2022 58

2021 53

2020 38

2019 40

2018 30

2017 34

2016 13

2015 7

2014 6

2013 4

2012 3

2011 4

2010 5

2009 5

2008 5

2007 5

2006 6

2005 3

展开︾

关键词

机器学习 27

深度学习 15

人工智能 10

过程强化 6

代理模型 2

化学反应 2

大数据 2

强化 2

强化学习 2

材料设计 2

析出强化 2

电动汽车 2

电化学储能 2

结构健康监测 2

高层建筑 2

1) 1

2D—3D配准 1

3D打印 1

6G 1

展开︾

检索范围：

排序：展示方式：

基于混合强化学习的自动驾驶汽车行人避撞方法 Research Article

李惠乾1,黄晋1,曹重1,杨殿阁1,钟志华2

《信息与电子工程前沿（英文）》 2023年第24卷第1期页码 131-140 doi: 10.1631/FITEE.2200128

摘要：经典的行人避撞策略无法应对不确定性，而基于学习的方法缺乏明确的性能保障。本文提出一种基于混合强化学习的行人避撞方法，以使自动驾驶车辆能够与具有行为不确定性的行人安全交互。该方法集成了规则策略和强化学习策略，并设计了一个激活函数选择具有更高置信度的作为最终策略，通过这种方式保证最终策略的表现不亚于规则策略。

关键词：行人；混合强化学习；自动驾驶汽车；决策

HTML PDF 收藏

面向强化学习自动驾驶模型的异步监督学习预训练方法 Research Articles

王云鹏,郑坤贤,田大新,段续庭,周建山

《信息与电子工程前沿（英文）》 2021年第22卷第5期页码 615-766 doi: 10.1631/FITEE.1900637

摘要：强化学习（reinforcement learning，RL）因其在各种顺序控制问题上的出色表现而被应用于自动驾驶系统设计。然而，基于RL的自动驾驶系统落地应用所面临的主要挑战是其初始性能不佳。强化学习训练需要大量训练数据，然后模型才能达到合理的性能要求，这使得基于强化学习的模型不适用于现实环境，尤其在数据昂贵的情况下。本文为基于强化学习的端到端自动驾驶模型提出一种异步监督学习（asynchronous supervised learning，ASL）方法，以解决在实际环境中训练基于强化学习模型时初始性能差的问题。经过预训练后，模型将被部署到真实车辆上进一步开展强化学习训练，以适应实际环境并不断突破性能极限。仿真结果表明，在有监督的预训练阶段使用一些演示，可以显著提高强化学习训练阶段的初始性能和收敛速度。

关键词：自主驾驶；自动驾驶车辆；强化学习；监督学习

HTML PDF 收藏

MDLB：一种基于强化学习的元数据动态负载均衡机制 Research Articles

武兆琪1,卫今2,3,张帆1,郭威1,谢光伟2,3

《信息与电子工程前沿（英文）》 2020年第21卷第7期页码 963-1118 doi: 10.1631/FITEE.1900121

摘要：提出一种基于强化学习的动态负载平衡机制（MDLB）。采用Q_learning算法，所提基于强化学习机制由3个模块组成，即策略选择网络、负载均衡网络和参数更新网络。

关键词：面向对象的存储系统；元数据；动态负载均衡；强化学习；Q_learning

HTML PDF 收藏

带有网络智能体的去中心化多智能体强化学习进展 Review Article

张凯清1,杨卓然2,Tamer BAŞAR1

《信息与电子工程前沿（英文）》 2021年第22卷第6期页码 802-814 doi: 10.1631/FITEE.1900661

摘要：多智能体强化学习长期以来一直是机器学习和控制领域的重要研究课题。最近在（单智能体）深度强化学习领域的进展重新唤醒了对多智能体强化学习的研究兴趣，尤其在理论分析方面。本文回顾这个大课题中的一个子领域：带有网络智能体的去中心化多智能体强化学习。

关键词：强化学习；多智能体系统；网络系统；一致性优化；分布式优化；博弈论

HTML PDF 收藏

Actor-Critic强化学习算法及其在开发基于计算机视觉的界面跟踪中的应用 Article

Oguzhan Dogru, Kirubakaran Velswamy, 黄彪

《工程（英文）》 2021年第7卷第9期页码 1248-1261 doi: 10.1016/j.eng.2021.04.027

摘要：强化学习（RL）智能体成功跟踪了两种液体之间的界面，这通常是化学、石化、冶金和石油行业中跟踪的关键变量。该方法使用少于100 张图像来创建环境，智能体无需专家知识即可从中生成自己的数据。与依赖大量参数的监督学习（SL）方法不同，这种方法需要的参数少得多，这自然降低了维护成本。除了经济性外，该智能体还对环境不确定性（如遮挡、强度变化和过度噪声）具有鲁棒性。

关键词：界面跟踪对象跟踪遮挡强化学习均匀流形逼近和投影

HTML PDF 收藏

基于解耦价值和策略强化学习的家庭能源管理方法

熊珞琳,唐漾,刘臣胜,毛帅,孟科,董朝阳,钱锋

《信息与电子工程前沿（英文）》 2023年第24卷第9期页码 1261-1272 doi: 10.1631/FITEE.2200667

摘要：本文提出一种基于数据驱动的深度强化学习家庭能源管理方法。

关键词：家庭能源系统电动汽车强化学习泛化性

HTML 收藏

基于专家示教聚类经验池的高效深度强化学习 Research Article

王士珉1,赵彬琦1,张政锋1,张军平1,浦剑2

《信息与电子工程前沿（英文）》 2023年第24卷第11期页码 1541-1556 doi: 10.1631/FITEE.2300084

摘要：作为强化学习领域最基本的主题之一，样本效率对于深度强化学习算法的部署至关重要。在6种不同的连续运动环境中进行了实验，结果表明选择性采样方法具有卓越的强化学习性能和更快的收敛速度。特别地，在LGSVL任务中，该方法可以减少46.7%的收敛步数和28.5%的收敛时间。

关键词：强化学习；采样效率；采样过程；聚类方法；自动驾驶

HTML PDF 收藏

自监督脓毒症治疗推荐算法 Research Articles

朱思涵1,浦剑2

《信息与电子工程前沿（英文）》 2021年第22卷第7期页码 926-939 doi: 10.1631/FITEE.2000127

摘要：本文将强化学习应用于个人治疗推荐，采用对样本不确定性进行建模并评估的方法，根据患者对治疗的反应和状态，将患者样本分为两个域，然后使用辅助迁移学习任务重建两个域的样本，使用特权学习的蒸馏方法与用于迁移学习的变分自动编码器框架关联低质量域和高质量域间的任务通过结合自监督方式获得更好的状态和动作表示，本文提出一种针对引起较高风险的不确定性进行控制的深度强化学习方法；模型提供一定的灵活性使之可以在不同场景对模糊样本做出保守预测或明确判断，并降低预期死亡率。

关键词：治疗推荐；脓毒症；自监督学习；强化学习；电子病历

HTML PDF 收藏

人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用 Article

吴京达, 黄志宇, 胡中旭, 吕辰

《工程（英文）》 2023年第21卷第2期页码 75-91 doi: 10.1016/j.eng.2022.05.017

摘要：

由于机器学习智能和能力有限，它目前仍无法处理各种情况，因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性，所以将人类引入人工智能（AI）的训练回路并利用人类智能进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人类指导（Hug）的深度强化学习
（DRL）方法，用于端到端自动驾驶案例中的策略训练。本研究通过40 名受试者的人在回路实验对开发的方法进行了验证，并与其他最先进的学习方法进行了比较。

关键词：人在回路AI 深度强化学习人类指导自动驾驶

HTML PDF 收藏

基于多智能体强化学习的车载自组织网络协作信道分配 Research Articles

王云鹏,郑坤贤,田大新,段续庭,周建山

《信息与电子工程前沿（英文）》 2020年第21卷第7期页码 1047-1058 doi: 10.1631/FITEE.1900308

摘要：为解决该问题，提出一种基于多智能体强化学习（RL）的协作动态信道分配（RL-CDCA）机制。具体而言，每个车辆节点都可借助2个互相协作的RL模型，从实时信道状态信息中成功学习信道选择和信道接入自适应退避的正确策略。此外，将神经网络构造为非线性Q函数逼近器，有助于将感测到的连续输入值映射到混合策略输出。

关键词：车载自组织网络；强化学习；动态信道分配；多信道

HTML PDF 收藏

针对意外崩溃智能体的教练辅助多智能体强化学习框架 Research Article

赵鉴1,赵有朋1,王维埙2,阳明宇1,胡迅晗1,周文罡1,郝建业2,李厚强1

《信息与电子工程前沿（英文）》 2022年第23卷第7期页码 1032-1042 doi: 10.1631/FITEE.2100594

摘要：多智能体强化学习在实际场景中很难应用，一部分原因在于模拟环境和现实环境之间存在差距。本文中，我们给出了意外崩溃情况下合作多智能体强化学习系统的正式定义。为增强系统应对崩溃时的鲁棒性，提出教练辅助多智能体强化学习框架，其在训练过程中引入一个虚拟教练智能体，以调整系统的崩溃概率。在网格环境和星际争霸微管理任务上的大量实验表明，相比固定崩溃概率和课程学习的教练策略，自适应策略更加有效。消融实验进一步展现了重采样策略的有效性。

关键词：多智能体系统；强化学习；意外崩溃智能体

HTML PDF 收藏

面向人—多机器人协同系统的带记忆强化学习行为控制任务管理器 Research Article

黄捷1,2,3,莫智斌1,2,3,张祯毅1,2,3,陈宇韬1,2,3

《信息与电子工程前沿（英文）》 2022年第23卷第8期页码 1174-1188 doi: 10.1631/FITEE.2100280

摘要：针对人—多机器人协同系统提出一种基于行为控制框架的带记忆强化学习任务管理器（RLTS）。由于重复的人工干预，现有人—多机器人协同系统决策时间成本高、任务跟踪误差大，限制了多机器人系统的自主性。提出一种带记忆强化学习任务管理器，基于零空间行为控制框架融合深度Q-网络和长短时记忆神经网络知识库，实现任务冲突时最优行为优先级调整策略以及降低人为干预频率。当机器人在紧急情况下置信度不足时，所提带记忆强化学习任务管理器会记忆人类干预历史，在遭遇相同人工干预情况时重新加载历史控制信号。仿真结果验证了该方法的有效性。最后，通过一组受外界噪声和干扰的移动机器人实验，验证了所提带记忆强化学习任务管理器在不确定现实环境中的有效性。

关键词：人—多机器人协同系统；基于零空间行为控制；任务管理器；强化学习；知识库

HTML PDF 收藏

碳配额市场下以乙醇胺溶液进行碳捕集的电厂的优化竞标和运行：基于强化学习的Sarsa时间差分算法的解决

李子昂, 王美宏, 丁正桃

《工程（英文）》 2017年第3卷第2期页码 257-265 doi: 10.1016/J.ENG.2017.02.014

摘要：

对于处在碳配额市场条件下以乙醇胺(MEA) 进行碳捕集的燃煤电厂，本文应用了基于强化学习的Sarsa 时间差分算法为其自行搜寻一种统一的竞标和运行策略。比较两家电厂的贴现累计利润，结果表明：采用Sarsa 学习算法、找到统一的竞标和运行策略的原电厂会更具竞争力。

关键词：电厂燃烧后碳捕集化学吸收碳配额市场决策优化强化学习

HTML PDF 收藏

基于多智能体深度强化学习的工业无线网络端边协同资源分配 Research Article

刘晓宇1,2,3,4,许驰1,2,3,于海斌1,2,3,曾鹏1,2,3

《信息与电子工程前沿（英文）》 2022年第23卷第1期页码 47-60 doi: 10.1631/FITEE.2100331

摘要：面向资源受限的工业无线网络，我们提出一种基于多智能体深度强化学习的资源分配（MADRL-RA）算法，实现了端边协同资源分配，支持计算密集型、时延敏感型工业应用。首先，建立了端边协同的工业无线网络系统模型，将具有感知能力的工业设备作为自学习的智能代理。然后，采用马尔可夫决策过程对端边资源分配问题进行形式化描述，建立关于时延和能耗联合优化的最小系统开销问题。接着，利用多智能体深度强化学习克服状态空间维灾，同时学习关于计算决策、算力分配和传输功率的有效资源分配策略。为了打破训练数据的时间相关性，同时加速MADRL-RA学习过程，设计了一种带经验权重的经验回放方法，对经验进行分类存储和采样。在此基础上，提出步进的ε-贪婪方法来平衡智能代理对经验的利用与探索。实验结果表明，MADRL-RA收敛速度快，能够学习到有效资源分配策略以实现最小系统开销。

关键词：多智能体深度强化学习；端边协同；工业无线网络；时延；能耗

HTML PDF 收藏

基于带积分补偿近端策略优化算法的四旋翼控制 Research

胡欢,王庆领

《信息与电子工程前沿（英文）》 2020年第21卷第5期页码 649-808 doi: 10.1631/FITEE.1900641

摘要：使用先进的近端策略优化强化学习算法优化随机控制策略，实现对无模型四旋翼飞行器速度的稳定控制。飞行器模型由4个可以学习训练的子神经网络控制，神经网络以一种端到端的方式将模型状态映射为控制命令输送给飞行器执行。将积分补偿器引入行为评估算法框架，可大大提高模型速度跟踪的准确性和鲁棒性。此外，开发了包括离线学习和在线学习的两阶段学习方案，以供实际飞行之需。在在线学习阶段，不断优化模型的飞行策略。最后，对比提出的算法与传统PID算法的实验效果。

关键词：强化学习；近端策略优化；四旋翼控制；神经网络