检索范围:
排序: 展示方式:
《机械工程前沿(英文)》 2022年 第17卷 第2期 doi: 10.1007/s11465-022-0673-7
关键词: deep reinforcement learning hyper parameter optimization convolutional neural network fault diagnosis
Automated synthesis of steady-state continuous processes using reinforcement learning
《化学科学与工程前沿(英文)》 2022年 第16卷 第2期 页码 288-302 doi: 10.1007/s11705-021-2055-9
关键词: automated process synthesis flowsheet synthesis artificial intelligence machine learning reinforcement learning
Shaojun ZHU; Makoto OHSAKI; Kazuki HAYASHI; Shaohan ZONG; Xiaonong GUO
《结构与土木工程前沿(英文)》 2022年 第16卷 第11期 页码 1397-1414 doi: 10.1007/s11709-022-0860-y
关键词: progressive collapse alternate load path demolition planning reinforcement learning graph embedding
Recent development on statistical methods for personalized medicine discovery
null
《医学前沿(英文)》 2013年 第7卷 第1期 页码 102-110 doi: 10.1007/s11684-013-0245-7
It is well documented that patients can show significant heterogeneous responses to treatments so the best treatment strategies may require adaptation over individuals and time. Recently, a number of new statistical methods have been developed to tackle the important problem of estimating personalized treatment rules using single-stage or multiple-stage clinical data. In this paper, we provide an overview of these methods and list a number of challenges.
关键词: dynamic treatment regimes personalized medicine reinforcement learning Q-learning
何祥坤, 黄文辉, 吕辰
《工程(英文)》 2024年 第33卷 第2期 页码 77-89 doi: 10.1016/j.eng.2023.10.005
While autonomous vehicles are vital components of intelligent transportation systems, ensuring the trustworthiness of decision-making remains a substantial challenge in realizing autonomous driving. Therefore, we present a novel robust reinforcement learning approach with safety guarantees to attain trustworthy decision-making for autonomous vehicles. The proposed technique ensures decision trustworthiness in terms of policy robustness and collision safety. Specifically, an adversary model is learned online to simulate the worst-case uncertainty by approximating the optimal adversarial perturbations on the observed states and environmental dynamics. In addition, an adversarial robust actor-critic algorithm is developed to enable the agent to learn robust policies against perturbations in observations and dynamics. Moreover, we devise a safety mask to guarantee the collision safety of the autonomous driving agent during both the training and testing processes using an interpretable knowledge model known as the Responsibility-Sensitive Safety Model. Finally, the proposed approach is evaluated through both simulations and experiments. These results indicate that the autonomous driving agent can make trustworthy decisions and drastically reduce the number of collisions through robust safety policies.
关键词: Autonomous vehicle Decision-making Reinforcement learning Adversarial attack Safety guarantee
Actor-Critic强化学习算法及其在开发基于计算机视觉的界面跟踪中的应用 Article
Oguzhan Dogru, Kirubakaran Velswamy, 黄彪
《工程(英文)》 2021年 第7卷 第9期 页码 1248-1261 doi: 10.1016/j.eng.2021.04.027
本文通过将对象跟踪形式化为序列决策过程,使控制理论与计算机视觉实现同步。强化学习(RL)智能体成功跟踪了两种液体之间的界面,这通常是化学、石化、冶金和石油行业中跟踪的关键变量。该方法使用少于100 张图像来创建环境,智能体无需专家知识即可从中生成自己的数据。与依赖大量参数的监督学习(SL)方法不同,这种方法需要的参数少得多,这自然降低了维护成本。除了经济性外,该智能体还对环境不确定性(如遮挡、强度变化和过度噪声)具有鲁棒性。在闭环控制情境下,基于界面位置的偏差被选作训练阶段的优化目标。该方法展示了RL方法在油砂行业中的实时对象跟踪应用。本文除了介绍界面跟踪问题外,还详细回顾了最有效的RL方法之一——actor-critic策略。
基于专家示教聚类经验池的高效深度强化学习 Research Article
王士珉1,赵彬琦1,张政锋1,张军平1,浦剑2
《信息与电子工程前沿(英文)》 2023年 第24卷 第11期 页码 1541-1556 doi: 10.1631/FITEE.2300084
熊珞琳,唐漾,刘臣胜,毛帅,孟科,董朝阳,钱锋
《信息与电子工程前沿(英文)》 2023年 第24卷 第9期 页码 1261-1272 doi: 10.1631/FITEE.2200667
人在回路的深度强化学习算法及其在自动驾驶智能决策中的应用 Article
吴京达, 黄志宇, 胡中旭, 吕辰
《工程(英文)》 2023年 第21卷 第2期 页码 75-91 doi: 10.1016/j.eng.2022.05.017
由于机器学习智能和能力有限,它目前仍无法处理各种情况,因此不能在现实应用中完全取代人类。因为人类在复杂场景中表现出稳健性和适应性,所以将人类引入人工智能(AI)的训练回路并利用人类智能进一步提升机器学习算法变得至关重要。本研究开发了一种基于实时人类指导(Hug)的深度强化学习
(DRL)方法,用于端到端自动驾驶案例中的策略训练。通过新设计的人类与自动化之间的控制转移机制,人类能够在模型训练过程中实时干预和纠正智能体的不合理行为。基于这种人在回路的指导机制,本研究开发一种基于修正策略和价值网络的改良的演员-评论家架构(actor-critic architecture)。所提出的Hug-DRL的快速收敛允许实时的人类指导行为融合到智能体的训练回路中,进一步提高了DRL的效率和性能。本研究通过40 名受试者的人在回路实验对开发的方法进行了验证,并与其他最先进的学习方法进行了比较。结果表明,该方法可以在人类指导下有效地提高DRL算法的训练效率和性能,且不特定要求参与者的专业知识或经验。
基于逆强化学习理论的自适应行车场景的拟人化避障轨迹规划研究 Article
武健, 闫扬, 刘玉龙, 刘亚辉
《工程(英文)》 2024年 第33卷 第2期 页码 133-145 doi: 10.1016/j.eng.2023.07.018
The forward design of trajectory planning strategies requires preset trajectory optimization functions, resulting in poor adaptability of the strategy and an inability to accurately generate obstacle avoidance trajectories that conform to real driver behavior habits. In addition, owing to the strong time-varying dynamic characteristics of obstacle avoidance scenarios, it is necessary to design numerous trajectory optimization functions and adjust the corresponding parameters. Therefore, an anthropomorphic obstacle-avoidance trajectory planning strategy for adaptive driving scenarios is proposed. First, numerous expert-demonstrated trajectories are extracted from the HighD natural driving dataset. Subsequently, a trajectory expectation feature-matching algorithm is proposed that uses maximum entropy inverse reinforcement learning theory to learn the extracted expert-demonstrated trajectories and achieve automatic acquisition of the optimization function of the expert-demonstrated trajectory. Furthermore, a mapping model is constructed by combining the key driving scenario information that affects vehicle obstacle avoidance with the weight of the optimization function, and an anthropomorphic obstacle avoidance trajectory planning strategy for adaptive driving scenarios is proposed. Finally, the proposed strategy is verified based on real driving scenarios. The results show that the strategy can adjust the weight distribution of the trajectory optimization function in real time according to the “emergency degree” of obstacle avoidance and the state of the vehicle. Moreover, this strategy can generate anthropomorphic trajectories that are similar to expert-demonstrated trajectories, effectively improving the adaptability and acceptability of trajectories in driving scenarios.
关键词: Obstacle avoidance trajectory planning Inverse reinforcement theory Anthropomorphic Adaptive driving scenarios
针对意外崩溃智能体的教练辅助多智能体强化学习框架 Research Article
赵鉴1,赵有朋1,王维埙2,阳明宇1,胡迅晗1,周文罡1,郝建业2,李厚强1
《信息与电子工程前沿(英文)》 2022年 第23卷 第7期 页码 1032-1042 doi: 10.1631/FITEE.2100594
关键词: 多智能体系统;强化学习;意外崩溃智能体
基于多智能体强化学习的车载自组织网络协作信道分配 Research Articles
王云鹏,郑坤贤,田大新,段续庭,周建山
《信息与电子工程前沿(英文)》 2020年 第21卷 第7期 页码 1047-1058 doi: 10.1631/FITEE.1900308
基于混合强化学习的自动驾驶汽车行人避撞方法 Research Article
李惠乾1,黄晋1,曹重1,杨殿阁1,钟志华2
《信息与电子工程前沿(英文)》 2023年 第24卷 第1期 页码 131-140 doi: 10.1631/FITEE.2200128
关键词: 行人;混合强化学习;自动驾驶汽车;决策
面向人—多机器人协同系统的带记忆强化学习行为控制任务管理器 Research Article
黄捷1,2,3,莫智斌1,2,3,张祯毅1,2,3,陈宇韬1,2,3
《信息与电子工程前沿(英文)》 2022年 第23卷 第8期 页码 1174-1188 doi: 10.1631/FITEE.2100280
碳配额市场下以乙醇胺溶液进行碳捕集的电厂的优化竞标和运行:基于强化学习的Sarsa时间差分算法的解决
李子昂, 王美宏, 丁正桃
《工程(英文)》 2017年 第3卷 第2期 页码 257-265 doi: 10.1016/J.ENG.2017.02.014
对于处在碳配额市场条件下以乙醇胺(MEA) 进行碳捕集的燃煤电厂,本文应用了基于强化学习的Sarsa 时间差分算法为其自行搜寻一种统一的竞标和运行策略。电厂的决策者的目的被定义为最大化电厂寿命下的贴现累计利润。其中,我们引入以下两个限制条件:一是碳捕集的高能耗和电力生产之间的权衡;二是碳排放交易市场中竞得的碳配额数量与电力生产导致的实际碳排放量的近似相等。本文给出了三个案例方便研究。第一个案例中,我们展示了Sarsa 算法将收敛到一个确定且优化的竞标和运行策略。第二个案例中,相互独立设计的运行和竞标策略与统一设计的运行和竞标策略相互比较,以表明加入了随时间变化、市场导向的碳捕集水平后,Sarsa 算法将有助于电厂决策者获得更高的贴现累计利润。第三个案例则引入了处在同一碳配额市场的另一电厂作为原电厂的竞争对手。两家电厂设置了相同的发电和二氧化碳捕集设备,但新电厂采用不同的策略获得利润。比较两家电厂的贴现累计利润,结果表明:采用Sarsa 学习算法、找到统一的竞标和运行策略的原电厂会更具竞争力。
标题 作者 时间 类型 操作
A new automatic convolutional neural network based on deep reinforcement learning for fault diagnosis
期刊论文
Deep reinforcement learning-based critical element identification and demolition planning of frame structures
Shaojun ZHU; Makoto OHSAKI; Kazuki HAYASHI; Shaohan ZONG; Xiaonong GUO
期刊论文