基于安全合理探索与利用的自动驾驶自进化决策规划

袁康 ,  黄岩军 ,  杨硕 ,  周泽纬 ,  王宇雷 ,  曹东璞 ,  陈虹

工程(英文) ›› 2024, Vol. 33 ›› Issue (2) : 119 -132.

PDF (7847KB)
工程(英文) ›› 2024, Vol. 33 ›› Issue (2) : 119 -132. DOI: 10.1016/j.eng.2023.03.018
研究论文

基于安全合理探索与利用的自动驾驶自进化决策规划

作者信息 +

Evolutionary Decision-Making and Planning for Autonomous Driving Based on Safe and Rational Exploration and Exploitation

Author information +
文章历史 +
PDF (8034K)

摘要

行为决策和运动规划对于自动驾驶的安全性至关重要。本研究提出了一种数据和模型混合驱动的自动驾驶在线决策规划自进化框架。首先,开发了一个基于深度强化学习(DRL)的数据驱动决策模块以尽可能追求合理的驾驶性能。然后,采用模型预测控制(MPC)同时执行纵向和横向运动规划任务,并根据车辆的物理极限定义了多个约束,以满足驾驶任务要求。最后,提出了自动驾驶自进化的安全性和合理性准则。建立了安全运动包络并与所提出的合理探索和利用机制集成,规避了不安全的动作,以此过滤不合理的经验,从而为DRL智能体收集高质量的训练数据。在高保真车辆模型和MATLAB/Simulink联合仿真环境下进行了算法验证,结果表明所提出的在线进化框架能够实现更安全、合理、高效的驾驶行为。

Abstract

Decision-making and motion planning are extremely important in autonomous driving to ensure safe driving in a real-world environment. This study proposes an online evolutionary decision-making and motion planning framework for autonomous driving based on a hybrid data- and model-driven method. First, a data-driven decision-making module based on deep reinforcement learning (DRL) is developed to pursue a rational driving performance as much as possible. Then, model predictive control (MPC) is employed to execute both longitudinal and lateral motion planning tasks. Multiple constraints are defined according to the vehicle’s physical limit to meet the driving task requirements. Finally, two principles of safety and rationality for the self-evolution of autonomous driving are proposed. A motion envelope is established and embedded into a rational exploration and exploitation scheme, which filters out unreasonable experiences by masking unsafe actions so as to collect high-quality training data for the DRL agent. Experiments with a high-fidelity vehicle model and MATLAB/Simulink co-simulation environment are conducted, and the results show that the proposed online-evolution framework is able to generate safer, more rational, and more efficient driving action in a real-world environment.

关键词

自动驾驶 / 决策 / 运动规划 / 深度强化学习 / 模型预测控制

Key words

Autonomous driving / Decision-making / Motion planning / Deep reinforcement learning / Model predictive control

引用本文

引用格式 ▾
袁康,黄岩军,杨硕,周泽纬,王宇雷,曹东璞,陈虹. 基于安全合理探索与利用的自动驾驶自进化决策规划[J]. 工程(英文), 2024, 33(2): 119-132 DOI:10.1016/j.eng.2023.03.018

登录浏览全文

4963

注册一个新账户 忘记密码

1 引言

自动驾驶汽车是汽车工业与人工智能(AI)和高性能计算等新一代信息技术深度融合的产物,已成为全球汽车发展中最重要的方向之一。决策和运动规划是自动驾驶的核心技术,其直接决定了自动驾驶汽车的运动状态和对动态环境的响应。其中,决策模块接收环境和车辆信息,并将期望的驾驶行为输出到运动规划模块;后者进一步将期望轨迹输出到轨迹跟踪器,或直接将期望指令输出到车辆执行器。因此,这两个模块构成了自动驾驶汽车的“大脑”,其性能直接影响了车辆应对动态和开放交通环境的能力。

自动驾驶决策方法通常包括基于规则的方法、基于优化的方法、基于效用函数的方法和基于人工智能的方法。基于规则的方法设计简单,但适用场景有限。Nilsson等[1]通过纵向规划选择安全轨迹来确定合适的变道时间。基于分层状态机的典型决策方法也被广泛使用[2]。Noh [3]提出了一种使用风险度量和贝叶斯网络的鲁棒方法,采用分布式推理结构来确保安全性。基于优化的方法可以实现最优性能,但难以处理无模型问题。Nilsson和Sjoberg [4]采用混合逻辑系统开发了一种基于模型预测控制(MPC)的集成决策方法,并在文献[56]中进一步考虑了周车的运动预测信息。Karlsson等[7]首先使用MPC生成候选轨迹,然后通过优化来确定最优决策。Nilsson等[8]考虑平均行驶时间、剩余时间和交通规则,构造一个效用函数来生成目标车道。Cui等[9]考虑了相对前车的间距和速度满意度来计算效用值。在文献[10]中舒适度、效率、安全性和类人车道选择概率也被用来对效用函数进行设计。效用函数方法结构简单,但评价指标的选择比较复杂。

对于运动规划,现有研究主要可分为两种框架。其一是首先规划轨迹,然后进行轨迹跟踪。常用的轨迹规划方法包括多项式方法[11]、样条方法[12]和回旋曲线方法[13]。广泛使用的轨迹跟踪方法包括比例-积分-微分(PID)控制[1415]、滑模控制(SMC)[1617]和MPC [1819]。然而,这些方法大多忽略了轨迹规划与跟踪控制之间的耦合,容易引起二者冲突。例如,在一个快速变化的环境中,规划的轨迹可能无法被跟踪。而另一种框架则通过优化方法跳过轨迹规划阶段,将转向和纵向控制命令直接输出到车辆执行器。该框架在一定条件下可以获得最优性能,并考虑了轨迹规划与跟踪控制之间的耦合,故得到了广泛的研究,特别是在与MPC相关的方法方面[2024]。MPC可以用于处理具有多约束条件的最优控制问题,并可以天然地模仿驾驶员的预测驾驶行为。

此外,随着人工智能技术的迅猛发展,基于学习的自动驾驶技术得到了广泛研究[25],包括模仿学习(IL)[26]和强化学习(RL)[27]方法。Liu等[28]使用高斯核支持向量机(SVM)来进行变道决策,而Wang等[29]利用长短期记忆神经网络(LSTM)来做出类似人类的决策。端到端学习是另一种流行的技术,它可以将传感信息直接映射到车辆控制指令。Xiao等[30]提出了一种用于端到端自动驾驶的多模态条件模仿学习(CIL)方法。Menner等[31]提出了通过逆向学习来学习参数化的运动规划目标。关于RL方法,Peng等[32]采用双深度Q网络(DQN)方法来设计转向控制器。Lin等[33]进一步利用深度确定性策略梯度算法(DDPG)进行连续自适应巡航控制。此外,He等[34]提出了一种面向不确定交通条件下变道决策的约束鲁棒“演员-评论家”(AC)算法。尽管基于人工智能的方法学习能力强,但其高度依赖于数据,且难以应用于安全关键系统。其他类似的研究详见文献[3539]。

自动驾驶汽车是一个典型的安全关键系统,因此上述方法仍然存在挑战,特别是在开放驾驶环境中。首先,从系统开发的角度来看,现有技术在开发阶段多采用基于规则和模型的方法来开发决策和规划算法,或者采用基于人工智能的方法离线训练得到可行的策略。这些算法或策略随后被部署到自动驾驶汽车上,这使得车辆难以在驾驶员和乘客在环参与的运行阶段具备在线学习和持续进化的能力。然而,为了使自动驾驶汽车能够以一种可持续的、可增长的和可靠的方式应对未知的、动态的和开放的交通环境,这种能力是极其必要的。其次,深度学习的“黑箱”本质和深度强化学习(DRL)的随机试错机制严重影响了车辆在运行阶段在线探索和利用时的安全性和可信度。因此,实现自动驾驶的安全合理进化是又一个重要挑战。最后,现有研究大多忽略了决策和运动规划之间的相互耦合,通常在不考虑车辆运动学和动力学约束影响的规划能力边界的情况下开发决策层。这将导致决策过于激进,无法被规划层很好地执行,或过于保守,而浪费规划层的能力,故难以实现整个决策和规划系统的最佳性能。本研究主要针对上述问题,主要贡献如下:

(1)通过开发一种基于DRL和MPC的混合数据和模型驱动方法,提出了一种新型自动驾驶运行阶段决策和规划的在线进化框架。该框架利用了数据驱动方法的高自适应和自学习能力,以及模型驱动方法的可解释性和处理硬约束的能力。

(2)提出了自动驾驶在线进化中的安全性和合理性两个准则。在此框架上,建立了安全驾驶包络,设计了合理的探索和利用方案,通过屏蔽不安全行为,过滤掉随机和不安全的经验,以获得高质量的训练数据,实现自动驾驶安全合理的自进化。

(3)考虑了决策层与规划层之间的相互耦合,以实现整个系统的最优性能。基于一种安全的在线学习机制,实现了系统在规划层能力边界内的持续进化,并最大限度地利用了规划层的能力。

本文其余部分组织如下:第2节介绍了整个所提出的框架;第3节介绍了数据驱动的进化决策模块以及DQN问题的构造和参数设计;在第4节中详细阐述了基于MPC的模型驱动的运动规划方法;第5节基于预测性安全驾驶包络及合理的探索和利用方案,制定了安全、合理的探索利用机制;最后,第6节进行了案例研究,第7节是全文总结和未来工作。

2 整体算法框架

自动驾驶汽车不仅需要在开放交通环境中具备较高的自适应性和学习能力,而且对学习算法的安全性和学习方式的合理性提出了更高要求。数据驱动的方法虽然很擅长学习,但很难解释,也难以确保严格的安全性。相比之下,模型驱动的方法虽缺乏自适应和自学习能力,但其具有较高的可解释性,并且可以处理各种约束。因此,本研究对两种算法各自的优势进行了集成,提出了一种混合数据和模型驱动的算法框架来处理决策和运动规划任务。其中,决策与车辆自适应和学习能力紧密相关,而运动规划则与车辆安全直接相关。此外,为了在现实驾驶环境中实现安全、合理的自进化,该框架引入了一个安全驾驶包络来处理复杂的安全约束,同时提出了一个合理的探索和利用方案。所提出的框架能够考虑决策和运动规划之间的耦合,即决策的进化是基于运动规划的能力边界。

RL具有无模型、无需监督和自主学习等优势,非常适合学习在复杂不确定场景中难以建模的决策任务。MPC在处理具有硬约束的预测优化控制问题方面具有先天的优势,并很好地反映了人类驾驶员的预测驾驶行为。因此,本研究选择了DRL中的DQN方法来学习离散决策策略,同时使用MPC来进行安全运动规划。需要注意的是,本研究中的规划层接收到决策命令后,直接将所期望的转向和加速度指令输出给车辆执行器。本研究中提出的整体算法框架如图1所示。

该框架由环境模块、数据驱动的进化决策模块、模型驱动的运动规划模块及安全合理的策略探索和利用模块组成。首先,环境模块将自车和周围车辆的运动状态输出到这三个模块。然后,在决策模块中,DQN智能体通过试错不断与环境交互进行迭代学习。在每个时间步长中,DQN智能体将决策命令输出到运动规划模块,并从安全合理的策略探索和利用模块接收到关于当前错误决策的校正信号。接下来,基于MPC的运动规划模块在接收到决策指令后,将期望的驾驶行为解耦为纵向和横向运动,从而分别进行纵向规划和横向规划。最后,在安全合理的策略探索与利用模块中,构建了安全驾驶包络来约束MPC规划问题。进一步设计了基于试错的合理探索和利用方案,以实时地对所需的决策指令进行安全检查和合理的运动校正控制。通过这种方式,当前不合理的期望决策将被屏蔽并反馈给DQN决策智能体。同时,将规划得到的加速度和转向指令输出到环境中,以控制自车。

3 数据驱动的进化决策

本节介绍了基于DQN的进化决策模块,包括决策问题的构建和参数设计。

3.1 基于DQN的决策问题构建

自动驾驶决策可被认为是一个序贯最优决策过程,可用Markov决策过程(MDP)来描述。基于MDP,RL智能体可以通过定义奖励函数,构建优化目标,利用试错学习机制来指导自动驾驶车辆与环境进行交互和学习,最终获得最优决策策略。一个MDP被定义为一个五元组 M = S , A , T , R , γ,其中,S是状态空间;A是动作空间; T = P s t s t + 1 a t :   s t , s t + 1 S , a t A是在状态st 下执行动作at 并转移到状态st +1的状态转移概率(其中, P s t s t + 1 a t为状态转移概率); R = r s t s t + 1 a t是上述状态转移的即时奖励,r是奖励值;γ是奖励折扣因子。相应的决策策略定义为 π ( a t | s t ) = P s t a t,表示在st 选择at 的概率。状态值函数 V π ( s t )指从st 开始执行 π所获得的累积奖励的期望,其定义如下:

V π ( s t ) = Ε π k = 0 γ k r s t + k s t + k + 1 a t + k | s t

式中,Eπ 表示计算期望;k为状态转移步数索引;t为当前时间步长。

状态-动作值函数 Q π ( s t , a t )的定义如下:

Q π ( s t , a t ) = Ε π k = 0 γ k r s t + k s t + k + 1 a t + k | s t , a t

智能体的最优策略是使每个状态都具有最大状态价值的策略,其定义为:

π * = a r g m a x π V π s t , s t S

式中,π *为最优策略。

最优策略保证了每个状态和状态动作对具有唯一最优状态价值 V * ( s t )和状态动作价值 Q * ( s t , a t ),可以通过求解Bellman最优方程(BOE)来计算:

V * ( s t ) = m a x a t s t + 1 P s t s t + 1 a t [ r s t s t + 1 a t + γ V * ( s t + 1 ) ] Q * ( s t , a t ) = s t + 1 P s t s t + 1 a t [ r s t s t + 1 a t + γ m a x a t + 1 Q * ( s t + 1 , a t + 1 ) ]

最优动作 π * ( a t | s t )则计算如下:

π * ( a t | s t ) = a r g m a x a t A Q * ( s t , a t ) , s t S

然而,当 S A太大时,很难直接求解BOE。Q学习是一种经典的基于时间差分(TD)的离策略RL算法,通过近似状态-动作价值迭代求解BOE:

Q ( s t , a t ) Q ( s t , a t ) + α [ r s t s t + 1 a t +                                                 
                       γ m a x a t + 1 A Q ( s t + 1 , a t + 1 ) - Q ( s t , a t ) ]

式中, α是RL的学习率。DQN在Q学习的基础上,利用神经网络近似状态-动作价值函数,从而训练具有连续状态空间的RL智能体,如自动驾驶中的决策智能体。同样,Q网络的参数 θ t更新如下:

θ t + 1 = θ t + α [ r s t s t + 1 a t + γ m a x a t + 1 A Q ( s t + 1 , a t + 1 ; θ t a r g e t ) - Q ( s t , a t ; θ t ) ] × Q ( s t , a t ; θ t )           

式中, θ t a r g e t为目标Q网络的参数。此外,文献[36]提出了双DQN算法来改进传统DQN的过拟合问题,其 θ t更新如下:

θ t + 1 = θ t + α [ r s t s t + 1 a t + γ Q ( s t + 1 , a r g m a x a t + 1 A Q ( s t + 1 , a t + 1 ; θ t ) ; θ t a r g e t ) - Q ( s t , a t ; θ t ) ] × Q ( s t , a t ; θ t )        

3.2 DQN参数设计

3.2.1 状态和动作空间设计

自动驾驶中的动作空间必须准确、完整地描述特定驾驶任务中的驾驶行为。一方面,状态空间的选择必须考虑诱发驾驶行为最重要的环境要素;另一方面,必须尽可能忽略次要的环境元素,以减少其对驾驶行为的干扰,同时也可以降低状态空间维度以节省计算资源。本研究针对三车道交通流中自车巡航驾驶任务进行了算法设计。该任务中的驾驶行为包括:车道保持、左变道、右变道等,可以看作是追求不同目标车道的行为。因此,直接选择所有可能的目标车道编号(ID)来构建动作空间。人类驾驶员的感知注意力直接影响着驾驶员驾驶行为的产生,是诱发不同驾驶行为的最重要因素。通常,人类驾驶员最基本的感知注意范围可以用自车及其最近的周围车辆的位置和运动信息来描述,因此,本算法选择这些信息来构造状态空间。需要注意的是,这种状态空间构造方法可以扩展到其他驾驶任务,以及更大的类人感知范围。状态空间 S和动作空间 A图2所示,定义如下:

S = [ v x , v y , Y , Δ d 1 , Δ v x 1 , Δ d 2 , Δ v x 2 , Δ d 3 , Δ v x 3 , Δ d 4 , Δ v x 4 , Δ d 5 , Δ v x 5 , Δ d 6 , Δ v x 6 ] T A = [ T L 1 , T L 2 , T L 3 ] T                                                             

式中,S包括在车辆坐标中自车的纵向和横向速度(vx, vy )、自车在全局坐标中的横向位置(Y)以及自车与周围六辆交通车辆之间的相对距离(Δd 1, Δd 2, Δd 3, Δd 4, Δd 5, Δd 6)和相对速度(Δvx 1, Δvx 2, Δvx 3, Δvx 4, Δvx 5, Δvx 6);A中的变量TL1~TL3分别表示三个目标车道的ID。

3.2.2 奖励函数设计

奖励函数是引导RL智能体学习的驱动力。在自动驾驶中,奖励函数设计的主要标准是反映驾驶任务的全局目标,在本文研究案例中,该目标是让自车在道路限速的前提下追求尽可能高的通行效率。因此,本算法考虑了速度奖励。需要注意的是,本算法不需要使用传统的奖励设计方法来考虑安全(即避免碰撞)和舒适度等奖励维度,而是将这些全局目标转移到模型驱动的规划层和安全合理的探索利用机制中。这种机制基于对期望决策的试错,试错成功意味着规划层可以立即安全执行所期望的决策指令,而试错失败意味着所期望的决策指令不能以安全的方式被立即执行,且将被屏蔽并纠正回安全控制。基于此,该机制可以直接、稳定地确保安全、舒适性等最基本的驾驶需求。

因此,自动驾驶RL智能体的奖励函数定义如下:

r s t s t + 1 a t = w v v x - v m a x v m a x 2

式中, v m a x为道路限速值; w v为权重系数。

4 模型驱动运动规划

本节介绍了基于MPC的运动规划模块,包括MPC预测模型建立和运动规划问题构建。

4.1 MPC预测模型建立

4.1.1 车辆运动学和动力学建模

在不同的驾驶任务中,甚至在不同的驾驶行为中,人类驾驶员对纵向和横向运动通常有不同的偏好。通过同一优化目标的同一优化问题求解自车的纵向和横向运动控制问题时,往往难以合理分配纵向和横向最优控制的优先级,导致车辆运动控制不稳定。因此,本研究将车辆的纵向和横向运动解耦,并使用MPC来控制车辆。

自车的纵向微分运动学模型定义如下:

X ˙ = v X v ˙ X = a X

式中, X v X a X分别表示自车在全局坐标中的纵向位置、纵向速度和纵向加速度。

为了更准确地考虑自车的横向动态,提高横向运动的稳定性,采用了线性轮胎模型。该模型假设在一定的轮胎侧偏角范围内,轮胎侧向力与侧偏角呈线性关系,并假设前轮转向角度较小。在此基础上,可以构建线性MPC预测模型,并通过标准二次规划进行求解,避免了非线性MPC计算带来的高计算负担。此假设也可用于正常稳定驾驶条件。自车的横向运动学和动力学模型如图3所示。

v ˙ = ( F y f + F y r ) m - X ˙ + v s i n   ψ c o s   ψ r e ψ ˙ = r e r ˙ e = ( F y f l f - F y r l r ) I z Y ˙ = X ˙ + v s i n   ψ c o s   ψ s i n   ψ + v c o s   ψ

式中, v为车辆坐标系中的自车的横向速度; r e为横摆角速度; ψ表示全局坐标系中的偏航角; m I z表示质量和转动惯量; l f l r为车辆重心到前轴和后轴的距离; F y f F y r为前后轮胎的侧向力; v ˙ ψ ˙ r ˙ e , Y ˙表示微分计算。线性轮胎力计算如下:

F y f = C α f δ - ( v + l f r e ) c o s   ψ X ˙ + v s i n   ψ F y r = C α r - ( v - l r r e ) c o s   ψ X ˙ + v s i n   ψ

式中, C α f C α r分别为前后轮的侧偏刚度; δ为前轮转向角。需要注意的是,本研究中自车的运动学和动力学模型可以通过坐标变换直接转移到Frenet坐标系中。

4.1.2 驾驶行为建模

当使用MPC来规划所需的驾驶行为的运动时,另一个重要的问题是如何将该行为建模为MPC能够理解的优化目标和约束条件。由于自车期望的纵向和横向位置反映了车道保持和变道行为的最重要特征,因此选择纵向和横向位置作为状态变量,在MPC预测范围内进行运动规划以跟踪表征期望决策指令的期望位置信号。

在预测范围内,纵向和横向运动的状态、输出和控制变量定义如下:

x l o n = X , v X T , y l o n = X , u l o n = a X x l a t = v ψ r e Y T , y l a t = Y , u l a t = δ

式中, x l o n y l o n u l o n为纵向运动模型变量; x l a t y l a t u l a t为横向运动模型变量。具有纵向时间步长 t p , l o n和横向时间步长 t p , l a t的时间离散预测模型定义如下:

x l o n , k l o n + 1 = A l o n x l o n , k l o n + B l o n u l o n , k l o n + C l o n y l o n , k l o n + 1 = C c , l o n x l o n , k l o n + 1 , k l o n = 0 ,   1 ,   . . . ,   N p , l o n - 1 x l a t , k l a t + 1 = A l a t x l a t , k l a t + B l a t u l a t , k l a t + C l a t y l a t , k l a t + 1 = C c , l a t x l a t , k l a t + 1 , k l a t = 0 ,   1 ,   . . . ,   N p , l a t - 1

式中, k l o n k l a t分别为纵向和横向运动预测中的时间步数索引; A l o n B l o n C l o n C c , l o n A l a t B l a t C l a t C c , l a t为系统矩阵; N p , l o n N p , l a t是纵向和横向预测时域,且

A l o n = 1 t p , l o n 0 1 , B l o n = 0 t p , l o n , C l o n   = 0 0 , C c , l o n   = 1,0

矩阵 A l a t B l a t C l a t C c , l a t可以通过线性化自车的横向非线性运动模型来计算[22]。

不同驾驶行为所期望的纵向和横向位置如图4所示,其中车道宽度W lane为4 m。期望纵向位置根据自车与所有前方车辆的安全距离确定。期望横向位置则来自于决策指令,即目标车道中心线的横向位置。在预测范围内,期望纵向和横向位置定义如下:

X r e f , k l o n + 1 = X r e f , t Y r e f , k l a t + 1 = Y r e f , t

式中, X r e f , t X r e f , t t时刻的期望位置。

4.2 基于MPC的运动规划问题构建

4.2.1 优化问题描述

本算法中基于MPC的运动规划的目标函数定义如下:

          J t ( x t , u t - t p ) = i = 1 N p y t + i t p t - y r e f , t + i t p t Q 2 + j = 0 N c - 1 u t + j t p t R u 2 + j = 0 N c - 1 Δ u t + j t p t R d u 2

式中, t p为预测时间步长; N p为预测时域; N c为控制时域; Q为追求期望驾驶决策指令的权重矩阵; R u R d u分别是最小化与驾驶舒适性有关的控制变量及其变化率的权重矩阵。在此基础上,带约束的MPC优化问题定义如下:

m i n U t   J t x t , u t - t p , U t

s.t. x t + i t p t , m i n x t + i t p t x t + i t p t , m a x

y t + i t p t , m i n y t + i t p t y t + i t p t , m a x u t + i t p t , m i n u t + i t p t u t + i t p t , m a x u t + i t p t , m i n u t + i t p t u t + i t p t , m a x

式中, U t是控制向量,并且

Δ U t = Δ u t t , Δ u t + t p t ,   . . . , Δ u t + N p - 1 t p t T Δ u t + j t p t = u t + j t p t - u t + j - 1 t p t

然后将上述优化问题分别应用于自车的纵向和横向运动规划。

4.2.2 约束设计

自动驾驶必须满足与车辆物理性能相关的物理约束和与驾驶任务相关的任务约束,以实现安全、舒适、稳定的驾驶表现。物理约束包括加速度相关的约束、前轮转向角相关的约束,以及轮胎模型的侧偏角约束。将 a X ,   δ α r带入式(19)式(20)中,其上下界定义如下:

a X , t + i t p , l o n t , m i n a X , t + i t p , l o n t a X , t + i t p , l o n t , m a x a X , t + i t p , l o n t , m i n a X , t + i t p , l o n t a X , t + i t p , l o n t , m a x δ m i n δ t + j t p , l a t t δ m a x δ m i n δ t + j t p , l a t t δ m a x α f , m i n α f , t + i t p , l a t t α f , m a x α r , m i n α r , t + i t p , l a t t α r , m a x

式中, t p , l o n t p , l a t分别为纵向和横向预测时间步长。

值得注意的是,从驾驶任务的角度来看,上述对加速度和前轮转角变化量的约束也可以看作是舒适性和稳定性约束。另一个舒适性约束是横向加速度约束,其定义如下:

a y , t + i t p , l a t t y , m a x y , m i n

除了上述约束条件外,还需要考虑了交通规则约束。因此,道路速度限制约束的定义如下:

v X , t + i t p , l o n t X , t + i t p , l o n t , m a x X , t + i t p , l o n t , m i n

为了模仿人类驾驶员舒适的加速和减速行为假设在加速过程中,加速度的变化率随着加速度的增加而逐渐减小,而在减速过程中,加速度的变化率随着加速度的减少而逐渐减小。这就避免了持续深踩加速或制动踏板所造成的不适感。因此,加速度变化量约束定义如下:

a X , t + i t p , l o n t , m i n = w 1 a X , t + i t p , l o n t , m i n - a X a X , t + i t p , l o n t , m a x = w 2 a X , t + i t p , l o n t , m a x - a X

式中,w 1w 2是权重系数。

此外,驾驶行为的纵向和横向安全约束决定了整个决策和规划系统的安全性,同时也是RL智能体在线试错的安全基础。这一部分将在下一节中进行介绍。

5 安全合理的探索和利用

要实现自动驾驶在运行阶段的在线进化,驾驶策略探索利用的安全性和合理性是必须遵守的两大主要准则。这些准则是影响在线自动驾驶中驾驶员和乘客安全、舒适和信任的关键因素。本节介绍了这两种准则对应的建模方法,包括预测性安全驾驶包络建模及合理的探索和利用方案设计。

5.1 预测性安全驾驶包络

安全是首要的原则。为了保证自动驾驶汽车在其进化过程中的严格安全性,本算法提出了以硬约束的形式将驾驶行为的纵向和横向安全需求引入MPC问题中。这些安全约束被建模为预测性安全驾驶包络,如图5所示,其中蓝色区域代表不同车道上自车的安全驾驶空间,纵向包络边界则根据不同车道中较短的安全空间确定。

因此,MPC预测时域中的纵向和横向位置约束定义如下:

X t + i t p , l o n t , m i n X t + i t p , l o n t X t + i t p , l o n t , m a x Y m i n Y t + i t p , l a t t Y m a x

5.2 合理的探索利用方案

本研究在安全包络的基础上,进一步提出了一种基于期望决策试错的合理探索和利用机制。在这种机制中,试错成功意味着规划层可以立即进行安全的规划来执行期望决策指令;否则,试错失败意味着不能以安全的方式立即执行期望决策。其工作原理如图6所示。

只有当面向期望决策的纵向运动规划问题有满足要求的解时,所优化得到的纵向加速度才可以被执行,然后,才能通过横向运动规划来对相应的期望车道中心线进行跟踪。否则,将执行原决策的纵向运动规划(如车道保持),横向运动规划将引导自车跟踪原车道中心线。更具体地说,基于纵向驾驶规划优先级准则,设计了合理的探索利用模块。这是为了模仿人类的驾驶习惯。通常,人类驾驶员会优先考虑和评估车辆运动的纵向安全性。如果所做的决策不影响纵向安全,则该决策可以作为候选决策之一;如果该决策影响了纵向安全,则该决策将不会被执行。例如,当车辆处于车道保持状态时,如果其想要进行左换道,可以首先使用MPC来进行左换道行为的纵向规划。如果纵向规划能获得合理的最优加速度,则说明该最优加速度是安全的、可以实现的,从而可以执行左换道决策。其中,最优加速度可以由MPC是否有满足约束条件的最优解来确定。此外,还可以引入与舒适性相关的加速度区间来评价MPC解的质量。例如,如果通过优化得到的减速度小于某一阈值或加速度大于某一阈值,则最终的最优加速度将不存在。

所提出的机制很好地描述了现实世界中人类驾驶员学习和进化过程的一种安全合理的在线试错机制。例如,新手驾驶员在驾驶时,通常会不断地使用试错驾驶行为,并与周围车辆进行交互,以增加驾驶经验,提高驾驶能力。在这个试错过程中,人类驾驶员总是试图正常、稳定地驾驶车辆以确保安全,而不是像传统的RL智能体那样,通过随机的不安全探索的方式驾驶。需要注意的是,传统RL中的“试错”是指智能体在决策时利用随机化方法加强对未知状态或行为的探索,从而增加决策改进的可能性。然而,在本研究中,MPC规划层的试错机制是模仿人类驾驶员提高其驾驶技能的过程。

6 试验验证与分析

在本节中,通过使用高保真的车辆动力学模型来验证所提出的方法,包括对所提出框架的性能验证和关键参数的影响分析。

6.1 仿真设置

Sim-to-Real问题是限制RL在现实世界自动驾驶中广泛应用的挑战之一。这个问题源于在仿真训练环境中的环境感知和车辆动态的不真实性。由于环境状态是周围车辆的相对位置和速度而不是图像信息,因此本研究采用高保真车辆动力学模型,并使用MATLAB/Simulink构建训练环境,以尽可能多地真实反映自动驾驶车辆在真实世界中的动力学表现。该仿真方案能够模拟自动驾驶在现实世界中的连续学习和进化过程。

在RL算法中,经验池大小为100 000,批训练大小为32,目标网络更新周期为100,神经网络选用结构为16×50×50×1的全连接网络。其他仿真参数见表1

6.2 结果分析

本节首先在案例1中验证了算法在平稳和非平稳交通流下的有效性,包括自进化性能和安全性能。然后,在案例2和案例3中,讨论了规划层的驾驶风格和交通流量密度对算法性能的影响。

6.2.1 案例1——不同的平均交通流速度

本案例比较了所提出框架在不同平均交通流速度下的有效性。结果如图7所示,其中,图7(a)和(b)展示了平均速度分别为20 km·h-1(案例1-A)和40 km·h-1(案例1-B)的平稳通流下的试验结果。蓝色、橙色和黄色的曲线分别代表了自车在过去1 min、30 min和60 min内的平均奖励或速度。图7(c)进一步展示了自车在非平稳交通流下的结果。所有交通车辆的速度都在20~50 km·h-1之间随机分配。交通车辆的加速度被限制在-4~2 m·s-2以内,并更新如下:

a t v = ( v t v , f 2 - v t v 2 ) 2 ( X t v , f - X t v - d t v , s )

式中, X t v v t v分别为交通车辆的纵向位置和纵向速度; X t v , f v t v , f表示车辆前车的纵向位置和速度; d t v , s为安全距离。此设置是为了模拟真实交通条件中车辆之间的交互驾驶行为。

由于本文关注的是三车道交通流中的驾驶任务,其目标是尽可能大地提高通行效率,因此选择平均速度作为评价指标。决策指令对交通效率的影响往往是长时域的,反映的是未来一段时期内的影响,很难用瞬时速度的增加或减少来描述某一决策的质量。因此,本研究选择对1 min、30 min、60 min范围内的平均速度的变化进行评估和分析,以反映决策层的进化程度。从图7(a)和(b)中可以看出,随着训练时间的增加,自车的平均速度逐渐增加,最终收敛到比交通流速度(20 km·h-1和40 km·h-1)高约10 km·h-1的水平。这意味着,经过在线训练后,自车已经学会了如何通过变道获得加速空间,从而追求更快的平均速度。这些结果表明了自车在其通行效率上的学习和进化。

在本研究中,自车的加速能力由基于MPC的纵向运动规划决定,可实现的最大速度由交通流的平均速度和密度决定。交通流的平均速度越高,密度越低,自车的等效纵向加速空间就越大,从而使车辆达到更高的平均速度。因此,在这种情况下,一个稳定的交通流和固定的MPC参数从理论上确定了在这种环境下自车平均速度的上限。理论上,DQN决策的目标是鼓励自车不断进化以获得最大平均速度。因此,在仿真结果中,MPC参数、交通流特性和DQN参数共同决定了自车可以进化达到的水平,即在本案例中达到了平均速度超过交通流速度约10 km·h-1的水平。图7(c)进一步验证了在非平稳交通流(案例1-C)中所提出框架的表现,在训练初始阶段,不同时间尺度的平均奖励曲线呈现下降趋势,这是因为智能体倾向于探索获得更多样化的经验。随着训练时间的增加,平均奖励逐渐增加,最终趋于稳定。值得注意的是,奖励的上界在一定程度上是由交通流的平均速度和密度决定的,奖励曲线的变化趋势也在很大程度上受到交通流的影响。

例如,一个人类驾驶员在真实的交通环境中遇到交通堵塞,无论驾驶员如何驾驶,速度都不会太高。在训练过程中,交通车辆的位置和速度是随机的、时变的,因此训练环境不确定,导致奖励曲线的振荡。但总的来说,随着训练时间的增加,智能体的奖励呈现出明显的上升趋势,并实现了明显的进化。与奖励曲线一致,自车的平均纵向速度先下降后增大。由于所有交通车辆的速度都小于50 km·h-1,可以看出,自车的平均速度约为57 km·h-1,这表明自车在训练的后期已经进化到能够实现在非平稳的交通流中通过变道行为获得更高的速度。这也反映了自车的在线进化过程。

为了说明安全性能,图8显示了案例1-A中自车相对同一车道前后交通车辆的纵向距离,以及整个训练过程中自车的横向位置。图9显示了整个训练过程中的纵向和横向加速度。从图8可以看出,在整个训练过程中,与前方交通车辆的距离始终在0以上,与后方交通车辆的距离始终在0以下。这意味着自车不会与交通车辆相碰撞。此外,图8显示,自车从未超过其车道边界(从-6 m到6 m)。车辆横向位置的分布随时间而变化,反映了多个期望决策的试错行为。以上结果均得益于安全驾驶包络和合理探索利用机制,利用MPC硬约束来确保安全。另外,从图9可以看出,纵向加速度被限制在-0.4~0.2g(其中,g为重力加速度),横向加速度始终在0.4g以内(主要为-0.02~0.02g),实现了合理的舒适性及稳定的纵向和横向运动控制。

如上所述,本研究从两个方面体现了合理的探索和利用。首先,传统的RL使用随机探索和重复训练。这是一种“知错就错”的模式,它允许车辆发生碰撞。而在自动驾驶中,在线连续训练对碰撞安全问题的容忍度为零,且训练不能来回重置。因此,需要提出一种“知错改错”的探索模式。该模式模拟了人类驾驶员的学习过程。例如,当新手司机学习变道行为时,如果他们发现他们想要执行的变道指令会导致碰撞,就会立即放弃变道,回到车道保持状态。其次,在训练中收集的每一次驾驶经验不仅包括决策结果,还包括规划结果。本研究中的规划层使用MPC自然地模拟人类驾驶员的预测驾驶行为。例如,在纵向运动规划中,不同的跟随距离及其边界反映了保守或激进驾驶员的风格。这种合理的运动规划是探索和利用的拟人化本质的体现。

6.2.2 案例2——不同的规划层风格

本案例通过模仿保守的和激进的人类驾驶风格比较了规划层的不同MPC参数对该框架的影响。试验结果如图10所示。案例2-A [图10(a)]模拟了保守风格,MPC预测层的纵向最大位置和与前车的期望距离分别为10 m和25 m。在案例2-B [图10(b)]中,模拟了激进风格,相应参数分别为5 m和15 m。此外,在案例2-A和2-B中,交通流的平均速度为40 km·h-1

图10(a)和(b)分别对应于基于保守和激进的MPC规划层的自车在线训练结果。在这两种情况下,自车都可以逐渐进化到超过交通流的平均速度约10 km·h-1。然而,与案例2-B相比,案例2-A的MPC规划层具有更大的纵向最大位置和距离前方车辆的期望位置,因此其加速空间更小。这导致了相对保守的规划性能,使2-B中具有更激进规划层的自车的平均速度收敛更快,最终速度略高于2-A。因此,更激进的规划水平会使整个决策和运动规划系统获得更高的最大平均速度。这与人类驾驶员的驾驶表现是一致的:驾驶员越激进,他们对交通流自由空间的利用率就越高,就越能通过频繁换车道来追求更高的平均速度。

6.2.3 案例3——不同的交通流密度

本案例比较了交通流密度对所提出框架的影响。试验结果如图11所示。在案例3-A和案例3-B中,同一车道上的交通车辆之间的纵向距离分别为80 m和120 m [分别如图11(a)和(b)所示]。在这两种情况下,交通流的平均速度为40 km·h-1

图11所示,情况3-A中自车的最终平均速度达到50 km·h-1,而案例3-B的最终平均速度为55 km·h-1。这一结果表明,在相同速度下,稀疏的交通流允许自车进化达到更高的平均速度。这是因为稀疏的交通流导致交通车辆之间的距离更大,这提供了更大的纵向加速空间,自车可以在车道保持过程中延长其加速时间。同时,也增加了实施变道探索的空间,使得成功变道的概率增加,并允许自车通过连续的变道行为扩展等效的纵向加速空间。综上所述,这些因素导致了自车的平均速度增加。

7 结论

本研究通过开发一个混合数据和模型驱动的框架,研究了在运行阶段自动驾驶的决策和运动规划的在线学习和进化问题。该框架利用了DRL的高度自学习能力和MPC处理安全约束的能力及其强可解释性,分别开发了决策模块和运动规划模块。进一步提出了运行阶段自动驾驶在线进化中的安全性和合理性两条准则,并设计了相应的安全合理的探索利用机制。该机制能够通过屏蔽不安全的行为来过滤掉随机和不安全的经验,从而获得具有安全和类人特征的高质量的训练数据。此外,基于所提出的框架,实现了决策层在规划层的能力边界内的持续进化,并最大限度地利用了规划层的能力。最后,实现了自动驾驶的安全、合理的自进化。结果表明,该框架实现了安全、合理的自动驾驶在线进化,以追求更高的通行效率。特别地:①可以达到的最大速度取决于交通流的平均速度和密度,以及规划层风格;②规划风格越激进,交通流自由空间的利用率越高,就越有可能通过频繁变道来追求更高的平均速度;③稀疏交通流允许自车进化,提供更多的加速空间,从而达到更高的平均速度。

未来的工作将重点关注提出新的集成框架以使智能体能够同时学习MPC参数,提高决策和运动规划的灵活性;将在所提出框架下对更多的驾驶任务进行应用,并进行真实的车辆实验。

参考文献

[1]

Nilsson J, Brännström M, Coelingh E, Fredriksson J. Lane change maneuvers for automated vehicles. IEEE Trans Intell Transp Syst 2016;18(5):1087‒96. . 10.1109/tits.2016.2597966

[2]

Wang X, Qi X, Wang P, Yang J. Decision making framework for autonomous vehicles driving behavior in complex scenarios via hierarchical state machine. Auton Intell Syst 2021;1(1):1‒12. . 10.1007/s43684-021-00015-x

[3]

Noh S. Decision-making framework for autonomous driving at road intersections: safeguarding against collision, overly conservative behavior, and violation vehicles. IEEE Trans Ind Electron 2018;66(4):3275‒86. . 10.1109/tie.2018.2840530

[4]

Nilsson J, Sjöberg J. Strategic decision making for automated driving on twolane, one way roads using model predictive control. In: Proceedings of IEEE Intelligent Vehicles Symposium (IV); 2013 Jun 23‒26; CoastGold, QLD, Australia. New York City: IEEE; 2013. p. 1253‒8. . 10.1109/ivs.2013.6629638

[5]

Du Y, Wang Y, Chan CY. Autonomous lane-change controller via mixed logical dynamical. In: Proceedings of 17th International IEEE Conference on Intelligent Transportation Systems (ITSC); 2014 Oct 8‒11; Qingdao, China. New York City: IEEE; 2014. p. 1154‒9. . 10.1109/itsc.2014.6957843

[6]

Zhou Z, Yang Z, Zhang Y, Huang Y, Chen H, Yu Z. A comprehensive study of speed prediction in transportation system: from vehicle to traffic. iScience 2022;25(3):103909. . 10.1016/j.isci.2022.103909

[7]

Karlsson J, Murgovski N, Sjöberg J. Optimal trajectory planning and decision making in lane change maneuvers near a highway exit. In: Proceedings of 18th European Control Conference (ECC); 2019 Jun 25‒28; Naples, Italy. New York City: IEEE; 2019. p. 3254‒60. . 10.23919/ecc.2019.8796010

[8]

Nilsson J, Silvlin J, Brannstrom M, Coelingh E, Fredriksson J. If, when, and how to perform lane change maneuvers on highways. IEEE Intell Transp Syst Magazine 2016;8(4):68‒78. . 10.1109/mits.2016.2565718

[9]

Cui Z, Hu J, Guan H. A lane-changing trajectory planning and assistant decision-making method for autonomous vehicle. In: Proceedings of 18th COTA International Conference of Transportation Professionals (CICTP); 2018 Jul 5‒8; Beijing, China. Reston: ASCE; 2018. p. 87‒101. . 10.1061/9780784481523.009

[10]

Xu D, Ding Z, He X, Zhao H, Moze M, Aioun F, et al. Learning from naturalistic driving data for human-like autonomous highway driving. IEEE Trans Intell Transp Syst 2020;22(12):7341‒54. . 10.1109/tits.2020.3001131

[11]

Liu Y, Zhou B, Wang X, Li L, Cheng S, Chen Z, et al. Dynamic lane-changing trajectory planning for autonomous vehicles based on discrete global trajectory. IEEE Trans Intell Transp Syst 2022;23(7):8513‒27. . 10.1109/tits.2021.3083541

[12]

Van Hoek R, Ploeg J, Nijmeijer H. Cooperative driving of automated vehicles using B-splines for trajectory planning. IEEE Trans Intell Vehicles 2021;6(3):594‒604. . 10.1109/tiv.2021.3072679

[13]

Kim D, Jeong Y, Chung CC. Lateral vehicle trajectory planning using a model predictive control scheme for an automated perpendicular parking system. IEEE Trans Ind Electron 2023;70(2):1820‒9. . 10.1109/tie.2022.3163567

[14]

Mai TA, Dang TS, Duong DT, Le VC, Banerjee S. A combined backstepping and adaptive fuzzy PID approach for trajectory tracking of autonomous mobile robots. J Braz Soc Mech Sci Eng 2021;43(3):1‒13. . 10.1007/s40430-020-02767-8

[15]

Moshayedi AJ, Li J, Liao L. Simulation study and PID tune of automated guided vehicles (AGV). In: Proceedings of IEEE International Conference on Computational Intelligence and Virtual Environments for Measurement Systems and Applications (CIVEMSA); 2021 Jun 18‒20; Hong Kong, China. New York City: IEEE. p. 1‒7. . 10.1109/civemsa52099.2021.9493679

[16]

Sabiha AD, Kamel MA, Said E, Hussein WM. ROS-based trajectory tracking control for autonomous tracked vehicle using optimized backstepping and sliding mode control. Robot Auton Syst 2022;152:104058. . 10.1016/j.robot.2022.104058

[17]

El Atwi H, Daher N. A composite model predictive and super twisting sliding mode controller for stable and robust trajectory tracking of autonomous ground vehicles. In: Proceedings of IEEE 3rd International Multidisciplinary Conference on Engineering Technology (IMCET); 2021 Dec 8‍‒‍10. Beirut, Lebanon. New York City: IEEE; 2022. p. 107‒12. . 10.1109/imcet53404.2021.9665575

[18]

Ji J, Khajepour A, Melek WW, Huang Y. Path planning and tracking for vehicle collision avoidance based on model predictive control with multiconstraints. IEEE Trans Vehicular Technol 2016;66(2):952‒64. . 10.1109/tvt.2016.2555853

[19]

Huang Y, Wang H, Khajepour A, Ding H, Yuan K, Qin Y. A novel local motion planning framework for autonomous vehicles based on resistance network and model predictive control. IEEE Trans Vehicular Technol 2019;69(1):55‒66. . 10.1109/tvt.2019.2945934

[20]

Wischnewski A, Herrmann T, Werner F, Lohmann B. A tube-MPC approach to autonomous multi-vehicle racing on high-speed ovals. IEEE Trans Intell Vehicles 2023;8(1):368‒78. . 10.1109/tiv.2022.3169986

[21]

Evens B, Schuurmans M, Patrinos P. Learning MPC for interaction-aware autonomous driving: a game-theoretic approach. 2021. arXiv: 10.23919/ecc55457.2022.9838517

[22]

Yuan K, Shu H, Huang Y, Zhang Y, Khajepour A, Zhang L. Mixed local motion planning and tracking control framework for autonomous vehicles based on model predictive control. IET Intell Transp Syst 2019;13(6):950‒9. . 10.1049/iet-its.2018.5387

[23]

Mohseni F, Frisk E, Nielsen L. Distributed cooperative MPC for autonomous driving in different traffic scenarios. IEEE Trans Intell Vehicles 2020;6(2):299‒309. . 10.1109/tiv.2020.3025484

[24]

Huang Y, Ding H, Zhang Y, Wang H, Cao D, Xu N, et al. A motion planning and tracking framework for autonomous vehicles based on artificial potential field elaborated resistance network approach. IEEE Trans Ind Electron 2020;67(2):1376‒86. . 10.1109/tie.2019.2898599

[25]

Zhou Q, Zhao D, Shuai B, Li Y, Williams H, Xu H. Knowledge implementation and transfer with an adaptive learning network for real-time power management of the plug-in hybrid vehicle. IEEE Trans Neural Netw Learn Syst 2021;32(12):5298‒308. . 10.1109/tnnls.2021.3093429

[26]

Wang Y, Zhang D, Wang J, Chen Z, Li Y, Wang Y, et al. Imitation learning of hierarchical driving model: from continuous intention to continuous trajectory. IEEE Robot Autom Lett 2021;6(2):2477‒84. . 10.1109/lra.2021.3061336

[27]

Hoel CJ, Wolff K, Laine L. Automated speed and lane change decision making using deep reinforcement learning. In: Proceedings of 21st International Conference on Intelligent Transportation Systems (ITSC); 2018 Nov 4‒7; Maui, HI, USA. New York City: IEEE; 2018. p. 2148‒55. . 10.1109/itsc.2018.8569568

[28]

Liu Y, Wang X, Li L, Cheng S, Chen Z. A novel lane change decision-making model of autonomous vehicle based on support vector machine. IEEE Access 2019;7:26543‒50. . 10.1109/access.2019.2900416

[29]

Wang X, Wu J, Gu Y, Sun H, Xu L, Kamijo S, et al. Human-like maneuver decision using LSTM-CRF model for on-road self-driving. In: Proceedings of 21st International Conference on Intelligent Transportation Systems (ITSC); 2018 Nov 4‒7; Maui, HI, USA. New York: IEEE; 2018. p. 210‒6. . 10.1109/itsc.2018.8569524

[30]

Xiao Y, Codevilla F, Gurram A, Urfalioglu O, L’opez AM. Multimodal end-to-end autonomous driving. IEEE Trans Intell Transp Syst 2020;23(1):537‒47.

[31]

Menner M, Berntorp K, Zeilinger MN, Di Cairano S. Inverse learning for datadriven calibration of model-based statistical path planning. IEEE Trans Intell Vehicles 2020;6(1):131‒45. . 10.1109/tiv.2020.3000323

[32]

Peng B, Sun Q, Li SE, Kum D, Yin Y, Wei J, et al. End-to-end autonomous driving through dueling double deep Q-network. Automotive Innovation 2021;4(3):328‒37. . 10.1007/s42154-021-00151-3

[33]

Lin Y, McPhee J, Azad NL. Comparison of deep reinforcement learning and model predictive control for adaptive cruise control. IEEE Trans Intell Vehicles 2020;6(2):221‒31. . 10.1109/tiv.2020.3012947

[34]

He X, Yang H, Hu Z, Lv C. Robust lane change decision making for autonomous vehicles: an observation adversarial reinforcement learning approach. IEEE Trans Intell Vehicles 2023;8(1):184‒93. . 10.1109/tiv.2022.3165178

[35]

Li G, Li S, Li S, Qin Y, Cao D, Qu X, et al. Deep reinforcement learning enabled decision-making for autonomous driving at intersections. Automotive Innovation 2020;3(4):374‒85. . 10.1007/s42154-020-00113-1

[36]

Liu Z, Hu J, Song T, Huang Z. A methodology based on deep reinforcement learning to autonomous driving with double Q-Learning. In: Proceedings of 7th International Conference on Computer and Communications (ICCC); 2021 Dec 10‒13; Chengdu, China. New York City: IEEE; 2022. p. 1266‒71. . 10.1109/iccc54389.2021.9674600

[37]

Aradi S. Survey of deep reinforcement learning for motion planning of autonomous vehicles. IEEE Trans Intell Transp Syst 2022;23(2):740‒59. . 10.1109/tits.2020.3024655

[38]

Li G, Yang Y, Li S, Qu X, Lyu N, Li SE. Decision making of autonomous vehicles in lane change scenarios: deep reinforcement learning approaches with risk awareness. Transp Res Part C 2022;134:103452. . 10.1016/j.trc.2021.103452

[39]

Zhang Y, Sun P, Yin Y, Lin L, Wang X. Human-like autonomous vehicle speed control by deep reinforcement learning with double Q-learning. In: Proceedings of IEEE Intelligent Vehicles Symposium (IV); 2018 Jun 26‒30; Changshu, China. Changshu, China. New York City: IEEE; 2018. p. 1251‒6. . 10.1109/ivs.2018.8500630

AI Summary AI Mindmap
PDF (7847KB)

6308

访问

0

被引

详细

导航
相关文章

AI思维导图

/