基于逆强化学习理论的自适应行车场景的拟人化避障轨迹规划研究

, , , , 武健 , 闫扬 , 刘玉龙 , 刘亚辉

工程(英文) ›› 2024, Vol. 33 ›› Issue (2) : 147 -160.

PDF (4667KB)
工程(英文) ›› 2024, Vol. 33 ›› Issue (2) : 147 -160. DOI: 10.1016/j.eng.2023.07.018
研究论文

基于逆强化学习理论的自适应行车场景的拟人化避障轨迹规划研究

作者信息 +

Research on Anthropomorphic Obstacle Avoidance Trajectory Planning for Adaptive Driving Scenarios Based on Inverse Reinforcement Learning Theory

Author information +
文章历史 +
PDF (4778K)

摘要

轨迹规划策略的正向设计通常需要预先设定轨迹优化函数,导致策略的适应性较差,无法准确生成符合真实驾驶员行为习惯的避障轨迹。此外,由于避障场景具有较强的时变动态特性,需要设计多个轨迹优化函数,并调整相应的参数。因此,提出了一种针对自适应驾驶场景的拟人化避障轨迹规划策略。首先,从HighD自然驾驶数据集中提取了大量专家示范轨迹。随后,提出了一种轨迹期望特征匹配算法,利用最大熵逆强化学习理论对提取的专家示范轨迹进行学习,实现自动获取专家示范轨迹的优化函数。此外,将影响车辆避障的关键驾驶场景信息与优化函数的权重相结合,构建了一个映射模型,提出了一种面向自适应驾驶场景的拟人化避障轨迹规划策略。最后,基于真实的驾驶场景,对该策略进行了验证。结果表明,该策略可以根据避障的“紧急程度”和车辆的状态实时调整轨迹优化函数的权重分布。此外,该策略可以生成与专家示范轨迹相似的拟人化轨迹,有效地提高了轨迹在驾驶场景中的适应性和可接受性。

Abstract

The forward design of trajectory planning strategies requires preset trajectory optimization functions, resulting in poor adaptability of the strategy and an inability to accurately generate obstacle avoidance trajectories that conform to real driver behavior habits. In addition, owing to the strong time-varying dynamic characteristics of obstacle avoidance scenarios, it is necessary to design numerous trajectory optimization functions and adjust the corresponding parameters. Therefore, an anthropomorphic obstacle-avoidance trajectory planning strategy for adaptive driving scenarios is proposed. First, numerous expert-demonstrated trajectories are extracted from the HighD natural driving dataset. Subsequently, a trajectory expectation feature-matching algorithm is proposed that uses maximum entropy inverse reinforcement learning theory to learn the extracted expert-demonstrated trajectories and achieve automatic acquisition of the optimization function of the expert-demonstrated trajectory. Furthermore, a mapping model is constructed by combining the key driving scenario information that affects vehicle obstacle avoidance with the weight of the optimization function, and an anthropomorphic obstacle avoidance trajectory planning strategy for adaptive driving scenarios is proposed. Finally, the proposed strategy is verified based on real driving scenarios. The results show that the strategy can adjust the weight distribution of the trajectory optimization function in real time according to the “emergency degree” of obstacle avoidance and the state of the vehicle. Moreover, this strategy can generate anthropomorphic trajectories that are similar to expert-demonstrated trajectories, effectively improving the adaptability and acceptability of trajectories in driving scenarios.

关键词

避障轨迹规划 / 逆强化理论 / 拟人化 / 自适应驾驶场景

Key words

Obstacle avoidance trajectory planning / Inverse reinforcement theory / Anthropomorphic / Adaptive driving scenarios

引用本文

引用格式 ▾
Jian Wu,Yang Yan,Yulong Liu,Yahui Liu,武健,闫扬,刘玉龙,刘亚辉. 基于逆强化学习理论的自适应行车场景的拟人化避障轨迹规划研究[J]. 工程(英文), 2024, 33(2): 147-160 DOI:10.1016/j.eng.2023.07.018

登录浏览全文

4963

注册一个新账户 忘记密码

1 引言

随着信息通信技术(ICT)和人工智能(AI)技术的发展,智能化已成为汽车发展的必然趋势[1]。在驾驶时规划从初始状态到目标状态的无碰撞轨迹是车辆智能化[2]的一个重要方面。

轨迹规划连接智能驾驶技术的决策层和控制执行层。由于缺乏丰富和准确的车辆轨迹,目前关于轨迹规划方面的研究较少。现有的轨迹规划技术大致可分为四种类型:图搜索[35]、采样[68]、曲线插值[911]和数值优化[1214]。基于线性时变模型预测控制方法,将车辆横向避障轨迹规划问题定义为一个受约束的最优控制问题[15]。基于时空网格方法[16],实现了轨迹规划问题的实时解决。基于势能函数和车辆可达集,采用鲁棒模型预测控制方法生成可行车辆轨迹[17]。基于车对车通信技术,将轨迹规划问题转化为约束优化问题,求解满足驾驶安全和乘坐舒适性[18]的避障轨迹。使用与时间无关的多项式方程构造了动态避障轨迹规划模型[19]。提出了一种线性二次约束迭代方法,将轨迹规划问题转化为非线性规划问题[20]。上述策略满足了车辆动力学约束条件,有效地解决了避障轨迹的安全性和效率问题。

然而,这些策略大多需要预先设计轨迹优化函数,不能扩展到复杂的驾驶场景。轨迹优化函数的设计在轨迹规划[21]中起着关键作用。考虑到驾驶场景的复杂性、交通流的动态变化、驾驶行为的随机性以及交通参与者之间的博弈,实现自主避障轨迹规划和满足安全舒适性要求是车辆决策系统所面临的重大挑战。轨迹优化函数的建立不仅需要有经验丰富的工程师仔细设计每个组件,还需要制定其权衡策略。高度复杂和动态的驾驶场景往往需要大量的轨迹优化函数,这使得轨迹优化设计更加繁琐和困难,导致无法获得最优解[22]。

为了避免手动设计的复杂性,研究人员提出了各种方法来直接或间接地从专家示范的避障轨迹(EDOAT)中复原轨迹规划策略。将模仿学习与优化相结合,采用长时域模型预测控制方法获得专家避障轨迹[23]。使用反向传播神经网络模型预测避障时间,设计恒速偏移避障轨迹[24]。提出了一种双曲切线轨迹模型,使用大量的真实司机避障场景[25]来重建实际轨迹。通过构建真实驾驶员避障决策与轨迹选择概率[26]之间的关系来设计轨迹优化函数。虽然上述研究生成了有效的避障轨迹,但是在涉及周边动态交通实体的结构化道路上避障仍是一个复杂的挑战。这就需要避障轨迹优化函数具有高度的场景适应性。在驾驶场景与避障轨迹优化函数之间建立映射关系的过程尚未得到广泛探讨。

除安全考虑外,可接受性也是避障轨迹规划[2728]中的一个关键因素。符合驾驶员驾驶习惯的拟人化轨迹可以使车辆更平稳地避开障碍物,从而减少驾驶员和乘客的紧张感,提高乘坐舒适度和可接受性。使用高斯混合模型作为统计方法对司机进行建模,可以有效地描述驾驶员行为习惯的差异[29]。利用远程学习控制模式和实车测试数据来模仿人类驾驶行为,开发不同风格的驾驶员模型[30]。为模拟真实驾驶员的行为习惯,开发了一种基于循环神经网络的长短期记忆网络架构,并提出了一种基于视觉和模仿学习的轨迹规划策略[31]。通过将个性化驾驶习惯融入避障轨迹规划,规划出了适应不同驾驶风格的安全驾驶轨迹[32]。将状态网格方法与模型预测控制相结合,实现了具有驾驶员个性化轨迹特征的自动驾驶[33]。利用卷积神经网络从摄像机采集的道路图像中提取轨迹特征,通过分类实现智能车辆的轨迹规划[34]。提出了一种基于神经网络参数化的高斯混合模型来预测高速公路入口处的车辆轨迹[35]。提出了一种适合于驾驶员个性化风格的变道预测算法。将训练好的支持向量机决策模型集成到模型预测控制框架中,以预测不同驾驶员的变道行为[36]。这些策略确保了避障轨迹的可接受性,并对类人驾驶的发展做出了重要贡献。

因此,考虑到避障轨迹规划策略的可接受性和适应性,避免了复杂的人工参数调整过程,提出了利用HighD自然驾驶数据集[37]对自适应驾驶场景进行拟人化避障轨迹(AOAT)规划。本研究的主要贡献总结如下。

(1)为避免优化函数的复杂参数调整,本研究将逆强化学习理论应用于EDOAT的离线学习。提出了一种轨迹期望特征匹配算法来实现优化函数的自动恢复。

(2)为增强轨迹优化函数对驾驶场景的适应性,本研究以本车速度以及本车与前车的速度差作为影响避障轨迹规划的主要驾驶场景参数。建立了驾驶场景信息与避障轨迹优化函数之间的映射关系。

第2节对轨迹规划问题进行了数学描述。第3节介绍了基于最大熵逆强化学习理论的轨迹期望特征匹配算法。第4节建立并验证了轨迹成本函数与关键驾驶场景之间的映射关系。第5节提出了结论和未来研究方向。

2 相关研究

2.1 问题描述

车辆避障轨迹规划的问题可以大致描述如下。系统从决策层接收到避障指令后,根据当前驾驶场景并基于控制策略预先选择一个可行轨迹集 R = r 1 , r 2 , , r n,其中 r 1 , r 2 , , r n分别表示第一、第二……第 n个可行轨迹。然后,选择最优轨迹 r *来优化预先设计的优化函数。

r * = a r g m i n r r 1 , r 2 , , r n Γ O A F

式中, r *为最终优化的避障轨迹, Γ O A F为轨迹优化函数。

为了平衡轨迹规划的效率、舒适性和安全性,将避障轨迹的优化函数表示为

Γ O A F = Γ O A F η r , θ r

其中, η r为由轨迹特征组成的向量, θ r为平衡这些轨迹特征的权重矩阵; θ r = θ r 1 , θ r 2 , , θ r n,其中 θ r 1 , θ r 2 , , θ r n   分别表示第一、第二……第 n条轨迹的轨迹特征的权重矩阵。需要注意的是,特征权重与驾驶场景之间存在着复杂的映射关系,这导致了不同的避障轨迹。

图1为智能车辆在结构化高速公路上避障时的驾驶场景信息。在图1中, vx 表示车辆在避免碰撞过程中的纵向速度。在同一驾驶场景下,轨迹特征的权重不同导致车辆规划的避障轨迹不同。如果本车在接到避障指令时的速度远高于前车,则根据避障的紧急程度,红色轨迹可能优于绿色和蓝色轨迹。因此,将包含本车和周围车辆状态的驾驶场景信息定义为 Ε , Ε = Ε 1 , Ε 2 , , Ε n ,其中‍, Ε 1 ,   Ε 2 , ,   Ε n分别表示第一、第二……第n个轨迹的驾驶场景信息。

式(2)可以改写为

Γ O A F = Γ O A F η r , θ r ω , Ε

其中, ω为映射模型从驾驶场景信息 Ε到轨迹特征权重 θ r的权重参数。

为平衡轨迹规划的效率、舒适性和安全性,工程师必须根据自身的实践经验手动调整轨迹优化函数的特征权重。调整参数通常是单调乏味的,需要相当多的重复。为解决这一问题,本研究提出了一种新的轨迹规划方案。

图2所示,本研究采用的策略分为离线训练和在线优化两个阶段。在离线训练阶段,首先从HighD自然驾驶数据集中提取出大量的专家示范避障轨迹 r 1 , r 2 , , r n和相应的驾驶场景信息 Ε 1 , Ε 2 , , Ε n。然后,利用最大熵逆强化学习技术,从EDOAT中提取轨迹优化函数的特征权值 θ r 1 , θ r 2 , , θ r n。随后提取了影响避障轨迹的关键驾驶场景信息,构建了驾驶场景到轨迹特征权值的映射模型。本研究采用多元非线性拟合的方法得到了模型参数 ω。在在线优化阶段,基于驾驶场景信息 Ε和离线训练阶段得到的映射模型,重构了避障轨迹的优化函数。

2.2 自然驾驶数据集的选择和轨迹提取

如上所述,为避免人工调整权值 θ r引起的一系列问题,本研究提出了一种基于逆强化学习理论的特征权值 θ r自动恢复方法,该方法已被广泛用作从专家示例中获得优化函数的工具。逆强化学习理论的核心思想是通过获得优化函数的权值来生成匹配专家示例的策略。因此,需要提取真实驾驶员的避障轨迹,才能获得轨迹优化函数的特征权值。

在智能驾驶研究中,自然驾驶轨迹数据集为智能驾驶算法的开发和验证提供了一个有效的工具。目前,研究人员主要使用下一代模拟(NGSIM)、KITTI、Cityscapes和HighD数据集。KITTI和Cityscapes数据集主要关注城市道路状况。NGSIM数据集的轨迹显示出横向位移和横向速度的平滑性较差。本文主要研究自动驾驶车辆在结构化高速公路上行驶时的避障轨迹规划。通过简单对比,选择HighD数据集来开发和验证避障轨迹算法。以下是对本研究中使用的数据的描述。

HighD数据集的每一帧都提供了25组以车辆[37]为中心的数据,如图3所示。基于HighD数据集,考虑了结构化公路上车辆的避障轨迹规划。本研究的主要研究目标是从数据集中提取一个优秀的避障轨迹。在避障轨迹提取过程中,我们考虑了以下几点:

(1)HighD数据集利用无人机来捕捉典型的道路路段。典型的捕获路段包括普通的高速公路和匝道汇入情景。本文主要研究普通直线道路上车辆的避障行为。因此,在轨迹提取过程中,丢弃了前方无障碍情况下的自由变道轨迹数据和匝道汇入轨迹数据。

(2)为提高设计的避障轨迹的有效性,丢弃了抓拍视野周围(而非视野内)车辆的轨迹数据。在避障完成之前周围车辆离开抓拍视野的轨迹数据也被丢弃。

(3)车辆横向速度绝对值达到0.1 m‧s-1时,认为避障开始。

(4)重点关注高速驾驶的避障场景;车速小于30 km‧h-1时的避障轨迹数据被丢弃。

基于上述四点,从HighD数据集中提取了262组EDOAT数据。图4显示了提取的EDOAT数据。

为便于轨迹优化函数的设计,首先分析了EDOAT的纵向速度。

假设避障开始时的纵向速度为 v x 0,从避障开始到结束的最大或最小纵向速度为 v x d。在避障过程中,纵向速度的最大变化速率定义见等式(4)

v x t = v x 0 - v x d v x 0

其中, v x t反映了避障过程中纵向速度的变化程度。对EDOAT进行统计分析,得到 v x t的统计直方图,如图5所示。

共有96.56%的车辆的 v x t值低于10.00%,75.95%的车辆的 v x t值低于5.00%。因此可以推断,避障过程中纵向速度变化程度非常小。这与车辆的乘坐舒适性和安全性密切相关。因此,在避障过程中,假定车辆的纵向速度恒定。

3 研究方法

3.1 基于逆强化学习的轨迹期望特征匹配算法

轨迹优化函数在避障轨迹规划策略的设计中起着关键作用。基于工程师手动设计优化函数的方法费时费力。虽然满足了避障优化函数,但忽略了真实驾驶员的驾驶习惯,导致其可接受度较差。

3.1.1 逆强化算法的基本原理

逆强化学习的关键是找到所需的参数 θ r,使轨迹优化函数 Γ O A F生成的避障轨迹与EDOAT相似。轨迹 r由一个连续的状态序列组成。

r = x 1 , x 2 , , x i , , x t

式中, x i为智能体在时刻 i i = 1 ,   2 , , t)的状态向量,轨迹优化函数为状态特征向量 η r到状态特征权值的映射。状态特征向量 η r定义为在避障轨迹规划过程中影响车辆及周围车辆驾驶状态的相关特征。

本研究初步假定优化函数 Γ O A F与状态特征向量 η r之间存在线性关系。

Γ O A F = θ r T s . t .    η r = x i r η x i n

基于上述定义,逆强化学习的目标可以描述如下。给定一组专家示范轨迹并获得其状态特征权值 θ r,由特征权值参数化的优化函数 Γ O A F可以生成与专家示范轨迹相似的避障轨迹。也就是说,期望得到轨迹的概率分布 p r,使满足概率分布模型的轨迹特征的期望与演示轨迹的经验特征 η ˜ r相一致。

E p r   η r = η ˜ r η ˜ r = 1 m z η 1 + η 2 + + η m z

其中, m z是EDOAT的数量。由于引入的唯一约束条件由等式(7)给出,最大熵原理最好地反映了现有的信息。因此,本研究得到的轨迹概率分布可以表示为

p * r = a r g m a x p r L p = a r g m a x p r r - p r l o g   p r d r s . t .   r p r d r = 1 η ˜ r = r p r η r d r

其中, L p定义为轨迹概率分布模型 p r的分布熵。基于拉格朗日乘子法,构造了由等式(9)表示的拉格朗日函数。

F p r , λ , θ r = r - p r l o g   p r d r + θ r T r p r η r d r - η ˜ r
+ λ r p r d r - 1

其中, λ θ r是拉格朗日乘数。因此,等式(9)被转化为拉格朗日函数 F p r , λ , θ r的优化问题。

p * r , λ * , θ r * = a r g m a x p r , λ , θ r F p r , λ , θ r

根据变分法:

p r θ r = e x p   - θ r T η r e x p   1 - λ
e x p   1 - λ Z θ r = r e x p - θ r T η r d r

其中, Z θ r是配分函数。

最后,等式(13)给出了轨迹概率分布模型。

p r θ r = e x p   - θ r T η r Z θ r

最大化系统在特征匹配下的分布熵等价于指数概率分布模型下最大化专家示范轨迹的似然值。因此,概率分布模型的分布参数 θ r由等式(14)给出。

θ r * = a r g m a x p r , θ r F p , θ r = a r g m a x p r , θ r r ˜ i R ˜ l o g p r ˜ i θ r

其中, R ˜表示EDOAT的集合, r ˜ i表示第 i个EDOAT。

式(14)一般不提供解析解。因此,本研究通过数值迭代得到值 θ r。为了实现这一点,须获取专家示范轨迹的似然对分布参数 θ r的梯度。

l o g   p r ˜ i θ r = - θ r T η r - l o g   Z θ r

θ r的偏导数生成等式(16)和(17)。

θ r l o g   p r ˜ i θ r = - η r + r p r θ r η r d r
θ r r ˜ i R ˜ l o g p r ˜ i θ r = - m z η ˜ r + m z r p r θ r η r d r

分布参数 θ r的梯度等于指数分布模型下期望的轨迹特征与专家示范轨迹的经验特征之间的差值,由等式(16)给出。

当指数分布模型中的轨迹特征较大时,该特征对应的权重系数增大,如等式(17)所示。结合等式(13),概率分布模型选择这一轨迹的概率呈“指数”降低。最后,将轨迹特征简化为专家示范轨迹的经验特征。

获得梯度需要使用指数概率分布模型来计算轨迹特征的期望。针对高维连续空间问题,概率模型下轨迹特征期望的计算较为困难。类似于参考文献[38],本研究采用逆最优控制理论。因此,利用概率最高的轨迹特征来近似代替指数概率分布模型下的轨迹特征的期望。

E p r   η r = r p r θ r η r d r η a r g m a x r p r θ r

最终梯度Gr 用等式(19)表示。

G r = - η ˜ r + η a r g m a x r p r θ r

基于上述逆强化学习过程,给出了轨迹期望特征匹配算法如下。

3.1.2 轨迹期望特征匹配算法

与全局路径规划算法相比,局部路径规划算法提供的轨迹通常是未来某一时间的空间坐标的连续函数。

x = x t , t t 0 , t 0 + t p y = y t , t t 0 , t 0 + t p

式中, x y分别为避障轨迹相对于某一坐标系的横坐标和纵坐标; t 0为初始避障时间; t p为避障的总持续时间。

图5可以看出,避障时纵向速度的变化可以忽略,因此, x可以表示为

x = x t = x t 0 + t p v t 0

式中, v t 0为避障开始时的纵向速度。

横向避障轨迹是一个时间的连续函数;因此,避障轨迹优化问题是一个典型的无限维优化问题,必须将其转化为一个有限维的优化问题。通过引入“轨迹支撑点”,车辆的避障轨迹用五次样条曲线表示,从而将无限维的优化问题转化为一个有限维的优化问题。

根据提取的EDOAT,大多数车辆在9 s内完成了避障行为,如图4所示。本研究以避障的起始时间 t 0作为时间轴上的起始点,以1.5 s为等间隔取7个离散点,如图6所示。起始时间 t 0对应的横向位置是车辆在避障起始时间的横向位置,本研究假设为已知位置。最后,选取由6个“轨迹支持点”组成的点集 π p s作为对避障轨迹进行样条插值的插值点。

π p s = y t 1 , y t 2 , , y t 6

该点集 π p s将车辆的横向避障轨迹分为六个部分。基于五次样条插值原理,将横向避障轨迹的第 j y j t用等式(23)表示。

y j t = 120 h j - 1 α j 5 M j + 1 - α j + 1 5 M j + 6 h j - 1 α j 3 T j + 1 - α j + 1 3 T j - h j 36 α j 3 M j + 1 - α j + 1 3 M j + h j - 1 α j y t j + 1 - α j y t j + 7 h j 3 360 α j M j + 1 - α j + 1 M j - h j 6 α j T j + 1 - α j + 1 T j , j = 1,2 , 3,4 , 5,6

式中, h j = t j - t j - 1 α j = y - y t j , M j为曲线的四阶导数, T j为曲线的二阶导数。

根据五次样条插值曲线两端的插值点上的一阶和三阶导数的连续性,可以得到以下结果:

λ j - 1 M j - 1 + μ j M j + λ j M j + 1 + I j - 1 T j - 1 + l j T j + I j T j + 1 = 0 p j - 1 M j - 1 + q j M j + p j M j + 1 + λ j - 1 T j - 1 + μ j T j + λ j T j + 1 = g j j = 2,3 , 4,5

其中

λ j = h j 6 ,   μ j = 2 λ j - 1 + λ j ,   I j = - h j - 1 ,   l j = 1 I j - 1 + I j ,                         p j = - 7 h j 3 360 ,   q j = 8 p j - 1 + 8 p j 7 ,             g j = y t j + 1 - y t j h j - y t j - y t j - 1 h j - 1 ,             j = 2,3 , 4,5

根据等式(23)和(24),有12个未知变量和8个约束方程。边界条件给出了四个约束方程。将避障起始位置和结束位置的横向速度和横向加速度设为0,得到其他四个约束方程。横向避障轨迹表示为“轨迹支撑点”和时间的函数,用等式(25)表示。

y = y π p s , t

因此,将避障轨迹的优化函数定义为轨迹特征 η r和特征权重向量 θ r的线性组合。避障轨迹的特征必须预先设计好。使用以下三个轨迹特征来描述车辆避障轨迹:

η r 1 = t y π p s , t - y d 2 d t t M l p d 2 d t
η r 2 = t y ˙ π p s , t 2 d t t M l v 2 d t
η r 3 = t y ¨ π p s , t 2 d t t M l a 2 d t

其中, η r 1 η r 2 η r 3分别表示轨迹的横向位置偏差、横向速度和横向加速度特征; M l p d M l v M l a分别为避障过程的最大横向位置差、横向速度和横向加速度。 y d为预期避障完成时车辆的横坐标, y ˙ π p s , t y ¨ π p s , t分别表示 y π p s , t对时间的一阶和二阶导数。

车辆避障过程可分为避障风险评估、避障目标车道选择和轨迹规划。前两点是避障行为决策的内容,本研究的重点是车辆横向避障轨迹规划。因此,假设避障指令和预期的避障车道是已知的。

式(26)中的轨迹特征描述避障过程中车辆与目标横向位置之间的距离。等式(27)中的轨迹特征描述车辆接近目标位置时的速度。等式(28)中的轨迹特征描述车辆接近目标位置时的加速度。这在一定程度上反映了避障轨迹的舒适性。结合所提出的三个轨迹特征,避障轨迹的优化函数可以写为:

Γ O A F = θ r T η r = θ r 1 η r 1 + θ r 2 η r 2 + θ r 3 η r 3

式中, θ r 1 θ r 2 θ r 3分别为 η r 1 η r 2 η r 3的权重系数。

然后,将逆强化学习算法与基于五次样条曲线的避障轨迹相结合。基于逆强化学习的轨迹期望特征匹配算法如图7所示。

图7中,当轨迹特征权值的更新梯度的二范数 G r 2小于一个预先给定的值 ε时,该算法终止。在学习过程中,特征权重向量 θ r总是正的。当 G r为负数时,首先用 G r乘以该系数 τ,然后取 G r τ的指数并将它乘以 θ r来实现更新。

3.2 自适应驾驶场景下的避障轨迹规划

经验丰富的驾驶员在结构化高速公路上的以下避障行为与周围的驾驶场景密切相关。本节在上述模型的基础上,探讨避障轨迹的优化函数与周围驾驶场景之间的定量模型关系,提出了一种面向自适应驾驶场景的AOAT规划策略。

为研究优化函数和驾驶场景的定量模型,本研究定义了驾驶场景信息 Ε,包括本车和周围车辆的状态。首先,得到了避障环境 Ε与避障轨迹特征的权重系数 θ r之间的映射关系。

θ r 1 = θ r 1 ω r 1 , Ε θ r 2 = θ r 2 ω r 2 , Ε θ r 3 = θ r 3 ω r 3 , Ε

其中, ω r用于表示轨迹特征权重与关键驾驶场景之间的映射关系 ω r = ω r 1 , ω r 2 , ω r 3

映射模型必须是可解释的和可转移的。因此,采用多项式回归模型研究了驾驶场景 Ε与权重系数 θ r之间的映射关系。

θ r 1 = α 0 + α 1 * Ε 1 + α 2 * Ε 2 + α 3 * Ε 1 2 + α 4 * Ε 1 * Ε 2 θ r 2 = β 0 + β 1 * Ε 1 + β 2 * Ε 2 + β 3 * Ε 1 2 + β 4 * Ε 1 * Ε 2 θ r 3 = γ 0 + γ 1 * Ε 1 + γ 2 * Ε 2 + γ 3 * Ε 1 2 + γ 4 * Ε 1 * Ε 2

其中, α 0 α 4   β 0 β 4     γ 0 γ 4  分别为 θ r的拟合参数, Ε 1 Ε 2表示影响权重系数的关键环境信息, Ε = Ε 1 , Ε 2

4 策略验证与结果分析

4.1 基于特征匹配的逆强化学习算法的验证

为验证算法的有效性,从HighD数据集中随机选择一个EDOAT(演示轨迹1)对算法进行验证。将最大熵逆强化学习算法中的初始轨迹特征权值 θ r 0设置为 [ 0.1 ,   10.0 ,   150.0 ]

经过76次迭代后,轨迹特征权值的更新梯度 G r的二范数小于设定值 ε。由逆强化学习理论得到的最优特征权值向量 θ r * [ 18.621 ,   0.479 ,   1.713 ]

蓝线表示演示轨迹1的侧向位置、速度和加速度,如图8所示。箭头表示在学习过程中特征方向的变化。最终学习到的避障轨迹与演示轨迹1具有良好的特征匹配程度,验证了该学习算法的有效性。

为进一步量化算法的学习效果,给出了学习过程中特征梯度的变化。图9(a)~(c)显示了等式(26)和等式(28)中给出的特征在学习过程中的梯度变化。随着学习的继续,三个轨迹特征的梯度逐渐趋近于零,如图9所示。示范轨迹特征与轨迹特征期望的差异减小。

然后,从HighD数据集中随机选择另一个专家轨迹(演示轨迹2)进行算法验证。将初始轨迹特征权值 θ r 0设置为 [ 0.1 ,   10.0 ,   150.0 ]

经过86次迭代后,轨迹特征权值的更新梯度 G r的二范数小于设定值 ε,如图10图11所示。由逆强化学习理论得到的最优特征权值向量 θ r * [ 15.471 ,   0.452 ,   1.105 ]

为探究初始轨迹特征权值向量对最终结果的影响,将相同的演示轨迹(演示轨迹2)的初始轨迹特征权值 θ r 0设置为 [ 150.0 ,   1.0 ,   0.1 ]

经过38次迭代后,轨迹特征权值的更新梯度 G r的二范数小于设定值 ε,如图12图13所示。利用逆强化学习理论得到的最优特征权值向量 θ r * [ 51.282 , 1.456 , 3.655 ]

可以看出,在不同的轨迹特征的初始权值下,最终学习到的轨迹非常相似,但轨迹特征的数值权值存在显著差异。这是因为轨迹优化函数中各特征权值系数的绝对值并不能确定轨迹特征,即相对值。第一加权系数 θ r 1被设置为单位1。在两个特征权值的初始值完全不同的情况下, θ r 2 θ r 3 θ r 1的比值分别为 [ 0.0292 ,   0.0714 ] [ 0.0284 ,   0.0713 ]。在两种不同的特征权值初始值下,特征权值系数的相对变化均小于3%,如图14所示。

为简化计算,采用特征权值的比值来描述轨迹优化函数。

Γ O A F = θ T η r = η r 1 + θ r 2 θ r 1 η r 2 + θ r 3 θ r 1 η r 3 = η r 1 + θ 1 η r 2 + θ 2 η r 3

基于HighD数据集,提取了262组车辆在结构化道路上的避障轨迹。学习提取的轨迹,得到特征权向量 θ的统计结果 θ = 1 , θ r 2 θ r 1 , θ r 3 θ r 1 T θ 1 = θ r 2 θ r 1 θ 2 = θ r 3 θ r 1

4.2 映射模型的验证

为有效地选择影响车辆避障轨迹规划行为的关键环境信息,本研究从实际的角度对驾驶场景信息进行了分析。一般来说,驾驶员避障时间的实际长度主要受到“避障紧急程度”、“避障风险”和车辆状态的影响。当本车与前车之间的车头时距(THW)较小时,驾驶员更倾向于在较短时间内完成避障。但是,如果车速较高,驾驶员可能会更倾向于在更长的时间内完成避障任务,以确保避障的舒适性,降低乘客的紧张程度。

根据实际经验,驾驶员通常会为了离开拥挤的车道和提高驾驶效率而进行避障操作。

通过对从HighD数据集中提取的262组避障信息的分析,发现在避障时,约有83.97%的车辆速度高于前车。大约85.50%的车辆避开了车头间距(DHW)小于100 m的障碍物;约91.61%的车辆避开了THW小于4 s的障碍物;约90.84%的车辆在碰撞时间(TTC)小于50 s的情况下避开了障碍物。

车辆接收到避障指令后,可将本车与前车之间的速度差、DHW和TTC作为关键驾驶场景信息,表示避障的紧迫性,如图15所示。

鉴于上述情况,本车与前车的速度差是影响车辆避障轨迹规划的关键因素之一。值得注意的是,车速也会影响避障轨迹的选择。当车速较高时,驾驶员通常会选择曲率较小的轨迹,以降低乘客的紧张情绪,避免紧急避障造成的车辆不稳定。因此,为使避障轨迹更加拟人化和可接受,本研究将车速也作为影响车辆轨迹规划的关键因素之一。

综上所述, Δ v x v x是影响避障轨迹规划的关键情景因素。轨迹优化函数中各特征的相对权值系数决定了轨迹特征。因此,重新定义了关键情景因素 Ε与轨迹特征的权重系数 θ之间的映射关系。

θ 1 = θ 1 ω 1 , Ε θ 2 = θ 2 ω 2 , Ε

对专家示范轨迹采用非线性拟合技术,得到从驱动场景信息到轨迹优化函数的特征权值的映射关系:

θ 1 = - 0.08414 - 0.005121 * Δ v x + 0.0126 * v x + 0.0005247 * Δ v x 2 - 0.0005662 * Δ v x * v x θ 2 = - 0.4147 - 0.12 * Δ v x + 0.1207 * v x                + 0.009817 * Δ v x 2 - 0.00752 * Δ v x * v x

与等式(34)对应的拟合曲线分别如图16(a)和(b)所示。

表1列出了驾驶场景与轨迹特征权重之间的映射模型的拟合结果。从表1可以看出,该估计模型可以更好地解释避障场景的关键信息与特征权重之间的映射关系。

图16所示, θ 1 θ 2 Δ v x的增函数; θ 1 θ 2会随着本车与前车之间的速度差的增大而减小。车速差 Δ v x越大,车辆避障和碰撞风险的紧迫性越大。因此,相应的避障完成时间应更短,相应的 θ 1 θ 2障碍物完成时间应更小。因为 θ 1 θ 2 v x的增函数,因此本车在避障时速度越高, θ 1 θ 2就越大。这可以用避障风险来解释。当车辆高速行驶时,避障时间过短会增加危险情况(如侧翻)的风险,从而增加驾驶员的紧张情绪。因此,当速度较高时,相应的避障时间应更长,相应的 θ 1 θ 2值应更高。

此时,离线学习阶段完成。下面对该避障轨迹规划策略的有效性进行验证。

4.3 仿真和实验验证

本研究从HighD数据集中提取了262组真实的车辆避障轨迹数据点。以220组轨迹数据为样本,训练驾驶场景的关键信息与轨迹优化函数的特征权值之间的映射关系。基于剩余的42组真实避障轨迹数据,验证了所提出的轨迹规划策略的有效性。

首先,通过从220个避障轨迹中提取学习到的特征权值的平均值,构建了一个用于比较的轨迹优化函数(方案1)。通过驾驶场景信息映射得到的特征权值构造的轨迹优化函数如方案2所示。为了更直观地量化这两种策略的优缺点,引入了轨迹特征距离向量 D η r = [ D η 1 , D η 2 , D η 3 ] T

D η 1   = η r 1 - η ˜ r 1 2 D η 2   = η r 2 - η ˜ r 2 2 D η 3   = η r 3 - η ˜ r 3 2

其中, η r 1~ η r 3分别为由轨迹规划算法生成的避障轨迹的特征; η ˜ r 1~ η ˜ r 3分别为EDOAT的特征。在等式(26)~(28)中进行了具体的描述。根据轨迹特征距离向量 D η r的定义,该值描述了规划算法生成的避障轨迹与专家示范轨迹特征之间的距离。 D η r值越小,生成的避障轨迹与专家示范轨迹越近。

采用所提出的算法(方案2)和比较方案(方案1)生成42组车辆避障测试场景的轨迹。取两种方案在42组测试场景中获得的平均值 D η r,得到两种方案生成的避障轨迹特征与专家演示之间的“平均”距离,如图17所示。

两种轨迹规划方案生成的避障轨迹与专家示范轨迹存在一定的轨迹特征差异。这是因为这两种方案都没有考虑HighD数据集中驾驶员的不同驾驶风格。与方案1相比,方案2可以显著提高生成的轨迹与专家示范轨迹之间的相似性。具体来说,方案2生成的避障轨迹横向位置的平均特征差仅为方案1的49.04%。方案2中横向速度的平均特征差仅为方案1的42.91%。方案2中横向加速度的平均特征差仅为方案1的55.35%。

为进一步验证该方案的有效性,本研究从42组测试样本中随机选择了三组真实的避障场景。采用所提出的轨迹规划策略生成一个AOAT,如图18所示。场景1、2和3中的EDOAT分别记为EDOAT1、EDOAT2和EDOAT3。基于场景1、2和3生成的AOAT分别记为AOAT1、AOAT2和AOAT3。基于真实驾驶场景生成的避障轨迹的横向速度和加速度分别记为LV和LA。在这种情况下的实际横向速度和加速度记为LVT和洛杉矶LAT

图18(a)~(f)分别显示了基于场景1、2和3生成的轨迹的横向位移、速度和加速度。三种情景的 Δ v x值分别为14.40 km‧h-1、21.30 km‧h-1和41.76 km‧h-1。从驾驶场景信息看,场景3比场景1和场景2更为紧急。为防止碰撞事故,车辆在场景3中选择了一个横向加速度较高的避障轨迹。

为验证该策略的实时性能和可接受性,基于上述避障场景构建了一个硬件在环(HIL)测试平台,如图19所示。

HIL平台包括一个接地电阻力矩仿真系统、汽车转向总成、dSPACE MicroLabBox和国家仪器的面向仪器系统的PCI扩展(NI PXI)实时系统。HIL实验过程如图20所示。在MicroLabBox中运行了一种驱动场景自适应的AOAT规划策略,以确保实时性能。使用NI LabVIEW软件将CarSim中的车辆和道路模型嵌入到NI PXI实时系统中。使用伺服电机模拟接地电阻力矩。这些组件通过控制器区域网(CAN)总线进行通信。工作过程如下。MicroLabBox通过CAN总线接收到来自NI PXI的驾驶场景信息后,规划最优AOAT r *并计算最优控制角   δ f *。执行器通过CAN总线接收控制指令,并使相应的转向动作 δ s w遵循最佳轨迹。NI PXI软件接收平台的实际控制动作,以完成闭环控制。

图21图22显示了车辆从避障开始的10 s内的轨迹规划和跟随过程。

在场景1中,本车与前车在避障开始时的速度差为14.4 km‧h-1,本车车速为121.9 km‧h-1。在场景2中,本车和前车在避障开始时的速度差为21.3 km‧h-1,本车车速为118.3 km‧h-1。在场景3中,本车与前车在避障开始时的速度差为41.76 km‧h-1,本车车速为94.50 km‧h-1。与场景1和场景2相比,场景3中车辆的速度略低,但本车与前车的速度差异较大。因此,场景3中的避障紧迫性相对较高,避障时间相对较短。

图22(a)所示时,三种场景下的最大横向位置误差分别为0.185 m、0.130 m和0.090 m。相比之下,场景2的跟踪精度略低于场景1,而场景3的跟踪精度最差。造成这种现象的原因如下。与场景1相比,场景3中的轨迹更加紧迫,系统可能会适当地牺牲轨迹跟踪精度,以确保车辆安全。图22(b)显示了跟踪三个避障轨迹所需的电机控制电流。通过HIL实验可以观察到,本研究规划出的AOAT可以被很好地跟随。HighD数据集中的数据都是真实的交通场景。仿真和实验结果表明,所提出的轨迹规划策略在不同驾驶场景下可以根据紧急程度和安全程度自动调整其权重系数。因此,计划了一个适合于当前驾驶场景的AOAT。

5 总结

轨迹优化函数难以设计,对各种场景的适应性较差。此外,单个轨迹优化函数不能生成与驾驶员行为习惯相一致的避障轨迹。因此,基于最大熵逆强化学习理论,实现了真实避障轨迹优化函数的自动获取,提高了轨迹优化函数的可接受性。然后,结合影响车辆避障行为的关键驾驶场景信息,提出了一种自适应驾驶场景的AOAT规划策略。该策略在避障的同时显著提高了对驾驶场景的适应性和驾驶安全。

在未来的工作中,将设计更复杂、更可靠的映射模型来描述驾驶场景与优化函数的特征权值之间的关系,并通过真实的汽车测试进行充分验证。对于逆强化学习,对不同驾驶方式的人的避障轨迹进行了深入的研究。此外,本研究的车辆轨迹规划仅限于直线道路条件。典型非直线道路条件下的商用车避障轨迹规划将是未来的重要研究方向。

参考文献

[1]

Gao C, Wang G, Shi W, Wang Z, Chen Y. Autonomous driving security: state of the art and challenges. IEEE Internet Things J 2022;9(10):7572‒9. . 10.1109/jiot.2021.3130054

[2]

Benloucif A, Nguyen AT, Sentouh C, Popieul JC. Cooperative trajectory planning for haptic shared control between driver and automation in highway driving. IEEE Trans Ind Electron 2019;66(12):9846‒57. . 10.1109/tie.2019.2893864

[3]

Dolgov D, Thrun S, Montemerlo M, Diebel J. Practical search techniques in path planning for autonomous driving. Ann Arbor 2009;1001(48105):18‒80.

[4]

Islam F, Narayanan V, Likhachev M. Dynamic multi-heuristic A. In: Proceedings of IEEE International Conference on Robotics and Automation (ICRA); 2015 May 26‒30; Seattle, WA, USA. IEEE; 2015. p. 2376‒82. . 10.1109/icra.2015.7139515

[5]

Kushleyev A, Likhachev M. Time-bounded lattice for efficient planning in dynamic environments. In: Proceedings of IEEE International Conference on Robotics and Automation (ICRA); 2009 May 12‒17; Kobe, Japan. IEEE; 2009. p. 1662‒8. . 10.1109/robot.2009.5152860

[6]

Arslan O, Berntorp K, Tsiotras P. Sampling-based algorithms for optimal motion planning using closed-loop prediction. In: Proceedings of IEEE International Conference on Robotics and Automation (ICRA); 2017 May 29‒Jun 3; Singapore. IEEE; 2017. p. 4991‒6. . 10.1109/icra.2017.7989581

[7]

LaValle SM, Kuffner JJ. Randomized kinodynamic planning. In: Proceedings of IEEE International Conference on Robotics and Automation (ICRA); 1999 May 10‒15; Detroit, MI, USA. IEEE; 1999. p. 473‒9. . 10.1109/robot.1999.770022

[8]

Zucker M, Kuffner J, Branicky M. Multipartite RRTs for rapid replanning in dynamic environments. In: Proceedings of IEEE International Conference on Robotics and Automation (ICRA); 2007 Apr 10‒14; Rome, Italy. IEEE; 2007. p. 1603‒9. . 10.1109/robot.2007.363553

[9]

Berglund T, Brodnik A, Jonsson H, Staffanson M, Soderkvist I. Planning smooth and obstacle-avoiding B-spline paths for autonomous mining vehicles. IEEE Trans Autom Sci Eng 2009;7(1):167‒72. . 10.1109/tase.2009.2015886

[10]

Wu J, Zhang J, Nie B, Liu Y, He X. Adaptive control of PMSM servo system for steering-by-wire system with disturbances observation. IEEE Trans Transp Electrification 2022;8(2):2015‒28. . 10.1109/tte.2021.3128429

[11]

Rastelli JP, Lattarulo R, Nashashibi F. Dynamic trajectory generation using continuous-curvature algorithms for door to door assistance vehicles. In: Proceedings of IEEE Intelligent Vehicles Symposium Proceedings (IV); 2014 Jun 8‒11; Dearborn, MI, USA. IEEE; 2014. p. 510‒5. . 10.1109/ivs.2014.6856526

[12]

Gu T, Dolan JM. On-road motion planning for autonomous vehicles. In: Proceedings of International Conference on Intelligent Robotics and Applications (ICIRA); 2012 Oct 3‒5; Montreal, QC, Canada; 2012. p. 588‒97. . 10.1007/978-3-642-33503-7_57

[13]

Lattarulo R, González L, Perez J. Real-time trajectory planning method based on n-order curve optimization. In: Proceedings of International Conference on System Theory, Control and Computing (ICSTCC); 2020 Oct 8‍‒‍10; Sinaia, Romania. IEEE; 2020. p. 751‒6. . 10.1109/icstcc50638.2020.9259787

[14]

Lim W, Lee S, Sunwoo M, Jo K. Hybrid trajectory planning for autonomous driving in on-road dynamic scenarios. IEEE Trans Intell Transp Syst 2019;22(1):341‒55.

[15]

Gutjahr B, Gröll L, Werling M. Lateral vehicle trajectory optimization using constrained linear time-varying MPC. IEEE Trans Intell Transp Syst 2016;18(6):1586‒95.

[16]

McNaughton M, Urmson C, Dolan JM, Lee JW. Motion planning for autonomous driving with a conformal spatiotemporal lattice. In: Proceedings of IEEE International Conference on Robotics and Automation (ICRA); 2011 May 9‒13; Shanghai, China. IEEE; 2011. p. 4889‒95. . 10.1109/icra.2011.5980223

[17]

Dixit S, Montanaro U, Dianati M, Oxtoby D, Mizutani T, Mouzakitis A, et al. Trajectory planning for autonomous high-speed overtaking in structured environments using robust MPC. IEEE Trans Intell Transp Syst 2019;21(6):2310‒23. . 10.1109/tits.2019.2916354

[18]

Luo Y, Xiang Y, Cao K, Li K. A dynamic automated lane change maneuver based on vehicle-to-vehicle communication. Transport Res C Emer 2016;62: 87‒102. . 10.1016/j.trc.2015.11.011

[19]

Yang D, Zheng S, Wen C, Jin PJ, Ran B. A dynamic lane-changing trajectory planning model for automated vehicles. Transport Res C Emer 2018;95:228‒47. . 10.1016/j.trc.2018.06.007

[20]

Chen J, Zhan W, Tomizuka M. Autonomous driving motion planning with constrained iterative LQR. IEEE Trans Intell Vehicles 2019;4(2):244‒54. . 10.1109/tiv.2019.2904385

[21]

Liu Y, Liu Y, Ji X, Sun L, Tomizuka M, He X. Learning from demonstration: situation-adaptive lane change trajectory planning for automated highway driving. In: Proceedings of IEEE International Conference on Mechatronics and Automation (ICMA); 2020 Oct 13‒16; Beijing, China. IEEE; 2020. p. 376‒82. . 10.1109/icma49215.2020.9233846

[22]

Ziegler J, Bender P, Dang T, Stiller C. Trajectory planning for Bertha—a local, continuous method. In: Proceedings of IEEE International Vehicles Symposium Proceedings (IVSP); 2014 Jun 8‒11; Dearborn, MI, USA. IEEE; 2014. p. 450‒7. . 10.1109/ivs.2014.6856581

[23]

Sun L, Peng C, Zhan W, Tomizuka M. A fast integrated planning and control framework for autonomous driving via imitation learning. In: Dynamic Systems and Control Conference (DSCC); 2018 Sep 30‍‒‍Oct 3; Atlanta, GA, USA; 2018. . 10.1115/dscc2018-9249

[24]

Wang Y, Pan D, Liu Z, Feng R. Study on lane change trajectory planning considering of driver characteristics. SAE Technical Paper 2018;2018‒01-1627. . 10.4271/2018-01-1627

[25]

Zhou B, Wang Y, Yu G, Wu X. A lane-change trajectory model from drivers’ vision view. Transport Res C 2017;85:609‒27. . 10.1016/j.trc.2017.10.013

[26]

He X, Xu D, Zhao H, Moze M, Aioun F, Guillemard F. A human-like trajectory planning method by learning from naturalistic driving data. In: Proceedings of IEEE Intelligent Vehicles Symposium (IV); 2018 Jun 26‒30; Changshu, China. IEEE; 2018. p. 339‒46. . 10.1109/ivs.2018.8500448

[27]

Wu J, Kong Q, Yang K, Liu Y, Cao D, Li Z. Research on the steering torque control for intelligent vehicles co-driving with the penalty factor of human‒machine intervention. IEEE Trans Syst Man Cybern 2023;53(1):59‒70. . 10.1109/tsmc.2022.3166991

[28]

Nguyen AT, Rath J, Guerra TM, Palhares R, Zhang H. Robust set-invariance based fuzzy output tracking control for vehicle autonomous driving under uncertain lateral forces and steering constraints. IEEE Trans Intell Transp Syst 2020;22(9):5849‒60. . 10.1109/tits.2020.3021292

[29]

Miyajima C, Nishiwaki Y, Ozawa K, Wakita T, Itou K, Takeda K, et al. Driver modeling based on driving behavior and its evaluation in driver identification. Proc IEEE 2007;95(2):427‒37. . 10.1109/jproc.2006.888405

[30]

Xu L, Hu J, Jiang H, Meng W. Establishing style-oriented driver models by imitating human driving behaviors. IEEE Trans Intell Transp Syst 2015;16(5):2522‒30. . 10.1109/tits.2015.2409870

[31]

Cai P, Sun Y, Chen Y, Liu M. Vision-based trajectory planning via imitation learning for autonomous vehicles. In: Proceedings of IEEE Intelligent Transportation Systems Conference (ITSC); 2019 Oct 27‒30; Auckland, New Zealand. IEEE; 2019. p. 2736‒42. . 10.1109/itsc.2019.8917149

[32]

Li H, Wu C, Chu D, Lu L, Cheng K. Combined trajectory planning and tracking for autonomous vehicle considering driving styles. IEEE Access 2021;9:9453‒63. . 10.1109/access.2021.3050005

[33]

Zhang C, Chu D, Lyu N, Wu C. Trajectory planning and tracking for autonomous vehicle considering human driver personality. In: Proceedings of Conference on Vehicle Control and Intelligence (CVCI); 2019 Sep 21‍‒‍22; Hefei, China; 2019. p. 1‒6. . 10.1109/cvci47823.2019.8951694

[34]

Wu P, Cao Y, He Y, Li D. Vision-based robot path planning with deep learning. In: Proceedings of International Conference on Computer Vision Systems (ICVS); 2017 Jul 10‒13; Shenzhen, China; 2017. . 10.1007/978-3-319-68345-4_9

[35]

Lenz D, Diehl F, Le M, Knoll A. Deep neural networks for Markovian interactive scene prediction in highway scenarios. In: Proceedings of IEEE Intelligent Vehicles Symposium (IV); 2017 Jun 11‒14; Los Angeles, CA, USA. IEEE; 2017. p. 685‒92. . 10.1109/ivs.2017.7995797

[36]

Vallon C, Ercan Z, Carvalho A, Borrelli F. A machine learning approach for personalized autonomous lane change initiation and control. In: Proceedings of IEEE Intelligent Vehicles Symposium (IV); 2017 Jun 11‒14; Los Angeles, CA, USA. IEEE; 2017. p. 1590‒5. . 10.1109/ivs.2017.7995936

[37]

Krajewski R, Bock J, Kloeker L, Eckstein L. The HighD dataset: a drone dataset of naturalistic vehicle trajectories on German highways for validation of highly automated driving systems. In: Proceedings of International Conference on Intelligent Transportation Systems (ITSC); 2018 Nov 4‒7; Maui, HI, USA. IEEE; 2018. p. 2118‒25. . 10.1109/itsc.2018.8569552

[38]

Kuderer M, Gulati S, Burgard W. Learning driving styles for autonomous vehicles from demonstration. In: Proceedings of IEEE International Conference on Robotics and Automation (ICRA); 2015 May 26‒30; Seattle, WA, USA. IEEE; 2015. p. 2641‒6. . 10.1109/icra.2015.7139555

AI Summary AI Mindmap
PDF (4667KB)

2339

访问

0

被引

详细

导航
相关文章

AI思维导图

/