《1、 引言》

1、 引言

近年来,自动驾驶汽车(AV)的发展逐步受到学术界和工业界的关注[1]。作为一个有前景的应用领域,自动驾驶受到了持续增长的人工智能(AI)技术的推动[2]。从环境感知和传感器融合方面取得的进展,到类人决策和规划方面取得的成功[3],人们已经见证了正在开发和应用于AV的巨大创新[4]。传统的模块化自动驾驶解决方案将驾驶系统划分为感知、定位、规划和控制等相互连接的模块,作为其替代方案,端到端自动驾驶逐步出现在大众视野中,现在已经变得十分有前景,成为开发AI和AV的感知和决策能力的关键试验台。

模仿学习(IL)和深度强化学习(DRL)是基于学习的方法的两个主要分支,尤其是在端到端自动驾驶领域。IL的目标是模拟人类驾驶员,在给定的状态下重现控制动作。由于其具有直观和易于使用的特点,IL已被应用于许多特定情况下的AV控制策略,包括乡村[5]和城市驾驶场景[6]。然而,IL在实际应用中暴露出两个主要问题。第一个问题是分布偏移,即随着时间的推移而不断积累的模仿误差会导致偏移训练分布,进一步导致控制失败[7]。为此,研究人员提出了各种方法来缓解这一问题,比如数据集聚合(DAgger)[8]、生成式对抗模仿学习(GAIL)[9]及其衍生方法。另一个问题是渐近性能的局限性。由于IL行为来源于所模仿源(即提供演示的专家),其学习到的策略是有限的,不太可能超过专家的性能。DRL是另一种基于数据驱动的自优化算法,能够缓解上述IL出现的问题[1012]。DRL算法通过构建探索-开发和试错机制,能够自主搜索可行的控制动作并优化策略[13]。在DRL开发的早期阶段,一些无模型算法,如深度Qlearning学习(DQL)和深度确定性策略梯度(DDPG)[14],在AV的驾驶策略学习中非常受欢迎[15]。最近,研究人员开发了更复杂网络结构的演员-评论家DRL算法,并在自动驾驶中表现出更好的控制性能[16]。这些先进的算法包括柔性演员-评论家(SAC)[17]和双延迟DDPG(TD3)[18],它们已经应用在许多具有挑战性的自动驾驶场景中,如复杂的城市驾驶和高速漂移的情况[19]。

虽然DRL方法已取得了许多成就,但仍面临诸多挑战。主要的挑战是计算或学习效率。在大多数情况下,智能体与环境之间的交互效率非常低,模型训练消耗了大量的计算资源和时间[20]。当环境产生的奖励信号稀疏时,学习效率会变差。对此,人们提出了奖励塑造方法,以提高奖励稀疏环境中的学习效率[21]。另一个挑战是,DRL方法(特别是零基础训练)在复杂环境中的理解能力有限,这不可避免地降低了它们的学习表现和泛化能力。由于DRL策略的智能和能力有限[2223],因此在AV应用中,这些策略在处理各种情况时仍然无法超越和取代人类驾驶员。某些新兴的方法考虑了人类的特征,并试图从常识性知识和神经象征学中学习[24],以提高机器的智能。鉴于人类在情境理解和基于知识的推理方面表现出的韧性和高适应性,因此将人类指导引入由数据驱动方法的训练回路中,有望利用人类智能进一步推进基于学习的AV方法。

人类智能可以体现在DRL训练的几个方面,包括人类评估、人类演示和人类干预。一些研究人员已经将人类评估引入DRL训练中,并在相关应用中取得了成功,如模拟游戏[25]和机器人动作控制[26]。然而,这些方法很难处理许多其他无法进行明确评估的更复杂的应用场景。相比而言,人对智能体的直接控制和指导可能对算法训练更有效,这引出了将DRL与示范学习(LfD)[27]和干预学习(LfI)[28]相结合的体系结构。在这两个框架中,行为克隆(BC)[29]和逆强化学习[30]已经与一些典型算法相结合,如DQL [3132]和DDPG [27]。随后有文献报道了这些算法在机器人技术中的应用,证明了与原始的强化学习相比其具有更高的性能[33]。然而,这些方法还远未成熟,它们要么通过使用人类动作直接替换DRL的输出动作,要么使用带有人类演示的监督学习(SL)对DRL智能体进行预训练,而学习算法的架构始终保持不变。

近来,人们已经在尝试修改DRL的结构。通过重新定义策略函数和添加BC目标,新的DRL方案能够通过利用离线人类经验有效加快DRL的训练过程[3435]。然而,离线的Hug-DRL由于涉及许多非量化因素,很难预先设计一个人类干预的阈值。相反,人类在复杂环境下的快速场景理解和决策能力可以通过实时的人与环境的交互来呈现,并有助于进一步提高DRL智能体的性能。因此,与离线的人类指导相比,实时Hug方案将更有效地训练DRL智能体。

然而,现有的DRL方法在实时人类指导下仍存在两个主要问题。首先,长期的监督和指导对人类参与者来说是疲惫的[36]。为了适应人类驾驶员在现实世界中的物理反应,在虚拟环境中必须放慢现有的DRL算法的过程[37]。由此产生的冗长的训练过程降低了学习和计算效率,导致人类出现消极主观情绪[32]。其次,现有的人类指导DRL方法通常需要专家级的演示,以确保收集到高质量数据从而实现理想的性能改进。然而,在现实的大规模应用中,人力的高成本和专业人员的短缺限制了这类方法的使用[38]。因此,应该进一步改进现有方法的性能,尤其是数据处理效率,以确保Hug-DRL算法在实践中的可行性。此外,还需要进一步研究以降低Hug-DRL算法对人类参与者的要求。

为了填补上述研究空白,进一步推进DRL方法,本文开发了一个人在回路中的DRL框架,在模型训练过程中有效地实时利用人类智能。开发了一种实时的Hug-DRL方法并成功地应用于自动驾驶场景中的智能体训练。在所提出的体系结构下,本文还提出了一个利用人类经验的动态学习机制,目的是优化异策略DRL智能体的学习效率和性能。在每一个学习步骤中,一个评估模块将根据其各自效用对人类指导动作和DRL智能体动作进行权重分配。所提出方法的高级体系结构如图1所示,该原型背后的概念除了适用于本研究的具体场景之外,也广泛适用于其他场景。详细的算法、实验结果和所采用的方法报告如下。

《图1》

图1 所提出的实时人类指导Hug-DRL方法的高级体系结构。通过在实时操作和离线学习过程中引入人类指导动作,训练性能有望得到显著提高。t:时间步长;atDRL:DRL策略的动作;athuman:人类指导动作;at:与环境交互的最终动作;st:当前状态变量;st+1:下一步状态变量;rt:奖励信号。

《2、 实时人类指导的增强型DRL算法》

2、 实时人类指导的增强型DRL算法

在自动驾驶等DRL的典型应用中,对DRL智能体的控制可以看作一个马尔可夫决策过程(MDP),由一个元组表示,包括状态空间SRn,动作空间𝒜Rm(其中nm分别为状态空间和动作空间的维数),状态转移模型𝒯  :𝒮×𝒜𝒮,奖励函数:𝒮×𝒜R,如下所示:

 

=𝒮,𝒜,𝒯,(1)

 

给定时间步长t,智能体在给定状态st𝒮下执行动作at𝒜,并接收奖励信号rt=(st,at)。然后,根据环境动力学𝒯|st,at,环境转移到一个新的状态st+1𝒮。在自动驾驶场景中,环境动力学的状态转移概率模型𝒯很难建立。因此,本文采用无需转移动力学建模的无模型强化学习来解决这个问题。

本文使用一种最先进的演员-评论家方法TD3构建高级体系结构,如附录A中的图S1所示。TD3算法通过策略网络μ选择一个确定性动作,在价值网络Q的指导下调整其动作选择策略。该价值网络基于贝尔曼迭代方程估算出特定状态和动作的价值。TD3设置了两个价值网络Q1Q2,以缓解“过估计”问题。为了使学习过程顺利进行,采用了目标网络μ´Q1´Q2´。所使用的总体结构如附录A中的图S2所示。

为了实现强化学习算法中的人在回路框架,本文将LfD和LfI结合到一个统一的框架中,人类可以决定何时干预和覆盖原始的策略动作,并提供他们的实时动作作为演示,从而设计了一个在线开关机制来控制智能体自动探索与人为控制之间的转换。stRn表示人类的策略。人类干预指导可以建模为一个随人类驾驶员对当前状态的观察而变化的随机事件I(st)。于是,智能体动作at可以表示为:

 

at=Ist·athuman+1-Ist·atDRL(2a)

 

 

atDRL=clipμst|Θμ+clipϵ,-c,c,alow,ahigh,ϵ~𝒩0,σ(2b)

 

式中,athuman表示由人给出的指导动作;atDRL表示策略网络给出的动作;I(st)在没有人类指导时等于0,当人类动作发生时等于1;Θμ表示策略网络的参数;alowahigh分别为动作空间的下界和上界;ϵ为服从高斯分布的噪声;c为限幅噪声边界。添加高斯噪声的目的是为了激励对确定性策略的探索。在智能体训练期间,当人类参与者认为有必要干预时,由等式(2a)设计的机制会将驾驶控制权完全移交给该参与者。

价值网络用于近似实际的价值函数。该价值函数是根据未来奖励的期望值进行计算的,用于评估决策的长期效益,如下所示:

 

Qπs,a=Es~𝒯,a~π(|s)[i=0γi·ri](3)

 

式中,γ表示评价未来奖励重要性的折扣系数;E []表示数学期望;i表示已计数的时间步长指数。设Q(s,a)Qπ(s,a)的简化形式。若没有特别声明,将省略有关策略的上标π

为了求解上述期望,采用贝尔曼迭代算法,在第t步中价值函数y的期望迭代目标计算如下:

 

yt=rt+γminj=1,2Qj´st+1,μ´st+1|Θμ´|ΘQj´(4)

 

式中,Θμ´表示目标策略网络的参数;ΘQj´表示目标价值网络的参数;j表示两个价值网络Q1Q2的索引。

具有相同结构的两个价值网络Q1Q2旨在通过剪裁函数来解决高估问题。此外,采用目标策略网络μ´代替策略网络μ进行平滑策略更新。此时TD3中价值网络的损失函数表示如下:

 

QjΘQj=Est,at,rt,st+1~𝒟yt-Qjst,at|ΘQj2(5)

 

式中,E表示期望值;ΘQj为价值网络的参数;D表示经验回放缓存区,它包括当前状态、动作、奖励和下一步状态。

决定控制动作的策略网络旨在优化价值网络的价值,即提高本研究指定的自动驾驶场景中的控制性能。因此,TD3算法中策略网络的损失函数设计如下:

 

μΘμ=-EQ1st,atDRL=-Est~𝒟[Q1(st,μst|Θμ)](6)

 

等式(6)表示对策略的期望是使价值网络的价值最大化,相当于使策略网络的损失函数最小化。atDRL的无偏估计等于μ(st|Θμ)的无偏估计,因为等式(2b)中的噪声为零均值分布。

当人类指导athuman发生时,TD3算法的损失函数需要相应地修改,以将其与人类经验相结合。因此,等式(5)中的价值网络可重写如下:

 

QjΘQj=Est,at,rt,st+1~𝒟yt-Qjst,athuman|ΘQj2(7)

 

事实上,利用从等式(4)修改而来的等式(7)中所示的机制可以建立Hug-DRL方案[3435],该方案已在现有的研究中得到验证和报道[32]。然而,如参考文献[3435]所述,仅仅修改价值网络而不更新策略网络的损失函数,会影响人类指导的预期表现,因为价值网络是基于{st,athuman}进行更新的,而策略网络仍然依赖于st,μst|Θμ。这将导致动作和评价网络的更新方向不一致。这一现象背后的基本原理将在第6节中进行详细分析。

为了解决上述不一致的问题,本文修改了等式(6)中的策略网络的损失函数,添加了人类指导项I

 

μΘμ=𝔼st,at,Ist~𝒟-Q1st,at+IstωIat-μst|Θμ2(8)

 

式中,ωI是调节人类监督损失的一个权重系数;等式(6)中的atDRL可以用at简化代替,包含了人类动作和DRL策略动作。这样,当发生人类指导时,更新的方向与{st,athuman}保持一致。虽然这种通用的人类指导框架近来已经在一些最先进的方法中被提出,但在它们的设置中仍然存在一些缺陷。因此,还需要进一步的研究和改进。例如,在原目标与人类指导项之间的转换是刚性的,并且需要手动设置固定的人类指导项权重[29,34]。权重ωI对DRL算法的整体学习表现至关重要,因为它决定了学习过程对人类指导的依赖程度。因此,需要设计一种与人类动作可信度相关的因子ωI的自适应分配机制。为此,本文引入了Q-advantage作为评价指标,所提出的加权系数可以修改如下:

 

ωI=λkmax exp Q1st,at-Q1st,μst|Θμ,1-1(9)

 

式中,λ表示一个略小于1的超参数,而k表示学习回合数的索引。时间衰减因子λk表明,随着策略函数的逐渐成熟,人类指导的可信度降低。裁切函数确保策略函数只从“好的”人类指导动作中学习,而指数函数放大了那些“好的”人类指导动作所带来的优势。

上述的自适应加权系数通过定量评估人类动作与原始策略相比的潜在优势,调整人类经验的可信度。这种机制形成了策略网络的动态损失函数,与具有手动调整权重的固定学习机制[34]不同。该系数很好地区分了各种人类指导动作的多样化表现,从而放宽了对人类演示质量(即熟练程度和技能)的要求。此外,虽然加权机制涉及评论家网络和演员网络的可微信息,但权重计算并不参与神经网络的梯度反向传播更新。因此,它不会干扰网络训练过程。这是首次在基于LfD/LfI的强化学习方法中提出一种能够适应人类经验可信度的更新机制。本文将在第5节中展示其与最先进技术相比的有效性和优势。

基于等式(9),策略网络的批处理梯度可以表示为:

 

ΘμΘμ=1Nt=1N-aQ1s,a|s=st,  a=μstΘμμs|s=st+ΘμωIa-μs2 |s=st,a=atI(st)(10)

 

式中,N是来自经验回放缓存区𝒟分批处理的样本大小。

虽然所提出的策略网络的目标函数与等式(2)中表示的实时人类指导的控制权转移机制类似,但这两个阶段的原理(即实时人类干预和异策略学习)在所提出的方法中是不同的。更具体来讲,对于实时人类干预过程,当人类动作产生时,由等式(2)表示的刚性控制转移能够确保人类完全接管控制权限。而对于异策略学习过程,本文机制既给人类指导分配权重,又不完全舍弃智能体的自主学习经验,从而使学习过程更加稳健,如等式(8)~(10)所示。

最后,更改经验回放缓存区最初存储的元组,将人类指导的部分包括在内,具体如下:

 

𝒟=st,at,rt,st+1,Ist(11)

 

这样,就得到了一种具有实时人类指导的重构DRL算法。所使用的超参数和算法过程分别见附录A中的表S1和注释S1。

《3、 实验设计》

3、 实验设计

《3.1 实验概述》

3.1 实验概述

为了探讨所提出的改进DRL的可行性和有效性,本文在人在回路驾驶模拟器设计的自动驾驶场景上对40名人类参与者进行了一系列实验。其中,实验描述如图2所示,所使用的六个场景如图3所示,其中一个是用于所提方法的训练过程(与实验A~E相关)(表1),另外五个用于测试和评估所设计的算法的性能,如实验F(表1)所示。训练场景考虑了一项具有挑战性的驾驶任务,即持续的变道和超车,环境奖励鼓励非碰撞和平稳的驾驶行为。为了成功完成设计任务,在所有场景下,自主车辆都需要从起始位置开始,保持在路上行驶,避免与任何障碍物碰撞,最终到达终点线。如果自主车辆与道路边界或其他交通参与者相撞,则该任务立即终止,并使用新产生的车辆继续训练过程。在测试场景中,周围物体的类型、位置和速度都各不相同,以提高策略在更严格要求的情况下的训练性能。

《图2》

图2 实验设置。(a)本研究中使用的实验平台是人在回路驾驶模拟器。关键部件包括一个方向盘、一个实时计算平台、三个显示器和模拟驾驶场景。(b)DRL智能体在训练过程中有两种不同的初始条件:“冷启动”和“经预训练”。在DRL智能体的初始训练中使用冷启动条件,并使用经预训练的策略来评估DRL智能体的微调性能。(c)实验研究了两种不同的人类干预和指导模式,即连续模式和间歇模式。(d)本研究选择人类任务熟练程度和驾驶资历作为两个人为因素。通过实验分析了它们对Hug-DRL方法训练性能的影响。(e)实验设计了各种驾驶场景,以测试通过不同DRL方法获得的自主驾驶策略的控制性能。W/o:没有。

《图3》

图3 自动驾驶智能体的训练和测试场景示意图。(a)场景0,作为一个简单的场景,周围所有车辆都被设置为静止状态。该场景只用于训练阶段,在某些场景中会在随机位置产生两个行人。(b)场景1移除了所有周围的交通参与者,以测试智能体在高速公路上的稳定驾驶性能。其被用于评价生成的驾驶策略的抗过拟合性能。(c)~(f)场景2~5应用于测试所获得的策略在远离训练阶段的未知情况下的适应性。交通场景中加入了移动的行人、摩托车和公共汽车。由于自主车辆与交通参与者之间的互动关系发生了改变,因此自主车辆的预期轨迹与训练过程中的预期轨迹不同。设置这些驾驶条件是为了评估自动驾驶智能体的场景理解能力、适应性和稳健性。

 

《表1》

表1 六个实验的说明

 

Experiment Method Proficient human participant Qualified human participant Pre-initializing trick Reward shaping scheme Model initial condition Training/testing
A Hug-DRL Both Both Y 0 Cold-start Training
IA-RL Both Both Y 0 Cold-start Training
HI-RL Both Both Y 0 Cold-start Training
Vanilla-DRL N/A N/A Y 0 Cold-start Training
B Hug-DRL Y Y Y 1 Cold-start Training
N Y Y 1 Cold-start Training
C Hug-DRL Y Y Y 1 Cold-start Training
Y N Y 1 Cold-start Training
D Hug-DRL Y Y N/A 0 Pre-trained Training
IA-RL Y Y N/A 0 Pre-trained Training
HI-RL Y Y N/A 0 Pre-trained Training
E Hug-DRL Y Y Y 0 Cold-start Training
Y Y N 0 Cold-start Training
Y Y Y 0 Cold-start Training
Y Y Y 1 Cold-start Training
Y Y Y 2 Cold-start Training
F Hug-DRL N/A N/A N/A N/A N/A Testing
IA-RL N/A N/A N/A N/A N/A Testing
HI-RL N/A N/A N/A N/A N/A Testing
Vanilla-DRL N/A N/A N/A N/A N/A Testing
BC-IL N/A N/A N/A N/A N/A Testing
DAgger-IL N/A N/A N/A N/A N/A Testing

为了验证训练性能的提高,实验A将所提出方法与其他Hug-DRL方法进行了比较。首先,使用相同形式的实时人类指导实现了所有相关的基准深度强化学习算法(baseline DRL algorithm),分别是干预辅助的深度强化学习(IA-RL),采用固定权重ωI作为DRL策略函数的人类指导[29,35];人类干预的深度强化学习(HI-RL),具有重塑的价值函数,但未修改策略函数[32];普通深度强化算法(没有人类指导的标准TD3算法)。这些方法中的所有策略网络都由SL预初始化,以实现更快的收敛性。第4节将详细介绍上述方法的测试情况。

为了研究不同的人为因素对DRL训练的影响,本文进行了实验B和实验C,分别探讨了两个关键因素:人类干预模式和任务熟练程度。实验B探讨了不同的干预模式对DRL训练性能的影响,即连续模式和间歇模式,如图2(c)所示。相较于间歇模式,连续模式需要更频繁的人类监督和干预,它允许人类参与者在一段时间内脱离监督回路。这一对比有望揭示人类参与频率对学习效率和主观人体疲劳的影响。对特定任务具有较高熟练程度或资历的受试者通常会产生更好的演示效果。实验C旨在研究这一期望,并研究人类任务熟练度和资历与DRL性能改进之间的相关性,如图2(d)所示。

尽管进行了预初始化,但这三个实验仍然始于一个零基础训练的DRL智能体,在图2(b)中表示为“初始训练的冷启动”。然而,在像自动驾驶这样的现实应用中,即使DRL智能体事先经过了充分的训练,仍需要一个在线微调的过程,进一步改进和确保部署后的策略性能。因此,实验D旨在探索在整个微调过程中不同算法下预训练策略的效果和性能,如图2(b)中的“微调预训练”所示。在这里,“经过预训练”指的是经过良好的DRL训练的策略,而不是由SL进行的预初始化。

本文还在实验E中进行了消融研究,以研究预初始化和奖励塑造对DRL性能的影响。

上述实验安排(实验A~E)旨在证明所提出的方法在训练效率和性能改进方面优于其他先进的Hug-DRL。然而,也有必要测试不同策略在自动驾驶任务的各种场景中的性能。此外,得益于非交互式数据生成,模仿学习在训练效率方面具有很大的优势,因此需要比较IL和DRL范式在测试中的性能。在实验F中,本文比较了基于各种算法的驾驶策略,包括提出的Hug-DRL、所选的DRL基准方法和IL方法(即BC和DAgger),如图2(e)所示。本文还评估了自动驾驶条件下的不同性能指标,包括任务完成率和车辆动态状态。表1概述了比较中涉及的所有实验,统计结果以平均值(M)和标准差(SD)表示。实验结果报告如下,详细的方法和实验设置见第4节和附录A。

《3.2 实验场景》

3.2 实验场景

图2(a)所示的人在回路驾驶模拟器是本研究中用于一系列实验的实验平台。硬件和软件的技术细节和规格报告见附录A中的注释S2和表S2。

本研究共使用了六种场景,索引值为0~5。可视化的场景如图3所示。自主车辆(即需要训练的自动驾驶智能体)和周围的车辆以及行人都在一条7 m宽的双车道公路上。DRL训练采用场景0;将自主车辆与周围三辆车辆的相对速度(vego-v1)设置为5 m·s-1,并在特定区域设置两个随机出发的过马路的行人。采用场景1~5评估不同方法下学习策略的稳健性和适应性。在场景1中,周围所有的交通参与者都被移除,以判断所获得的策略是否能够在公路上实现稳定的驾驶性能。在场景2中,改变了所有障碍车辆和行人的位置,并将自主车辆和障碍车辆之间的相对速度(vego-v2)设置为3 m·s-1,以模拟城市驾驶环境中一个典型的自主车辆变道任务。在场景3中,通过进一步改变周围车辆的坐标,形成了车道保持任务场景。场景4中自主车辆与三个障碍车辆之间的相对速度分别改为vego-v3 = 2 m·s-1vego-v4 = 4 m·s-1(vego-v5) = 3 m·s-1,且移除了行人,模拟城市快速路驾驶场景。在场景5中,添加了具有不同特征的行人,并且插入了各种类型的车辆,包括摩托车和公共汽车。在所有的场景中,都能够在训练和测试过程中调整随机种子,使得不同策略之间可以进行重复性比较。

《3.3 实验设计》

3.3 实验设计

《3.3.1. 初始训练条件》

3.3.1. 初始训练条件

模型训练采用了两种初始条件:

初始训练的冷启动。零基础训练的初始条件记为“冷启动”。在这种情况下,除了预初始化的训练外,DRL智能体对环境没有任何先验知识。

微调预训练。在这种情况下,智能体在标准的DRL算法下完成了使用冷启动的初始训练,并且智能体通常能够执行预期的任务。但是,在某些情况下,智能体的行为仍然是不合需求的。因此,在此阶段对算法的参数进行了微调,以进一步提高智能体的性能。

《3.3.2. 人类干预的启动和终止》

3.3.2. 人类干预的启动和终止

在实验过程中,参与者无需在任何特定时间干预DRL训练。取而代之的是,他们需要在认为有必要启动干预时,通过操作方向盘来为智能体提供指导。他们指导任务的目标是保持智能体在道路上,并尽量避免智能体与道路边界或周围的其他障碍车辆发生任何碰撞。如果人类参与者觉得智能体在朝着正确的方向前进并且行为合理,参与者就不必进行干预。实验中人类干预启动和终止机制解释如下:

干预启动。如果检测到方向盘的转向角度超过5°,则人类干预信号被激活,此时控制权将转移给人类。

干预终止。如果连续0.2 s未检测到方向盘转向角度的变化,则终止人类干预,并将控制权转移回DRL智能体。

《3.3.3. 两种人类指导模式》

3.3.3. 两种人类指导模式

本研究使用了两种人类指导模式:

间歇性指导。在这种模式下,参与者被要求间歇性地提供指导。在指定的场景中,对一个DRL智能体的整个训练包括500个回合,人类干预分散在整个训练过程中。更具体地说,每100个回合中只允许参与者参与30个回合,参与者自主决定是否进行干预以及何时提供指导。在其余的时间里,监视器将被关闭,以使参与者脱离驾驶场景。

持续性指导。在这种模式下,参与者被要求在整个训练过程中持续观察驾驶场景,并在他们认为必要时提供指导。

《3.3.4. 人类参与者的熟练程度和驾驶资历》

3.3.4. 人类参与者的熟练程度和驾驶资历

本研究考虑了人类的任务熟练程度,参与者的熟练程度定义如下:

熟练的参与者。在实验前,参与者首先在驾驶模拟器上的交通场景中随意操作方向盘30 min,以熟练掌握实验场景和设备操作。

不熟练的参与者。参与者在参与实验之前并没有参加训练课程。

除了熟练程度外,实验还考虑了其驾驶资历。

合格的参与者。持有有效驾驶执照的参与者视为合格的参与者。

不合格的参与者。没有有效驾驶执照的参与者视为不合格的参与者。

《3.3.5. 实验任务》

3.3.5. 实验任务

本文设计了多个实验任务。

实验A:本实验的目的是测试所提出的Hug-DRL方法的性能,并将其性能与所选的基准方法进行比较。共有10名持有有效驾驶执照的参与者加入了这项实验。实验前,参与者需要在驾驶模拟器上完成30 min的训练,以熟练掌握实验场景和设备操作。在实验过程中,每个参与者都需要为所提出的Hug-DRL方法和基准方法IA-RL以及HI-RL提供间歇性指导。然而,参与者并未被告知在测试中使用了不同的算法。此外,在没有人类指导的情况下,采用普通DRL方法进行了10次智能体训练。训练的初始条件设置为冷启动,驾驶场景设置为上述的场景0。最后,要求每个参与者在测试后完成一份问卷,以反映他们对工作量水平的主观看法,评分的范围为1(非常低)到5(非常高)。

实验B:本实验的目的是研究人类指导模式对Hug-DRL方法下智能体性能改进的影响。实验A中招募的10名参与者将参与本实验。在进行实验B之前,要求参与者在驾驶模拟器上再次完成30 min的训练,以熟练掌握实验场景和设备操作。在实验过程中,要求每个参与者都为所提出的Hug-DRL方法提供持续的指导。训练的初始条件设置为冷启动,驾驶场景设置为场景0。此外,要求每个参与者在测试后完成一份问卷,以反映他们对工作量水平的主观看法,评分的范围为1(非常低)到5(非常高)。

实验C:本实验的目的是研究人类的熟练程度和驾驶资历对Hug-DRL方法的性能改进的影响。10名新的受试者参加了这项实验,其中5名持有有效驾照的受试者被视为合格参与者,其余5名没有持有有效驾照的参与者被视为不合格参与者。参与者在参加智能体训练实验前没有接受过训练。在实验过程中,要求每个参与者都为所提出的Hug-DRL方法提供持续的指导。训练的初始条件设置为冷启动,驾驶场景设置为场景0。

实验D:本实验的目的是研究所提出的Hug-DRL方法的在线微调能力,并将其微调能力与所选的基准方法进行比较。本实验将训练的初始条件从冷启动改为微调。15名新受试者参与了此项实验。实验前,参与者进行了10 min的训练,以适应实验环境和设备。整个微调阶段共包含30个回合。在实验过程中,受试者只能在前10个回合内干预智能体训练,并在必要时提供指导。在接下来的20个回合里,参与者不参与任何任务。智能体的行为被不断地记录下来,以评估其性能。每个参与者都被要求参与在所提出的Hug-DRL方法和基准方法IA-RL以及HI-RL下进行的实验。在实验之前,参与者并未被告知在测试中使用的不同算法。本实验的驾驶场景设置为场景0。

实验E:本实验的目的是测试所采用的预初始化训练和奖励塑形技术对训练性能的影响。在消融组1中,5名参与者要求完成实验A的任务,所使用的Hug-DRL智能体未经过SL的预训练。该实验结果与在训练过程中获得预训练的Hug-DRL的实验结果进行了比较。消融组2采用了类似的设置,采用的Hug-DRL智能体配备了三种不同类型的奖励方案:无奖励塑形、奖励塑形方案1和奖励塑形方案2。在每组实验中,要求5名参与者完成实验A的任务。不同奖励塑形方案的具体内容将在等式(21)、等式(22)中解释。

实验F:本实验的目的是测试和比较用不同方法训练的自动驾驶智能体在不同场景下的性能。本文首先完成了两个基于IL策略的训练过程BC和DAgger。人类参与者需要操作方向盘,控制IL智能体完成与DRL智能体相同的超车动作(避免与周围的交通参与者碰撞)。对于BC,智能体完全由人类参与者控制,不存在控制权转移的情况。为了增强数据以提高智能体的性能,将高斯噪声添加到智能体的行为中。收集到的数据用于离线SL,以模拟人类的驾驶行为。对于DAgger,智能体能够从人类指导中学会如何提高自身控制能力。在一个回合中,当一个人类参与者感到有必要进行干预时,他将获得部分控制权,只有他的指导动作被记录下来用于实时训练DAgger智能体。由于改进智能体是通过训练回合进行的,DAgger能够收集更多的数据,并获得比BC更稳健的策略。测试方法包括Hug-DRL、IA-RL、HI-RL、vanilla-DRL、Dagger和BC。本实验中使用的驾驶场景包括场景1~5。

《3.4 基准算法》

3.4 基准算法

本文比较了以下五种基准算法:

基准A:IA-RL。在这种方法中,将人类指导引入智能体训练过程。人类动作直接替换DRL的输出动作,并对策略网络的损失函数进行了修改,使其完全适应人类动作。此外,该算法在人类干预事件中惩罚DRL智能体,从而防止智能体陷入灾难性状态。此方法源自参考文献[29,32]中报道的现有工作并以其命名,且本工作对其进行了进一步修改,以适应异策略演员-评论家DRL算法。这种方法的详细算法见附录A中的注释S3,超参数列于附录A的表S1和S3中。

基准B:HI-RL。这种方法将人类指导引入智能体训练过程,人类动作直接替换DRL智能体的输出动作,而无需修改神经网络的结构。因此,人类动作只影响价值网络的更新。此外,该算法在人类干预事件中惩罚DRL智能体,从而防止智能体陷入灾难性状态。这种基准方法源自参考文献[32]中报道的工作并以此命名,且本工作对其进行了进一步修改,以适应异策略演员-评论家DRL算法。详细算法见附录A中的注释S4,超参数列于附录A的表S1和表S3中。

基准C:vanilla-DRL。这种标准的DRL方法使用TD3算法。详细算法见附录A中的注释S5,超参数列于附录A的表S1和表S3中。

基准D:BC。具有数据增强的BC也被采用为一种基准方法。在这项研究中,通过采用BC方法的深度神经网络来开发自动驾驶策略,以便与其他基于DRL的方法进行比较。详细算法见附录A中的图S3,BC下数据收集和模型训练的详细流程见附录A中的注释S6。超参数和网络架构分别列于附录A的表S1和S3中。

基准E:DAgger。这是一种具有实时Hug的IL方法。在这种方法下,人类参与者作为专家来监督并为智能体提供必要的指导,该智能体从人类演示中学习并通过训练提高其性能。DAgger的详细程序见附录A中的图S4。数据收集和模型训练的详细过程见附录A中的注释S6。超参数和网络架构分别列于附录A的表S1和表S3中。

《4、 自动驾驶任务下的算法实现和人在回路测试》

4、 自动驾驶任务下的算法实现和人在回路测试

《4.1 自动驾驶的算法实现》

4.1 自动驾驶的算法实现

本文基于TD3开发了Hug-DRL方法,并引入了实时的人类指导。对于DRL算法,适当地选择状态和动作空间以及详细地设计奖励函数,对于有效的模型训练和性能实现具有重要意义。本研究将自动驾驶智能体的目标任务设置为在各种设计场景下完成变道和超车。为了更好地证明该方法的可行性、有效性和优越性,本文选择了一种具有挑战性的端到端范式作为自动驾驶配置,从而进行概念验证。更具体地说,状态表征是专为驾驶场景的语义图像所构建的,并具体实现为单通道的45像素×80像素:

 

st=pij| p[0, 1]45×80(12)

 

式中,pij为通道内归一化为[0,1]范围的像素值,尺寸为i×j。从模拟器提供的感知信息中获得语义图像。典型的状态变量见附录A中的图S5。

选择方向盘的转向角度作为一维(1D)动作变量,动作空间可表示如下:

 

at=αt|α0, 1(13)

 

式中,α为归一化到[0,1]范围的方向盘角度,范围[0,0.5)表示左转命令,范围(0.5,1]表示右转命令。方向盘的极端转角为±135°。

奖励函数应考虑现实世界车辆应用的要求,包括驾驶安全和平稳性。基本的奖励函数为各指标的加权和,组成如下:

 

rt=τ1cside,t+τ2cfront,t+τ3csmo,t+τ4cfail,t(14)

 

式中,cside,t表示避免与路边沿碰撞的成本;cfront,t表示避免与前方障碍物车辆碰撞的成本;csmo,t是保持车辆平稳的成本;cfail,t是终止回合导致失败的成本;τ1~τ4是每个指标的权重。

避免与马路边沿碰撞的成本由以下2-范数表达式定义:

 

cside,t=-1-fsigmin dleft,t,dright,t2(15)

 

式中,dleftdright分别为到左、右路边界的距离;fsig是将物理值转换为[0,1]的类sigmoid归一化函数。

避免与前方障碍车辆碰撞的成本由以下2-范数表达式定义:

 

cfront,t=-1-fsigdfront2,   if a front obstacle exists0,                   otherwise(16)

 

式中,dfront是与当前车道内前方障碍物车辆的距离。

保持平稳的成本如下:

 

csmo,t=-dαtdt+αt-0.5(17)

 

失败的成本可表示如下:

 

cfail,t=-1          if fail0     otherwise(18)

 

上述奖励信号规定了实际的约束条件。然而,反馈仍然是稀疏的,并不能鼓励探索行为,这也意味着DRL极易陷入局部最优状态。奖励塑形技术是预防这一问题的有效工具。奖励塑形通过构建一个旨在提高性能的额外函数来改变原始奖励。本文中使用了三种奖励塑形方法,并在实验E中进行了消融研究来探索它们的效用。

首先,引入了基于人类干预的惩罚性奖励塑形。塑造函数1基于典型的干预惩罚函数:𝒮×𝒮R,表示如下:

 

t1st-1,st=-10Ist=1Ist-1=0(19)

 

人类干预的目的是纠正DRL智能体的行为,避免灾难性的状态。因此,这个方程表明,当人类决定在特定状态进行干预时,惩罚信号被添加到原始奖励中。为了追求高累积奖励,DRL智能体应该通过减少对有害状态的访问来避免人类干预。干预惩罚只在人类干预事件发生时的第一个时间步中被触发。基本原理是,一旦人类开始进行操纵,干预至少会持续几个时间步,但只有第一个干预时间步才被能确认为人类判定的“有害”状态。

另一种形式的奖励塑形基于势函数,它更为直接和有效[39]。一个典型的基于势函数的奖励塑造函数:𝒮×𝒜×𝒮R如下:

 

st,at,st+1=γϕst+1-ϕst     st𝒮(20)

 

式中,ϕ:𝒮𝒜是一个价值函数,理想情况下等于Ea~π|sQs,a。由于Q的准确值在训练收敛之前难以获得,所以关于任务需求的先验知识成为了一个启发式函数ϕ来激励DRL的探索。因此,函数2与到自主车辆出生点的纵向距离相关,计算如下:

 

t2=Py,tst,at-Py,spawn(21)

 

式中,Py,tPy,spawn分别为智能体在纵向上的当前位置和出生点。这表明智能体被鼓励向前移动并加强探索,以远离起始位置。

最后一种奖励塑形方法是一种最先进的技术,名为Never Give Up (NGU) [40]。它的主要思想也是鼓励探索和防止频繁访问之前观察到的状态值。

 

t3=rtepisodemin max 1+fst+1|ψ-fst+1-Efst+1|ψσfst+1|ψ,1,L(22)

 

式中,f|ψf()分别为具有固定权值ψ和可调权值的嵌入式神经网络;使用范数计算嵌入式状态特征之间的相似性;σ表示SD操作;L是一个正则化超参数。使用f()的目的是给未访问的状态分配更高的额外奖励,尤其是在训练过程中(详见参考文献[40])。rtepisode也鼓励对未访问的状态进行探索,特别是在当前这一回合内。所使用的超参数见附录A中的表S3。

因此,通过在原始函数rt中添加t1t2t3项,可以获得整体的奖励函数。当自主车辆通过最后一辆障碍车并在没有任何碰撞的情况下到达终点线时,表示该回合成功完成任务。以上步骤详细介绍了在所设计的驾驶场景中标准DRL的实现过程。

对于提出的Hug-DRL,实验中的实时人类干预通过操作方向盘实现。因此,以方向盘的转向角度作为人类干预信号,且需要设置一个阈值排除随机扰动。此时人类干预与指导的事件定义为:

 

I(st)=1,   if dαtdt>ε1not q0,   otherwise (23)

 

式中,ε1为阈值,设为0.02;q为人类干预终止的检测机制,定义如下:

 

q=tt+tNdαtdt<ε2(24)

 

式中,ε2为阈值,设为0.01;tN为确定干预终止的时间步长阈值,如上文所述设为0.2 s。

对于所提出的Hug-DRL方法,当人类参与者参与或脱离训练过程时,智能体的控制权限在人类与DRL算法之间实时转移。控制转移的详细机制见等式(2)。

《4.2 人在回路测试的参与者》

4.2 人在回路测试的参与者

本研究共招募了40名参与者(26名男性、14名女性),年龄范围为21~34岁(Mage=27.43, SDage=3.02)(其中,Mage为年龄平均值,SDage为年龄标准差)。该研究方案和同意书已由南洋理工大学机构审查委员会批准,方案编号为IRB-2018-11-025。所有的研究均按照相关的规定进行。所有参与者均获得了知情同意。所有参与者之前都没有研究相关知识,也从未在驾驶场景的模型训练中进行实时干预或指导。在实验之前,参与者被告知DRL智能体将接受他们的指导,并在训练过程中提高其自身性能。

《4.3 统计分析方法》

4.3 统计分析方法

《4.3.1. 统计方法》

4.3.1. 统计方法

使用MATLAB(R2020a, MathWorks)中的统计和机器学习工具箱以及Microsoft Excel对实验数据进行了统计分析。数据大致服从正态分布;因此,两组间的平均值差异采用配对t检验(阈值水平α = 0.05),多组间的差异采用单因素方差分析(ANOVA)。为调查图4中各组间差异的统计学显著性,采用非参数检验,包括Mann-Whitney U检验和Kruskal-Wallis检验,阈值选择α = 0.05。

《图4》

图4 四种不同方法下的初始训练性能的结果。(a)不同方法下的回合训练奖励,根据每种方法下所有参与者在每个场景中获得的奖励值,计算回合训练奖励的平均值和SD值;(b)三种不同方法下的回合长度,根据每种方法下所有参与者每次获得的回合长度的值,计算回合长度的平均值和SD值;(c)不同方法下整个训练过程中的平均奖励,根据每种方法下所有参与者在整体训练过程中获得的奖励的平均值,计算训练奖励的统计值;(d)不同方法下整个训练过程中的平均回合长度,根据每种方法下所有参与者在整个训练过程中获得的回合长度的平均值,计算回合长度的统计值。pt检验中的概率显著性。

《4.3.2. 评估指标的定义》

4.3.2. 评估指标的定义

本研究采用以下指标来评估智能体的性能。反映智能体性能的奖励被选为第一个指标。对于步骤奖励和回合奖励,本文分别计算平均值和SD值来评估和比较智能体在不同方法和不同条件下的性能。回合长度是指一个回合中的步数,其也被选为一个评价指标,以反映智能体当前的性能和学习能力。另一个指标是干预率,它反映了人类干预和指导的频率。干预率可以用两种方式来表示:按回合计数和逐步计数。前者根据人类在特定回合区间内指导的总步数计算,后者根据人类干预的回合数计算。成功率定义为在整个测试过程中成功回合在总回合中所占的百分比。车辆的动力学状态,包括横向加速度和横摆角速度,用来评估智能体车辆的动力学性能和稳定性。

《5、 结果》

5、 结果

《5.1 改进的Hug-DRL方法的训练性能》

5.1 改进的Hug-DRL方法的训练性能

实验A的结果如图4所示,结果显示与其他先进的Hug算法(IA-RL和HI-RL)以及没有人类指导的普通DRL(TD3算法)相比,所提出的Hug-DRL方法的性能得到了改进。在实验过程中,记录每个参与者的时间步长奖励和每个回合的长度(持续时间),以评估每种方法在整个训练过程中的训练性能。回合奖励和回合长度的评估如图4(a)和(b)所示。结果表明,Hug-DRL方法在渐近奖励和训练效率方面优于所有基准方法。图4(c)的统计结果表明,在整个训练过程中,所提出的方法获得的平均奖励最高(Mr = -0.649, SDr = 0.036)(其中,Mr和SDr分别为平均奖励的平均值和标准差),其次是HI-RL方法(Mr = -0.813, SDr = 0.434)、IA-RL方法(Mr=-0.954, SDr = 0.456),最后是普通DRL方法(Mr = -1.139, SDr = 0.567)。此外,根据附录A中表S4中显示的单因素方差分析检验各种算法之间的差异。同时也比较了三种方法的回合长度,用于准确描述智能体的任务完成能力。基于图4(d)所示的结果,本研究提出的算法的平均值(Ml = 93.1, SDl = 2.4)(Ml和SDl分别为回合长度的平均值和标准差)优于IA-RL方法(Ml = 83.2, SDl = 12.7)、HI-RL方法(Ml = 75.8, SDl = 5.5)和普通DRL方法(Ml = 44.3, SDl = 16.8)。它们的差异统计显著,F(4,36) = 36.91,详见附录A的表S5中的ANOVA。在渐近奖励方面,与普通DRL相比,Hug-DRL、IA-RL和HI-RL的性能改进分别为34.4%、10.1%和20.9%。为了评估计算效率,本文以渐近性能作为评价参数,并将所提出的Hug-DRL与其他基准方法进行了比较。为了达到与IA-RL相同的渐近平均奖励,Hug-DRL只需要171个回合,效率提高了192.4%。此外,Hug-DRL在276个回合中能够达到与IA-RL相同的渐近长度,效率提高了81.1%。与普通DRL相比,Hug-DRL提供的渐近平均奖励和回合渐近长度分别提升了276.0%和963.8%。综上所述,这些结果证明了人类指导在提高DRL性能方面的有效性。

《5.2 不同人类指导模式对训练性能的影响》

5.2 不同人类指导模式对训练性能的影响

本研究进行了两组测试,要求每个人类参与者使用间歇和连续的干预模式参与DRL训练(详细解释见第4节)。图5(a)和(b)中显示了从一个具有代表性的参与者那里获得的数据,分别是在连续和间歇指导模式中的回合奖励。结果表明,连续和间歇模式都会使得训练中的回合奖励持续增加。虽然在连续模式中,回合奖励提升得更快,但随着人类在初始训练阶段进行频繁地干预,两种模式的最终奖励水平是相同的。本研究还对整个训练期间连续和间歇指导模式的人类干预率进行了统计,如图5(c)和(d)所示。参与者在连续和间歇干预模式下的干预率平均值分别为(逐步计数)Mi = 25.0%、SDi = 8.3%和Mi = 14.9%、SDi = 2.8%(Mi和SDi分别表示干预率平均值的平均值和标准差)。此外,本文将一个训练过程分为三个独立的部分(人类指导部分、非指导部分和整个部分)并分别研究了两种干预模式下每个部分所获得的奖励。如图5(e)所示,在人类干预部分中,连续和间歇模式的训练奖励平均值分别为Mr = -0.03、SDr = 0.41和Mr = 0.07、SDr = 0.25,但两者之间无显著差异(p = 0.85)。同样,对于非干预部分,尽管连续模式的平均奖励(Mr = -0.26, SDr = 0.18)高于间歇模式(Mr= -0.42, SDr = 0.14),但二者间不存在显著性差异(p = 0.064)。这些结果表明,在最终的DRL性能改进方面,连续和间歇的人类指导模式之间没有显著差异。然而,基于对参与者进行的主观调查,从工作量角度考虑,间歇模式比连续模式更具优势(附录A中的图S6和表S6)。

《图5》

图5 人为因素对DRL训练性能的影响结果。(a)受试者在连续指导模式下,在整个训练过程中的回合奖励代表性数据。人类指导的回合主要分布在训练过程的前半部分,指导动作相对连续。(b)受试者在间歇指导模式下,在整个训练阶段的回合奖励代表性数据。在整个训练过程中,人类指导回合分布稀疏。(c)在连续指导模式下,整个训练过程中的人类干预率。本文采用“逐步计数”和“逐回合计数”两个指标来评估人类干预率。前者是根据人类在特定的回合区间内指导的总步数计算的,而后者是根据人类干预的回合数计算的。(d)在间歇指导模式下,整个训练过程中的人类干预率。(e)在间歇和连续指导模式下获得的训练奖励的箱形图。在每种模式下,根据人类指导的回合、非指导的回合和整个过程分别进一步分析训练奖励。(f)熟练和非熟练参与者提供指导时获得训练奖励的箱形图。(g)合格和不合格参与者提供指导时获得训练奖励的箱形图。

《5.3 人类熟练程度和驾驶资历对训练性能的影响》

5.3 人类熟练程度和驾驶资历对训练性能的影响

任务熟练程度和相关资历是在人类指导下可能影响DRL训练性能的其他人为因素。实验C旨在检验DRL性能提升与任务熟练程度或驾驶资历之间的相关性。如图5(f)和(g)所示,对熟练或不熟练和合格或不合格的参与者所获得的智能体训练奖励进行了说明和比较。在干预部分,熟练的参与者指导DRL智能体获得了比非熟练的参与者(Mr=-0.46,SDr=0.42)更高的奖励(Mr=-0.03,SDr=0.41)。在非干预部分,熟练和非熟练受试者指导下的平均奖励值分别为Mr=-0.26,SDr=0.18和Mr=-0.49,SDr=0.18。在整个训练过程中,虽然两组之间在训练奖励方面略有差异(即熟练组Mr=-0.21、SDr=0.14;非熟练组Mr=-0.48、SDr=0.17),但是基于组内比较,两者之间并没有显著性差异(p=0.11)。附录A中的表S7和表S8是熟练或非熟练参与者在标准DRL方法和所提出的Hug-DRL方法下所产生的性能的非参数方差分析结果。此外,合格与不合格参与者的结果之间也没有显著性差异。这些比较结果表明,所提出的基于实时人类指导的方法对参与者的任务熟练程度、经验或资历没有具体的要求。

《5.4 Hug-DRL改进在线微调性能》

5.4 Hug-DRL改进在线微调性能

通过上述研究的验证,所提出的实时人类指导方法能够在“冷启动”的初始条件下有效地提高DRL性能。随后,本文通过实验D来探索所提出方法的在线微调能力,进一步提高智能体的性能。在线训练性能如图6所示,如图6(a)中的代表性样本所示,实验要求参与者在微调阶段的前10个回合中提供必要的指导,帮助智能体进一步改进在线驾驶策略。之后,DRL智能体继续完成剩余的20个回合,直到在线训练过程结束。本实验将所提出的Hug-DRL方法与另外两种Hug方法(IA-RL和HI-RL)进行了比较。基于图6(b)所示的性能,在微调阶段,所提出的方法和基准方法获得了近似的回合奖励(本文提出的方法:Mr = 1.02, SDr = 0.36; IA-RL: Mr =1.06, SDr = 0.08; HI-RL: Mr = 1.03, SDr = 0.10)。然而,在人类指导微调后的过程中,所提出的Hug-DRL的平均奖励(Mr = 0.92, SDr = 0.35)高于IA-RL(Mr = 0.76, SDr = 0.50),并远高于HI-RL(Mr = 0.19, SDr = 1.01)。此外,图6(c)和(e)的结果表明,所提出的Hug-DRL方法经过微调后,回合长度的分布比两种基准方法的更集中。同时还分析了Hug-DRL和IA-RL在微调后性能优于HI-RL的机制,如附录A中的图S7所示。虽然价值网络的评估曲线在微调过程中通过人类指导动作进行了更新,但HI-RL的策略网络在微调后的阶段陷入了局部最优陷阱,因而未能收敛到全局最优值[附录A中的图S7(a)~(c)]。Hug-DRL和IA-RL则可以成功地解决这一问题[附录A中的图S7(d)~(f)],且Hug-DRL的性能优于IA-RL。综上所述,结果表明,与其他最先进的Hug-DRL方法相比,本研究所提出的方法具有更高的DRL智能体在线微调能力。

《图6》

图6 所提出的方法对DRL智能体在线训练的性能结果。(a)在所提出的Hug-DRL方法下,智能体在线训练过程中的性能示意图。整个在线训练过程分为两个阶段:第一阶段,10个回合的人类指导微调阶段;第二阶段,20个非指导回合的微调后阶段。在微调过程中,通过人类指导进一步优化了智能体的一些不良动作。从而使DRL智能体的性能得到了进一步的提高,体现在微调后阶段行驶路径更加平滑。(b)在所提出的方法和两种基准方法下,在线训练过程中回合奖励的结果。在微调之前,DRL智能体在训练场景0中进行预训练,将训练后的平均奖励设置为微调阶段的基础水平进行比较。(c)在微调后阶段,根据所提出的Hug-DRL方法获得的不同参与者的回合长度的分布。(d)在微调后阶段,根据基准IA-RL方法获得不同参与者之间的回合长度的分布。(e)在微调后阶段,根据基准HI-RL方法获得不同参与者之间的回合长度的分布。

《5.5 测试Hug-DRL在各种场景下训练的自动驾驶策略》

5.5 测试Hug-DRL在各种场景下训练的自动驾驶策略

为了构建和优化基于DRL的策略配置,在实验E中进行了消融测试,分析了预初始化和奖励塑形技术的意义。根据在附录A的图S8(a)中所示的结果可知,取消预初始化过程会导致DRL智能体的训练性能下降(预初始化方案回合的长度:Ml=93.1、SDl=2.44;无初始化方案回合的长度:Ml=84.8、SDl=4.8;p<0.001)。根据图S8(b)~(f)中的结果可知,不同的奖励塑形机制对性能有不同的影响。

最后,为了进一步验证其可行性和有效性,在实验F中,对所提出方法的训练模型在各种自动驾驶场景下进行了测试(详见图3),并与其他五种基准方法IA-RL、HI-RL、普通DRL、BC(附录A中的图S3)和DAgger(附录A中的图S4)进行了比较。实验还设计了各种测试场景来检查习得的策略能力,包括环境理解和泛化性能。

选取任务完成成功率和车辆动力学状态(即横摆角速度和横向加速度)作为评价参数,评价自动驾驶智能体的控制性能。图7(a)显示,由Hug-DRL训练的智能体在所有未经训练的场景中都成功地完成了任务,而所有在基准方法下的智能体都只能完成部分测试场景。基准方法的成功率如下:普通DRL和DAgger 84.6%,HI-RL 76.9%,BC 73.1%,IA-RL 65.3%。另外,本研究还记录并评估了场景1中每种方法下智能体的横摆角速度和横向加速度,如图7(b)所示。Hug-DRL实现了最平稳的驾驶状态,加速度为0.37 m·s-2,,HI-RL表现出最不稳定的驾驶行为(加速度为1.85 m·s-2)。其他基准方法的性能大致相似。

《图7》

图7 智能体在各种驾驶场景下的性能的结果。智能体的策略分别采用了这六种方法进行了训练。场景1~5五种场景仅用于性能测试,在训练过程中不可用。(a)在五种测试场景中,通过不同方法训练的智能体的成功率,其中自主车辆在不同的位置上出现,以计算单个场景的成功率;(b)不同情况下智能体相关指标的平均值,相关指标分别为横摆角速度绝对值的平均值和横向加速度绝对值的平均值;(c)使用Hug-DRL进行预训练的智能体的代表性测试场景,在测试场景中,要求智能体成功地连续超过两辆摩托车和一辆公交车;(d)测试场景(c)中DRL智能体的平均Q值,当DRL智能体接近周围障碍物时,平均Q值下降;(e)控制动作的变化,即在测试场景(c)中,DRL智能体的方向盘角度,负值表示左转向,正值表示右转向。

除了进行上述研究外,本文还探索了Hug-DRL的决策机制。使用经过训练的Hug-DRL智能体的测试场景的一个典型例子如图7(c)所示,图7(c)所示提供了该场景的示意图、自主车辆随时间变化的横向位置、给定当前状态和动作的价值以及智能体的动作。如图7(c)所示,如果保持当前的动作,接近两辆摩托车时当前状态下的Q价值会下降两次,说明潜在风险较高。相应地,自主智能体会改变它的动作,以避开这些对象,并稍微向左行驶。随后,与前方公交车的碰撞风险增加,即Q价值显著下降时,DRL智能体立即决定改变车道。这些结果表明了不同的周围交通参与者对DRL智能体决策过程的影响,智能体的意图和合理动作反映在价值评价函数的结果中。

《6、 讨论》

6、 讨论

现有的基于DRL的策略的训练过程非常耗时,而且在使用高维数据场景处理复杂任务时,需要大量的计算资源。为了克服这些局限性,并通过利用人类智能进一步改进DRL算法,本文提出了一种新的基于人类实时指导的人在回路DRL框架,并从不同的角度对其进行了研究。除了提出的Hug-DRL方法外,还实现并比较了两种具有不同实时人类指导机制的基准方法,以及非人类参与的算法。从图3所示的结果可以看出,所有涉及人的DRL方法在训练效率和获得奖励方面都优于普通DRL方法,这说明了在训练初始阶段进行实时人类干预和指导具有一定的必要性和意义。

引入实时人类指导可以有效提高DRL性能的原因有待讨论。对于演员-评论家DRL算法,动作是由策略函数决定的,而更新只优化了价值函数,如等式(6)所示。因此,策略网络的更新速率受限于价值函数的收敛速率,而价值函数的收敛速率又取决于效率较低的探索机制。相比之下,从人类持有先验知识、对情况和所需任务更加理解的角度来看,DRL的这种学习是笨拙的,因为智能体在探索过程中必须经历多次失败,才能逐渐找到可行的解决方案。这就构成了“冷启动”的问题。然而,在所有涉及人的DRL方法中,随机和不合理的动作将被适当的人类指导动作所取代。因此,更合理的状态和动作的组合被输入价值网络中,这有效地改善了价值函数的分布,使其在更短的时间内收敛到最优点。因此,价值网络的更新效率得到了提高,加速了整个训练过程。

对于三种涉及人类的DRL方法,本文所提出的Hug-DRL方法取得了最好的训练效果和渐近性能,IA-RL表现次之,HI-RL表现最差。产生这些结果的根本原因是Hug-DRL和IA-RL的人类指导项[等式(8)]。除了HI-RL中的动作替代方案外,人类指导项直接鼓励策略网络输出类人的动作,这加速了价值函数对可接受策略的评估。接下来的问题是如何平衡学习人类指导和基于策略梯度更新的原则。当人类提供指导时,现有方法要么屏蔽梯度项,要么在两项之间预先设定一个固定的比率。这些方法没有考虑到不同的人类参与者的影响以及DRL智能体能力的不断提高。在本文提出的Hug-DRL方法中,加权分配机制根据训练过程中不同的人类指导,自适应地调整DRL策略的动态可信度。与IA-RL基准方法的刚性转换机制相比,Hug-DRL更合理地利用了人类经验,因而得分更高,如图4所示。

除了在零初始训练过程中展示了高性能之外,Hug-DRL在其在线微调能力方面也具有一定的优势。对于包括DRL在内的各种基于学习的方法来说,即使模型经过了良好训练,它们在实际使用时也会受到不可预测性和不确定环境的影响。因此,在线微调过程对于实际场景中的DRL应用非常重要。这项研究评估了所有三种涉及人类指导的方法(Hug-DRL、IA-RL和HI-RL)的微调性能。如图6(b)~(e)所示,HI-RL的改进性能在整个微调过程中都无法体现。而本研究提出的方法在整个微调后阶段都成功地保持了改进的性能。这是因为,在人类的指导下,策略和价值网络之间的更新具有一致性。相反,对于接受人类指导的HI-RL模型,其策略网络根据等式(6)中的{s,μs|Θμ}的目标函数进行更新,而价值网络却是根据{s,ahuman}构建的,如等式(7)。一般来说,人类指导动作具有更高的真实价值,但在进行微调之前,这个动作往往没有被价值网络正确评估。随着在线微调的进行,价值网络意识到了这个缺陷,并逐步更新其输出。然而,策略网络有时难以跟上价值网络更新速度。结果,尽管策略网络在初始训练阶段已经收敛到一个局部最优,但由于人类指导带来的是价值函数分布的单点变化,因此策略不能按照预期的方向进一步更新,而是仍然围绕原始的局部最优值迭代。从附录A中的图S7所示的结果中可以看出策略网络和价值网络之间的这种不一致性。值得注意的是,由于价值网络的高自适应性,在零初始训练中,这种不一致性问题很少发生。

为了解决上述的不一致问题,本文提出的Hug-DRL和IA-RL修改了策略函数。通过拖动策略的输出,基于策略梯度更新的效果在人类指导的步骤中被减弱,从而避免了局部最优陷阱的问题。此后,该策略可以在更接近全局最优的空间中继续进行基于噪声的探索和基于梯度的更新。理论上,在HI-RL中发生的不一致性问题可以通过Hug-DRL和IA-RL来解决。然而,在实验结果中发现,IA-RL未能达到预期的性能,这主要是因为人类指导的形式不同。一般来说,强化学习智能体通过使用经验重放缓存区的大规模批量训练实现渐近性能。然而,微调本质上是一个使用小规模样本的学习过程。因此,在这种情况下,IA-RL很难找到合适的学习速率,从而导致微调性能不稳定。所提出的Hug-DRL中的加权因子可以自动调整学习速率并缓解这一问题,从而获得最佳的性能,如图6所示。

与其他基准方法相比,除了上述讨论的训练性能外,测试场景还验证了所提出的方法的能力和优越性。本文测试了所提出的Hug-DRL方法在各种驾驶任务下的有效性、适应性和稳健性,并将该方法与所有相关的DRL基准方法以及BC和DAgger进行了比较。不同测试场景的成功率结果如图7(a)所示,反映了这些方法的适应性。所提出的Hug-DRL在所有测试场景中都获得了最佳性能。IL方法的成功率受到测试条件变化的显著影响,而DRL方法保持了其性能,从而表现出更好的适应性。同时,DAgger的表现优于BC;其性能与普通DRL相似,但落后于Hug-DRL。在成功率方面,IA-RL和HI-RL的表现不如普通DRL;这一结果与之前在训练过程中观察到的结果不同。一种可行的解释是,人类的不良动作中断了DRL的原始训练分布,并导致了稳健性的降低。根据图7(b)的结果可知,IA-RL和HI-RL的平均横摆角速度和横向加速度均高于普通DRL,表明它们在运动平稳方面的性能较差。Hug-DRL取得了最高的性能,这表明,除了加速训练过程外,所提出的人类指导机制还可以在测试过程中实现有效和稳健的控制性能。

本文从人为因素的角度,也对所提出的Hug-DRL方法进行了研究。实时的人类指导已被证明对提高DRL的性能是有效的。然而,长期的监督可能对人类参与者产生负面影响,如疲劳。幸运的是,图5(e)所示的结果表明,与连续模式相比,间歇性指导模式并没有显著降低性能的改进。此外,如附录A中的图S6所示,参与者在间歇指导下对任务工作量的主观感受是满意的。这些结果表明,在所提出的人在回路DRL框架内,人类参与者无须始终不断地保持在控制回路中监督智能体的训练。间歇指导是一个很好的选择,它对智能体的训练表现和人类的主观感受都产生了令人满意的结果。

本文对所提出的Hug-DRL方法是否在很大程度上依赖于参与者对特定任务的熟练程度、技能、经验或资历也进行了研究。DRL性能改进结果如图5(d)所示,熟练参与者组与非熟练参与者组之间无显著性差异。这一观察结果可以用该算法的作用机制进行合理地解释。假设一个标准的DRL智能体处于某一特定状态,则基于噪声的探索只能在接近当前状态的特定区域内生效。结果,其策略分布将基于神经网络的梯度更新而逐渐缓慢地修正,而远非收敛。然而,在所提出的Hug-DRL方法中,人类指导操作可以使策略分布的更新更为高效。此后,即使非熟练参与者提供的是不佳的指导动作,利用人类指导的探索仍然比标准DRL方法中的探索更有效。附录A中的视频S1提供了在Hug-DRL和标准DRL方法指导下探索过程的典型例子,进一步说明了上述观点。类似的结果也可以在图5(f)和(g)中找到,其中,有和没有驾驶执照的两组参与者在所获得的奖励方面没有显著差异。这些发现表明本文所提出的Hug-DRL方法对人类的经验、熟练程度或任务资历没有很高的要求。

《7、 结论》

7、 结论

本研究开发了一种实时的Hug-DRL方法,用于一个端到端自动驾驶案例中的策略训练。开发了一种具有改进的策略和价值网络的改进演员-评论家架构。在训练过程中,人类可以实时干预和纠正DRL智能体的不合理动作。通过40名受试者的人在回路实验对所开发的方法进行了验证,并与其他最先进的学习方法进行了比较。

实验结果表明,所提出的Hug-DRL在学习效率和测试性能方面都优于现有的方法。该方法可以有效地提高智能体在初始训练阶段和在线微调阶段的训练性能。间歇性人类指导可以提高DRL的性能,并且不会造成显著的人力负担。本研究提出的方法大大降低了对人类的要求。参与者不需要是掌握特定领域熟练知识或经验的专家。即使人类的某些行为是不理想的,但只要他们具有常识,DRL就可以得到良好的训练和有效的改进。这些因素使得所提出的方法在未来的现实应用中非常具有前景。本研究中采用的高层框架、方法论和算法在人工智能和人机交互应用领域具有广泛的潜力,可以进一步扩展。