面向强化学习自动驾驶模型的异步监督学习预训练方法

2021年第22卷第5期

摘要

关键词

相关研究

回顶部

《信息与电子工程前沿（英文）》 >> 2021年第22卷第5期 doi: 10.1631/FITEE.1900637

面向强化学习自动驾驶模型的异步监督学习预训练方法

北京航空航天大学交通科学与工程学院，大数据科学与脑机智能高精尖创新中心，中国北京市，100191

收稿日期： 2019-11-20 录用日期： 2021-05-17 发布日期： 2021-05-17

HTML16 PDF 50 收藏 0

摘要

基于人定规则所设计的自动驾驶系统可能会因大规模相互耦合的规则而变得越来越复杂，因此许多研究人员致力于探索基于学习的解决方案。强化学习（reinforcement learning，RL）因其在各种顺序控制问题上的出色表现而被应用于自动驾驶系统设计。然而，基于RL的自动驾驶系统落地应用所面临的主要挑战是其初始性能不佳。强化学习训练需要大量训练数据，然后模型才能达到合理的性能要求，这使得基于强化学习的模型不适用于现实环境，尤其在数据昂贵的情况下。本文为基于强化学习的端到端自动驾驶模型提出一种异步监督学习（asynchronous supervised learning，ASL）方法，以解决在实际环境中训练基于强化学习模型时初始性能差的问题。具体而言，通过在多个驾驶演示数据集上并行且异步执行多个监督学习过程，在异步监督学习预训练阶段引入先验知识。经过预训练后，模型将被部署到真实车辆上进一步开展强化学习训练，以适应实际环境并不断突破性能极限。本文在赛车模拟器TORCS（The Open Racing Car Simulator）上对所提出的预训练方法进行评估，以验证该方法在改善强化学习训练阶段端到端自动驾驶模型的初始性能和收敛速度方面足够可靠。此外，建立一个实车验证系统，以验证所提预训练方法在实车部署中的可行性。仿真结果表明，在有监督的预训练阶段使用一些演示，可以显著提高强化学习训练阶段的初始性能和收敛速度。

关键词

自主驾驶 ; 自动驾驶车辆 ; 强化学习 ; 监督学习