文章编号:1672-4747(2022)02-0014-11
基于深度强化学习的无信号交叉口车辆协同控制算法
蒋明智,吴天昊,张琳
(北京邮电大学,人工智能学院,北京100876)
摘要:针对未来智慧城市智能网联汽车通过无信号交叉口的通行效率问题,本文基于深度强化学习提出了一种渐进式价值期望估计的多智能体协同控制算法(PVE-MCC)。设计了基于渐进式学习的价值期望估计策略,通过动态改变价值期望学习目标,保证值函数网络渐进式地持续学习,避免策略网络陷入局部最优解,并将该策略与泛化优势估计算法结合,提升算法收敛精度和稳定性。其次,以通行效率、安全性和舒适性为优化目标,设计了多目标奖励函数来提高多智能体协同控制的综合性能。此外,无信号交叉口易出现的“死锁”现象给多车协同控制带来了巨大的挑战,针对这一问题,基于链表环形检测算法设计了启发式的“死锁”检测-破解干预策略,实现对“死锁”环的提前检测和破解,进一步保障交通通行的安全性。最后,本文搭建了双向六车道无信号交叉口场景的仿真实验平台,进行功能和性能验证。实验结果表明,PVE-MCC 算法比现有方案提高交通流量30.47%,单车效率提升了95.56%,舒适性提升了53.82%。关键词:智能交通;协同控制;强化学习;无信号交叉口;智能网联汽车中图分类号:U471.15
文献标志码:A
DOI :10.19961/jki.1672-4747.2021.11.021
Deep Reinforcement Learning Based Vehicular Cooperative Control
Algorithm at Signal-free Intersection
JIANG Ming-zhi ,WU Tian-hao ,ZHANG Lin
(School of Artificial Intelligence ,Beijing University of Posts and Telecommunications ,Beijing 100876,China)
Abstract :Aiming at the traffic efficiency of intelligent connected vehicles passing through a signal-free intersection in future smart cities ,in this paper we propose a progressive value-expectation esti-mation multi-agent cooperative control (PVE-MCC)algorithm based on deep reinforcement learn-ing.First ,the PVE-MCC algorithm designs a progressive value-expectation estimation (PVE)strate-gy based on progressive learning by dynamically varying the value expectation learning goal from short-term to long-term changes.The value function network is guaranteed to gradually and continu-ously learn ,and the strategic network is prevented from falling into a local optimal solution.Second ,
the PVE-MCC algorithm combines the PVE strategy with the generalized advantage estimation algo-rithm to improve the convergence accuracy and stability of the algorithm.Third ,the PVE-MCC algo-rithm jointly takes traffic efficiency ,safety ,and comfort as the optimization objective ,and designs a multi-objective reward function to improve the performance of multi-agent collaborative control.In addition ,the “deadlock ”phenomenon that easily occurs at signal-free intersections constitutes a re-收稿日期:2021-11-16录用日期:2021-12-7网络首发:2021-12-17
审稿日期:2021-11-16~11-21;11-26~12-02;12-06~12-07基金项目:产业技术基础公共服务平台项目(2019-00892-2-1)作者简介:蒋明智(1996—),男,硕士研究生,研究方向为智能交通系统,E-mail :通信作者:张琳(1974—),男,教授,研究方向为移动云计算和物联网,E-mail :引文格式:蒋明智,吴天昊,张琳.基于深度强化学习的无信号交叉口车辆协同控制算法[J].交通运输工程与信息学报,2022,20(2):14-24.
JIANG Ming-zhi ,WU Tian-hao ,ZHANG Lin.Deep Reinforcement Learning Based Vehicular Cooperative ControlAlgorithm at Signal-freeIntersection[J].Journal of Transportation Engineering and Information ,2022,20(2):14-24.
第20卷第2期2022年06月
交通运输工程与信息学报
Journal of Transportation Engineering and Information
Vol.20No.2Jun.2022
markable challenge for multi-vehicle cooperative control.In response to this problem,the PVE-MCC algorithm based on the linked list ring detection algorithm designs a heuristic detection-cracking in-tervention strategy for the“deadlock”to ensure the safety of the intersection.Finally,we present a simulation experimental platform for a two-way six-lane signal-free intersection for verification.The experimental results show that the PVE-MCC algorithm improves the traffic flow rate by30.47%,the single-vehicle efficiency by95.56%,and the comfort by53.82%compared with existing schemes.
Key words:intelligent transportation;cooperative control;reinforcement learning;signal-free inter-section;intelligent connected vehicles
0引言
智慧城市的一个重要标志是城市交通智能化和汽车网联化,实现网联汽车在无信号交叉口高效智能地协同通行已成为当今国内外的研究热点。同时,以车车通信(Vehicle-to-Vehicle,V2V)、车路通信(Veh
icle-to-Infrastructure,V2I)为基础发展起来的车路协同系统使得多车协同控制成为可能[1-2]。
目前,无信号交叉口车辆协同控制方案主要分为传统数学模型和人工智能强化习方法两大类。前者主要包含基于协商调度[3-5]、基于规划[6-7]、基于模型预测[8]和安全场论[9-10]等方法,这类方法对车辆通过交叉口场景的轨迹、时间和次序进行建模求解,来获取车辆通过交叉口的控制策略。但是随着交叉口车流量的增加,基于传统数学模型方案所需的计算量往往呈指数级上升,因此这类方案不适用于较高车流量的交通场景[11]。深度强化学习(Deep Reinforcement Learning,DRL)以其独特的决策能力可以获得更好的控制策略[12-13],常用的RL算法有DQN(Deep Q Network)、PPO (Proximal Policy Optimization)和DDPG(Deep De-terministic Policy Gradient)等。Kai等[14]采用DQN 将交叉口导航问题建模为多任务学习问题;Shu 等[15]提出了一个迁移-RL框架,来提高自动驾驶车辆在无信号交叉口的控制性能和学习效率;Guan 等[16]提出了一种基于模型加速的PPO算法,解决了集中式控制方案中计算效率低的问题。目前大部分基于DRL的控制方案还主要局限于单车智能或者固定车辆数目的交叉口场景,在多车协同和适应动态高车流量的真实交叉口场景方面的研究还比较少。此外,无信号交叉口冲突点之间会形成多组交织环,交织环中的车辆会阻碍其他方向的车辆进入或驶出交织环,当交通流量较大时,交织环内的车辆可能会由于相互影响而无法正常驶出,而入口车流又不断驶入,则会造成交叉口严重的堵塞现象,称为“死锁”现象。“死锁”现象不仅严重影响通行效率,而且会增大交叉口车辆碰撞风险[17],对协同控制算法的性能带来了较大的挑战。
Wu等[18]提出了多智能体协同深度确定性策略梯度算法(Cooperative Multiagent Deep Deter-ministic Policy Gradient,CoMADDPG),在双向单车道无转向的无信号交叉口场景实现了动态交通流场景下多车协同通过冲突区域。但是该算法存在值函数网络过早收敛的问题,导致多车协同控制精度较低且无法应对交叉口的“死锁”现象,当面临较大交通流量或复杂交叉口时,会出现碰撞情况。此外,该算法只是从安全性角度对多车协同驾驶进行优化,在车辆行驶综合性能方面表现不足。
本文基于DRL针对动态车流量的复杂无信号交叉口场景研究多车协同控制算法,其主要贡献点如下:
(1)提出了一种基于强化学习的渐进式价值期望估计的多智能体协同控制(Progressive Value-expectation Estimation Multi-agent Cooperative Control,PVE-MCC)算法,该算法设计了渐进式价值期望估计策略,实现值函数网络的渐进式学习,并结合泛化优势估计算法[19],提高模型训练的稳定性和策略收敛精度。
(2)从安全性、通行效率和舒适度三个方面设计了多目标奖励函数引导策略优化,实现在提高车辆安全性的同时,兼顾交通效率和乘客舒适感。
(3)针对交叉口易出现的“死锁”现象设计了启发式安全干预策略和“死锁”的检测-破解策略,通过链表环形检测算法实现对“死锁”的检测和破
蒋明智等:基于深度强化学习的无信号交叉口车辆协同控制算法15第2期
解,进一步提高车辆行驶的安全性。
(4)搭建了双向六车道无信号交叉口仿真实验平台,从算法收敛稳定性、综合控制性能和协同控制精度三个方面,验证了本文所提算法的有效性,并开源了该平台和算法代码。
1强化学习方法建模
1.1问题描述
假设交叉口场景内所有车辆均为智能网联汽车,所有车辆之间均可通信且无时延和干扰,车辆通过交叉口时,具有明确的驾驶意图(如直行、左转或右转)。本文以车辆状态信息作为状态输入,加速度作为动作输出,引入DRL 实现车辆在无信号交叉口的协同控制策略。DRL 算法一般用于求解马尔可夫(Markov )决策过程,而求解该过程要求随机过程具有Markov 性,即系统下一时刻的状态只取决于当前时刻的系统特性,与之前任何时刻无关。在交叉口车辆的协同控制过程中,
t 时刻的交通状态是交通参与者状态的集合,状态信息包括加速度、位置、速度、车道等,可以发现,状态s t 由t -1时刻车辆的动作所决定,而与之前的任何时
刻的动作无关,因此,可以认为交叉口车辆的协同控制过程具备Markov 性。车辆在t 时刻的纵向控制可以表示为:
ìíîïï
ïï
a t =π()
|s t θπ
p t +1
=p t -v t T -12
a t T 2
v t +1=v t +a t T
(1)
式中:s t 表示t 时刻交叉口的车辆状态;a t 表示决策模型在s t 下的决策加速度;π()
|s t θπ表示预训练的决策模型,该决策模型可以根据当前时刻的交叉口车辆状态,对驾驶行为做出决策;p t +1表示t +1时刻车辆与交叉口的距离;v t +1表示下一时刻的速度;
T 表示控制周期。本文设定典型的双向六车道无信号交叉口作为实验场景,在交叉口场景中,车辆具有直行、左转、右转三种驾驶轨迹,忽略超车和换道行为[20],车辆保持固定轨迹通过交叉路口,并采用车辆纵向动力学线性模型来描述车辆的动力学特性[21]。无信号交叉口场景及车辆运动示意图如图1
所示。
图1无信号交叉口场景及车辆运动示意图
考虑到交叉口场景中交通状态空间大,车辆的加速度控制属于连续动作空间,而且要实现多车协同控制,本文在DDPG 算法的基础上设计了PVE-MCC 算法进行求解。PVE-MCC 算法采用actor-critic 双网络结构,并引入目标网络解决模型更新时的波动性问题。算法中包含的四个网络分别为动作网络π、目标动作网络π′、值函数网络Q 和目标值函数网络Q ′。此外,该算法挑选固定数量的车辆作为决策参考车辆,使值函数网络进行价值评估时,除了考虑自身的动作,还结合决策参
考车辆的动作对协同性进行评估,来达到多车协同控制的目的。假设训练样本来自策略β,该算法的目标函数为:
ìíî
ïïïïJ (θ)=maximize θE β[]
Q ω()s t ,a t ,c t J (ω)=minimize ωE βéëê12(
r t +γQ ω′()s t +1,a t +1,c t +1-ùû
ú)
Q ω()s t ,a t ,c t 2
(2)
式中:
ω和ω′分别为值函数网络Q 和目标值函数网络Q ′的参数;
θ为动作网络π的参数;c t =[]a ′1
cooperative,a ′2
,…,a ′N
表示t 时刻N 辆决策参考车辆的动
作集;
γ为折扣因子;r t 为t 时刻环境的即时奖励。1.2状态空间和动作设计
本文采用虚拟车道映射的方法,将有冲突关系的两个车道以冲突点为结点进行旋转投影,映射为一条虚拟车道,在虚拟车道上将不同车道的
16
交通运输工程与信息学报第20卷
车辆构建前后车关系,通过实现虚拟车道上的车辆保持合理间距来避免冲突点处的横向碰撞问题,即将二维的碰撞问题简化为一维碰撞问题求解。令目标车辆i 的信息集合I i =[]p i ,v i ,a i ,l i ,p i 、v i 、a i 、l i 分别为位置、速度、加速度和车道;状态空
间为s i t =[]I i ,I i o 1,I i o 2,…,I i
oN ,
I i o 1,I i o 2,…,I i oN 为车辆i 在虚拟车道上最邻近的N 辆车的状态信息;
c i t =[]a i o 1,a i o 2,…,a i oN 为车辆i 在虚拟车道上最邻近的N
辆车的动作集。决策车辆的动作为加速度a i ,a i ∈
[]a m ,a M ,
a m 和a M 分别为加速度的最大值和最小值。
1.3多目标奖励函数设计
动作网络π的终极目标是使得期望累计回报最大,期望累计回报为:
E [G t ]=∑k =0
∞γk r t +k
(3)
式中:G t 为累计回报;r t +k 为t +k 时刻的即时奖励,因此,奖励函数的设计直接决定了动作网络的收敛方向。
本文从安全性、交通效率和舒适性三个方面设计了多目标奖励函数。
(1)安全性
安全性是车辆行驶最重要的考虑因素,目标车辆与其在虚拟车道中最邻近车辆的预计碰撞时间(Time to Collision ,TTC)和相隔距离S d 被作为安全性的评估因素。安全性问题的奖励函数表示为:ìíî
ïï
ïïïïïïïïïïïï
ïïïïïïïïïïTTC (t )=p i (t )-p i o 1(t )v i (t )-v i o 1(t )S d (t )=||p i (t )-p i o 1(t )r TTC (t )=ìí
îïï1/tanh ()
-TTC (t )t thr 0<TTC (t )<t thr
0其他
r S d
(t )=ìíîïïïïlog ()
S d (t )d thr α0<S d (t )<d thr
0其他
(4)
式中:
p i ()t 和v i ()t 分别是目标车辆i 的位置和速度;
p i o 1
(t )和v i
o 1
(t )分别是其最邻近车辆的位置和速度;r TTC (t )和r S d
(t )分别是在时间和空间维度
上的奖励函数;
d thr 和t thr 分别为判定是否安全行驶的距离和时间阈值,当低于这个阈值时,认为行驶状态有碰撞风险,则奖励函数生效,对策略模型的决策进行惩罚,否则安全性奖励函数不生效,使模型更注重其他优化目标的学习;α为非线性伸缩因子。
(2)交通效率
当所有车辆都能以最大速度通过交叉口时,交通通行效率最高,本文以车辆的归一化速度作为车辆效率的奖励因素,以r E (t )作为效率的奖励函数,表示为:
r E (t )=()
v i (t )-v m ()
v
M
-v m (5)
式中:v M 和v m 分别是交叉口的最大和最小限速。
(3)舒适性
加速度变化率(jerk)对人体驾驶舒适度有直接的影响,常被用于作为驾驶舒适度的衡量指标,本文对舒适度的奖励函数r jerk (t )定义为:
r jerk (t )=jerk (t )2/3600
(6)
式中:3600是将数值区间归一化到[]0,1,本文设置的车辆控制周期是0.1s ,加速度最大最小值分别是-3m/s 2和3m/s 2,jerk (t )2最大值为
()
3-()
-30.12
=
3600。
(4)多目标奖励函数
当目标车辆发生碰撞或者驶出交叉口时,本文采用常量作为奖励值,将安全性、效率和舒适度奖励函数汇总后的多目标奖励函数表示为:ìí
î
ï
ï
ïï
r n (t )=r TTC (t )+r S d
(t )+r E (t )×φe +r jerk (t )φj
r (t )=ìíîïïr n (t )正常行驶5通过交叉口
-10发生碰撞(7)式中:
φe 和φj 分别是交通效率和舒适性奖励对应的权重系数。
1.4动作网络和值函数网络设计
算法由动作网络Actor 和值函数网络critic 组成,actor 网络根据状态对车辆做出动作决策,critic 网络
结合状态信息和决策参考车辆的动作集对ac-tor 做出的动作进行Q 值评估。s t 状态空间为长度28的一维数组,由目标车辆和6辆决策参考车辆的状态信息组成;c t 为长度为6的一维数组,表示决策参考车辆的动作。采用全连接神经网络层提取特征,并对每层数据进行归一化处理,Relu 作为激活函数,详细网络结构见图2。
蒋明智等:基于深度强化学习的无信号交叉口车辆协同控制算法17
第2期
图2神经网络结构
2渐进式价值期望估计的多智能体协同
控制算法
2.1泛化价值期望估计
值函数网络critic 利用时序差分法(Temporal
Difference ,TD-error)根据当前时刻价值和下一时刻价值估计得到目标价值。TD-error 是蒙特卡洛法和动态规划法的结合,但是这种方法在值函数网络学习欠佳时,会存在较大的价值估计偏差,容易导致模型学习波动大、学习缓慢和陷入局部最优解。而泛化优势估计(Generalized Advantage Estima-tion ,GAE)算法可以有效地平衡值网络函数估计目标价值带来的偏差和方差[18],PVE-MCC 算法结合
GAE 进行改进可提升训练的稳定性。
定义动作集[a t ,c t ]的优势价值估计为δQ t =r t +γQ ω′()s t +1,a t +1,c t +1-Q ω()s t ,a t ,c t ,可以发现,δQ t 是一个γ-just 的估计函数,接下来考虑多步价值估计的情况,用A (n )t 表示n 步的优势函数估计:
ìíî
ï
ï
ïïï
ïïïA (1)t =δQ
t =r t +γQ ω′()s t +1,a t +1,c t +1-Q ω()s t ,a t ,c t A (2)t =δQ
t +γδQ t +1=r t +γr t +1+γ2Q ω′()s t +2,a t +2,c t +2-Q ω()s t ,a t ,c t ...A (∞)t =∑n =0∞γn δQ t +n =-Q ω()s t ,a t ,c t +r t +γr t +1+…+γk
r t +k +…
(8)A (∞)t 这一项相当于采用蒙特卡洛法对优势函
数进行估计,随着估计步数的增加,估计值的偏差逐渐减小,而方差则会逐渐加大。GAE 算法引入
了加权因子λ,λ∈()0,1,可以以多个估计值加权平均的方式来实现偏差和方差的平衡,计算过程可以表示为:
A GAE(λ,γ)
t
=(1-λ)()
A (1)t +λA (2)t +λ2A (3)t +…=(1-λ)(δQ t +λ()δQ t +δQ t +1)+λ2
()δQ t +δQ t +1+δQ t +2+…=∑n
∞(λγ)n
δ
Q
t +n
(9)
可以发现,A GAE(λ,γ)
t
还可以用于计算λ为0和1时的值,当λ=0时,算法等同于TD-error ,此时价值估计偏差较高,但是方差较低,当λ=1时,算法
变成蒙特卡洛目标值和价值估计的差,此时偏差较低但是会引入方差。因此,可以通过调节λ实现模型对两者的权衡。由于多步采样会使采样一个样本所消耗的计算成本成倍增加,为了平衡计算效率和算法性能,本文选择的采样步长为12。2.2渐进式价值期望估计策略
在Actor-Critic 双网络结构中,动作网络的目标是最大化价值期望,而值函数网络的目标是最小化价值期望误差,其中折扣因子γ表示下一时刻价值期望相对于当前时刻的权重,γ值越大,表示越重视长期得到的回报,γ越小,则越重视短期的
回报。
当训练前期值函数网络还没收敛时,如果γ值
设置过大,容易造成TD-error 不稳定,使值函数网络训练波动,因此,此时γ值设置不应过大,应该加
强真实环境奖励值的引导,即先关注短期回报。但是当值函数网络学习到一定程度时,应该逐步加大γ值,增强对长期期望的学习。这种先易后难的学习思想与人类的学习习惯也是一致的,这样更有益于模型收敛精度。基于这种思想,本文通过动态调整折扣因子,实现对价值期望的渐进式估计,表示如下:
γ=tanh ((eposide +δ1)/δ2)×γM
(10)
式中:
γM 为最大折扣因子;eposide 为训练幕数;δ1和δ2为调整参数;当eposide =0时,γ0=tanh (δ1/δ2)×γM 。从公式可以看出,折扣因子γ随训练批次eposide 的增大而非线性增大,
eposide 越大,增长越缓慢。γ值越大,表示越关注长期期望,对策略收敛精度要求也更高,模型学习也更缓慢,
18交通运输工程与信息学报第20卷

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。