WO2020093702A1

WO2020093702A1 - 一种基于深度q网络学习的交通灯动态配时算法

Info

Publication number: WO2020093702A1
Application number: PCT/CN2019/092463
Authority: WO
Inventors: 赵海涛; 段佳秀; 丁仪; 丁寅; 张晖; 朱洪波
Original assignee: 南京邮电大学
Priority date: 2018-11-07
Filing date: 2019-06-24
Publication date: 2020-05-14
Also published as: CN109558969A; WO2020093701A1

Abstract

一种基于深度Q网络学习的交通灯动态配时算法，方法中交通控制中心首先统计所有交通灯智能体，存入集合中。交通控制中心对所有智能体的深度Q网络的权重进行初始化，并且根据路网上交通灯发送的动作控制请求进行动态配时，之后执行该配时动作。交通控制中心实时检测各智能体所选动作是否结束，对所选动作执行完毕的智能体根据实时反馈的交通信息来输入深度Q网络并根据网络的输出判断下次交通配时的具体时间，判断未终止时，控制中心重新根据交通灯发送的动作控制请求进行动态配时。最终达到合理对交通灯进行配时，减轻交通拥堵的效果。

Description

一种基于深度Q网络学习的交通灯动态配时算法

技术领域

本发明属于人工智能领域与通信领域，具体涉及一种基于深度Q网络学习的交通灯动态配时算法。

背景技术

随着社会经济的发展，城市交通问题也越来越引起人们的关注，交通堵塞也成为人们每天必须面对的问题。交通堵塞不但浪费大量的时间，而且排队过程中刹车和怠速会浪费能源。交通灯系统作为交通系统中的重要元素，对缓解交通堵塞扮演着重要角色，如何保证紧急车辆在道路上不受红绿灯的限制但又不闯红灯，使之畅通无阻的行驶，成为亟待解决的问题。

2015年，英国推出了全面升级的SCOOT(Split Cycle Offset Optimizing Technique，绿信比、周期、相位差优化技术)摄像技术智能交通系统，该系统采用的是视频摄像技术，通过自动计算需要过马路的人群数量来调整相应的红绿灯时间。该系统也是我国应用规模最大、最先进的控制系统，并在一定程度上缓解了城市交通拥堵问题，但是随着社会的发展，该系统也逐渐暴露了种种缺陷，如配时的有限性，据调研发现大部分路口的交通灯配时只有几个预先设置好的时间，交通灯根据埋藏在距离路口100左右地下的感应线圈粗略算出车流量，再根据流量选择配时而且相位不能切换，只能按顺序一个个完成，这就导致当其中一个相位没有或者车很少而另外的相位车流很大，排队车辆很多时，车少的相位的交通灯依然要经过一个红绿灯周期，而车辆很大的相位只有等到轮到该相位是车辆才能通过，这样既造成交通拥堵还浪费了时间。所以设计一个有效的根据车辆数量的动态配时算法非常重要。

发明内容

本发明针对上述问题，提出一种基于深度Q网络学习的交通灯动态配时算法，在该算法下，每个交叉口的交通灯作为深度强化学习的智能体，智能体根据交叉口车道上车辆饱和度，天气情况，车辆平均速度，路段宽度，道路平坦情况，是否有交通事故发生等特征状态来建立深度Q网络，并根据深度Q网络的输出来确定交通灯绿灯时间来作为智能体的动作。

一种基于深度Q网络学习的交通灯动态配时算法，该算法下，将交通灯作为深度Q网络中的智能体，交通灯绿灯时间作为智能体的动作，所述交通灯动态配时算法具体包括如下步骤：

步骤一：车辆进入交通灯智能体的覆盖范围，交通灯智能体对车辆信息进行统计，并将信息传送到交通控制中心，并存入集合中；

步骤二：智能体根据采集到得车辆信息来建立深度Q网络，并根据深度Q网络的输出来确定交通灯绿灯时间来作为智能体的动作，交通控制中心对所有智能体的深度Q网络的权重进行初始化；

步骤三：交通控制中心根据路网上交通灯发送的车辆数量进行动态配时，并将该指令发给交通灯，交通灯根据配时算法进行交通指挥；

步骤四：交通控制中心实时检测各智能体所选动作是否结束；

步骤五：对配时动作结束的智能体，交通控制中心对所选动作执行完毕的智能体根据实时反馈的交通信息来输入深度Q网络，并根据网络的输出判断下次交通配时的具体时间；

步骤六：对配时动作未结束的智能体，判断其动作未终止，执行步骤三。

进一步地，所述步骤一中，具体的，智能体统计的信息包括，交叉口车道上车辆饱和度、天气情况、车辆平均速度、路段宽度、道路平坦情况、是否有交通事故发生等特征状态。

进一步地，所述步骤二中，深度Q网络是将深度神经网络(DNN)和Q学习(Q-Learning)结合起来，DNN的输入是交叉口车道上车辆饱和度，天气情况，车辆平均速度，路段宽度，道路平坦情况(作为状态State)，输出则是每个动作对应的价值评估Value Function(Q值)。

进一步地，所述步骤三中，具体的，如下式，通过更新参数θ使Q函数逼近最优Q值:

Q(s,a；θ)≈Q′(s,a) (1)

使用深度神经网络(DNN)自动提取复杂特征；

其中，DNN的输入层为经过标准化的交叉口车道上车辆饱和度，天气情况，车辆平均速度，路段宽度，道路平坦情况的数据，经过神经网络前向传播后的输出层的输出为绿灯时间绿灯时间减2s、4s、6s、8s、10s，以及绿灯时间加2s、4s、6s、8s、10s所对应的Q值，在获得交通灯反馈的交叉口平均通信时间后，交通控制中心计算出真实的Q值与深度Q网络输出的Q值的偏差，并对深度Q网络进行训练。

进一步地，DNN通过与环境的交互，得到了不同状态下所对应的不同绿灯时间的实际Q值，并将实际Q值与深度Q网络输出的Q值相减得到了DNN的损失函数，假设节点和节点之间的权值为ω _ij，节点j的值为b _j，设隐藏层节点的输出值为x _j，输出层节点的输出值为d _j，每条数据对应的正确输出值为y _j，则有x _j＝f(S _j)，其中

具体来说，DNN的损失函数定义为：

E(ω,b)＝Average[(T arg etQ-Q(s,a；ω,b)) ²] (2)

其中：

T arg etQ＝(1-α)Q(s,a)+α(R(s,a))+γQ ^max(s’,a’) (3)

式中，参数α是学习率，表示智能体对当前动作的重视程度，如果α为1，则忽视历史动作对Q值的影响；参数γ是折扣率，表示智能体对当前动作的回报的重视程度，如果γ为0，则只考虑当前回报不考虑长远回报，R(s,a)即为动作a作用于环境的反馈值；Q(s,a)为R(s,a)的累积值。

进一步地，DNN的学习方式是反复修正权值和阀值，使得损失函数值达到最小，其采用的BP算法(Back Propagation，反向传播算法)是通过沿着损失函数的最速下降方向，连续调整网络的权值和阀值，根据梯度下降法，权值矢量的修正正比于当前位置上E(ω,b)的梯度，对于第j个输出节点有：

则针对每个节点的权重ω _ij，有

其中有δ _ij＝(d _j-y _j)·f(S _j)[1-f(S _j)]；

则对于b _j，同理可得

上面是对隐含层和输出层之间的权值和输出层的阈值进行调整，而针对输入层和隐含层的调整为，假设ω _ki是输入层第k个节点和隐含层第i个节点之间的权值，那么有：

其中，

则根据上述公式，并按照梯度下降法，则将隐含层和输出层之间的阈值和权重作如下调整：

则将输入层和隐含层之间的权重和阈值调整如下：

则按照式(8)，(9)，(10)，(11)对各层之间的权重和阈值进行调整，且每调整一次，均按上述公式再次对权重和阈值进行调整，当调整次数足够大时，DNN就能以较小的误差输出每个动作动作对应的价值评估Value Function(Q值)，最后深度Q网络比较每个动作对应的Q值，选择Q值最大的动作作为绿灯的调整时间，从而通过在每次实时交通信息反馈后，深度Q网络都能根据其输出值判断对应的绿灯时间，从而实现交通灯的动态配时。

进一步地，具体的，智能体总共有10种动作，分别为绿灯时间减2s，减4s，减6s，减8s，减10s，以及绿灯时间加2s，加4s，加6s，加8s，加10s，在改变绿灯时间后，车辆在交叉口处车道上的平均行驶时间的变化成为深度Q网络的实际回报函数值，通过深度Q网络与环境不断的交互，获得反馈值并调整状态到动作的最佳映射策略，从而完成深度Q网络的训练，并实现交通灯的动态配时。

本发明中，交通控制中心实时检测各智能体所选动作是否结束，对所选动作执行完毕的智能体根据实时反馈的交通信息来输入深度Q网络并根据网络的输出判断下次交通配时的具体时间，判断未终止时，控制中心重新根据交通灯发送的动作控制请求进行动态配时，最终达到合理对交通灯进行配时，减轻交通拥堵的效果。

附图说明

图1为本发明所述方法的流程示意图。

图2为深度Q网络结构。

图3为深度Q网络训练过程。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

一种基于深度Q网络学习的交通灯动态配时算法，其特征在于：该算法下，将交通灯作为深度Q网络中的智能体，交通灯绿灯时间作为智能体的动作，所述交通灯动态配时算法具体包括如下步骤：

步骤一：车辆进入交通灯智能体的覆盖范围，交通灯智能体对车辆信息进行统计，并将信息传送到交通控制中心，并存入集合中。

具体的，智能体统计的信息包括，交叉口车道上车辆饱和度、天气情况、车辆平均速度、路段宽度、道路平坦情况、是否有交通事故发生等特征状态。

步骤二：智能体根据采集到得车辆信息来建立深度Q网络，并根据深度Q网络的输出来确定交通灯绿灯时间来作为智能体的动作，交通控制中心对所有智能体的深度Q网络的权重进行初始化。

所述深度Q网络是将深度神经网络(DNN)和Q学习(Q-Learning)结合起来，DNN的输入是交叉口车道上车辆饱和度，天气情况，车辆平均速度，路段宽度，道路平坦情况(作为状态State)，输出则是每个动作对应的价值评估Value Function(Q值)。

步骤三：交通控制中心根据路网上交通灯发送的车辆数量进行动态配时，并将该指令发给交通灯，交通灯根据配时算法进行交通指挥。

具体的，如下式，通过更新参数θ使Q函数逼近最优Q值：

Q(s,a；θ)≈Q′(s,a) (1)

使用深度神经网络(DNN)自动提取复杂特征。

DNN通过与环境的交互，得到了不同状态下所对应的不同绿灯时间的实际Q值，并将实际Q值与深度Q网络输出的Q值相减得到了DNN的损失函数，假设节点和节点之间的权值为ω _ij，节点j的值为b _j，设隐藏层节点的输出值为x _j，输出层节点的输出值为d _j，每条数据对应的正确输出值为y _j，则有x _j＝f(S _j)，其中

具体来说，DNN的损失函数定义为：

E(ω,b)＝Average[(T arg etQ-Q(s,a；ω,b)) ²] (2)

其中：

T arg etQ＝(1-α)Q(s,a)+α(R(s,a))+γQ ^max(s’,a’) (3)

DNN的学习方式是反复修正权值和阀值，使得损失函数值达到最小，其采用的BP算法(Back Propagation，反向传播算法)是通过沿着损失函数的最速下降方向，连续调整网络的权值和阀值，根据梯度下降法，权值矢量的修正正比于当前位置上E(ω,b)的梯度，对于第j个输出节点有：

则针对每个节点的权重ω _ij，有：

其中有δ _ij＝(d _j-y _j)·f(S _j)[1-f(S _j)]；

则对于b _j，同理可得：

其中，

则将输入层和隐含层之间的权重和阈值调整如下：

步骤四：交通控制中心实时检测各智能体所选动作是否结束。

步骤五：对配时动作结束的智能体，交通控制中心对所选动作执行完毕的智能体根据实时反馈的交通信息来输入深度Q网络，并根据网络的输出判断下次交通配时的具体时间。

具体的，智能体总共有10种动作，分别为绿灯时间减2s，减4s，减6s，减8s，减10s，以及绿灯时间加2s，加4s，加6s，加8s，加10s，在改变绿灯时间后，车辆在交叉口处车道上的平均行驶时间的变化成为深度Q网络的实际回报函数值，通过深度Q网络与环境不断的交互，获得反馈值并调整状态到动作的最佳映射策略，从而完成深度Q网络的训练，并实现交通灯的动态配时。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

一种基于深度Q网络学习的交通灯动态配时算法，其特征在于：该算法下，将交通灯作为深度Q网络中的智能体，交通灯绿灯时间作为智能体的动作，所述交通灯动态配时算法具体包括如下步骤：

步骤一：车辆进入交通灯智能体的覆盖范围，交通灯智能体对车辆信息进行统计，并将信息传送到交通控制中心，并存入集合中；

步骤二：智能体根据采集到得车辆信息来建立深度Q网络，并根据深度Q网络的输出来确定交通灯绿灯时间来作为智能体的动作，交通控制中心对所有智能体的深度Q网络的权重进行初始化；

步骤三：交通控制中心根据路网上交通灯发送的车辆数量进行动态配时，并将该指令发给交通灯，交通灯根据配时算法进行交通指挥；

步骤四：交通控制中心实时检测各智能体所选动作是否结束；

步骤五：对配时动作结束的智能体，交通控制中心对所选动作执行完毕的智能体根据实时反馈的交通信息来输入深度Q网络，并根据网络的输出判断下次交通配时的具体时间；

步骤六：对配时动作未结束的智能体，判断其动作未终止，执行步骤三。
根据权利要求1所述的一种基于深度Q网络学习的交通灯动态配时算法，其特征在于：所述步骤一中，具体的，智能体统计的信息包括，交叉口车道上车辆饱和度、天气情况、车辆平均速度、路段宽度、道路平坦情况、是否有交通事故发生等特征状态。
根据权利要求1所述的一种基于深度Q网络学习的交通灯动态配时算法，其特征在于：所述步骤二中，深度Q网络是将深度神经网络(DNN)和Q学习(Q-Learning)结合起来，DNN的输入是交叉口车道上车辆饱和度，天气情况，车辆平均速度，路段宽度，道路平坦情况(作为状态State)，输出则是每个动作对应的价值评估Value Function(Q值)。
根据权利要求1所述的一种基于深度Q网络学习的交通灯动态配时算法，其特征在于：所述步骤三中，具体的，如下式，通过更新参数θ使Q函数逼近最优Q值:

Q(s,a；θ)≈Q′(s,a) (1)

使用深度神经网络(DNN)自动提取复杂特征；

其中，DNN的输入层为经过标准化的交叉口车道上车辆饱和度，天气情况，车辆平均速度，路段宽度，道路平坦情况的数据，经过神经网络前向传播后的输出层的输出为绿灯时间绿灯时间减2s、4s、6s、8s、10s，以及绿灯时间加2s、4s、6s、8s、10s所对应的Q值，在获得交通灯反馈的交叉口平均通信时间后，交通控制中心计算出真实的Q值与深度Q网络输出的Q值的偏差，并对深度Q网络进行训练。
根据权利要求4所述的一种基于深度Q网络学习的交通灯动态配时算法，其特征在于：DNN通过与环境的交互，得到了不同状态下所对应的不同绿灯时间的实际Q值，并将实际Q值与深度Q网络输出的Q值相减得到了DNN的损失函数，假设节点和节点之间的权值为ω _ij，节点j的值为b _j，设隐藏层节点的输出值为x _j，输出层节点的输出值为d _j，每条数据对应的正确输出值为y _j，则有x _j＝f(S _j)，其中
具体来说，DNN的损失函数定义为：

E(ω,b)＝Average[(TargetQ-Q(s,a；ω,b)) ²] (2)

其中：

TargetQ＝(1-α)Q(s,a)+α(R(s,a))+γQ ^max(s’,a’) (3)

式中，参数α是学习率，表示智能体对当前动作的重视程度，如果α为1，则忽视历史动作对Q值的影响；参数γ是折扣率，表示智能体对当前动作的回报的重视程度，如果γ为0，则只考虑当前回报不考虑长远回报，R(s,a)即为动作a作用于环境的反馈值；Q(s,a)为R(s,a)的累积值。
根据权利要求5所述的一种基于深度Q网络学习的交通灯动态配时算法，其特征在于：DNN的学习方式是反复修正权值和阀值，使得损失函数值达到最小，其采用的BP算法(Back Propagation，反向传播算法)是通过沿着损失函数的最速下降方向，连续调整网络的权值和阀值，根据梯度下降法，权值矢量的修正正比于当前位置上E(ω,b)的梯度，对于第j个输出节点有

则针对每个节点的权重ω _ij，有：

其中有δ _ij＝(d _j-y _j)·f(S _j)[1-f(S _j)]；

则对于b _j，同理可得

上面是对隐含层和输出层之间的权值和输出层的阈值进行调整，而针对输入层和隐含层的调整为，假设ω _ki是输入层第k个节点和隐含层第i个节点之间的权值，那么有：

其中，
则根据上述公式，并按照梯度下降法，则将隐含层和输出层之间的阈值和权重作如下调整：

则将输入层和隐含层之间的权重和阈值调整如下：

则按照式(8)，(9)，(10)，(11)对各层之间的权重和阈值进行调整，且每调整一次，均按上述公式再次对权重和阈值进行调整，当调整次数足够大时，DNN就能以较小的误差输出每个动作动作对应的价值评估Value Function(Q值)，最后深度Q网络比较每个动作对应的Q值，选择Q值最大的动作作为绿灯的调整时间，从而通过在每次实时交通信息反馈后，深度Q网络都能根据其输出值判断对应的绿灯时间，从而实现交通灯的动态配时。
根据权利要求1所述的一种基于深度Q网络学习的交通灯动态配时算法，其特征在于：具体的，智能体总共有10种动作，分别为绿灯时间减2s，减4s，减6s，减8s，减10s，以及绿灯时间加2s，加4s，加6s，加8s，加10s，在改变绿灯时间后，车辆在交叉口处车道上的平均行驶时间的变化成为深度Q网络的实际回报函数值，通过深度Q网络与环境不断的交互，获得反馈值并调整状态到动作的最佳映射策略，从而完成深度Q网络的训练，并实现交通灯的动态配时。