WO2020093702A1 - 一种基于深度q网络学习的交通灯动态配时算法 - Google Patents

一种基于深度q网络学习的交通灯动态配时算法 Download PDF

Info

Publication number
WO2020093702A1
WO2020093702A1 PCT/CN2019/092463 CN2019092463W WO2020093702A1 WO 2020093702 A1 WO2020093702 A1 WO 2020093702A1 CN 2019092463 W CN2019092463 W CN 2019092463W WO 2020093702 A1 WO2020093702 A1 WO 2020093702A1
Authority
WO
WIPO (PCT)
Prior art keywords
network
deep
traffic
value
action
Prior art date
Application number
PCT/CN2019/092463
Other languages
English (en)
French (fr)
Inventor
赵海涛
段佳秀
丁仪
丁寅
张晖
朱洪波
Original Assignee
南京邮电大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 南京邮电大学 filed Critical 南京邮电大学
Publication of WO2020093702A1 publication Critical patent/WO2020093702A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Definitions

  • the invention belongs to the field of artificial intelligence and communication, and particularly relates to a dynamic timing algorithm for traffic lights based on deep Q network learning.
  • the United Kingdom launched a fully upgraded SCOOT (Split Cycle Offset Optimizing Technology) camera technology intelligent transportation system, which uses video camera technology, which automatically calculates the need to cross the road.
  • SCOOT Split Cycle Offset Optimizing Technology
  • This system is also the largest and most advanced control system in China, and has alleviated the problem of urban traffic congestion to a certain extent, but with the development of society, the system has gradually exposed various defects, such as the limitation of timing.
  • the present invention proposes a dynamic timing algorithm for traffic lights based on deep Q network learning.
  • the traffic lights at each intersection serve as an agent for deep reinforcement learning. Saturation, weather conditions, average vehicle speed, road width, road flatness, whether there are traffic accidents, etc. to establish a deep Q network, and determine the traffic light green time according to the output of the deep Q network as the agent's action .
  • a traffic light dynamic timing algorithm based on deep Q network learning Under this algorithm, the traffic light is used as an agent in the deep Q network, and the traffic light green time is used as the agent's action.
  • the traffic light dynamic timing algorithm is specific It includes the following steps:
  • Step 1 The vehicle enters the coverage area of the traffic light agent.
  • the traffic light agent counts the vehicle information and transmits the information to the traffic control center and stores it in the collection;
  • Step 2 The agent establishes a deep Q network based on the collected vehicle information, and determines the traffic light green time according to the output of the deep Q network as the action of the agent.
  • the traffic control center weights the deep Q network of all agents To initialize;
  • Step 3 The traffic control center performs dynamic timing based on the number of vehicles sent by the traffic lights on the road network, and sends the instruction to the traffic lights.
  • the traffic lights perform traffic command based on the timing algorithm;
  • Step 4 The traffic control center detects in real time whether the action selected by each agent is over;
  • Step 5 For the agent whose timing action ends, the agent whose traffic control center performs the selected action inputs the deep Q network according to the real-time feedback traffic information, and judges the specific time of the next traffic timing according to the output of the network ;
  • the statistical information of the agent includes characteristic states such as vehicle saturation, weather conditions, average vehicle speed, road width, road flatness, and whether there is a traffic accident at the intersection lane.
  • the deep Q network is a combination of a deep neural network (DNN) and Q-learning (Q-Learning).
  • the input of the DNN is vehicle saturation on the intersection lane, weather conditions, and average vehicle speed.
  • the width of the link, the flatness of the road (as State), and the output is the Value Evaluation Function (Q value) corresponding to each action.
  • the following formula makes the Q function approximate the optimal Q value by updating the parameter ⁇ :
  • DNN deep neural network
  • the input layer of the DNN is the data of vehicle saturation, weather conditions, average vehicle speed, road width, and road flatness on the standardized intersection lanes.
  • the output layer of the output layer after forward propagation through the neural network is green light time green light Time minus 2s, 4s, 6s, 8s, 10s, and green light time plus Q value corresponding to 2s, 4s, 6s, 8s, 10s.
  • the traffic control center calculates the true And the deviation of the Q value output by the deep Q network, and the deep Q network is trained.
  • the parameter ⁇ is the learning rate, which means the agent attaches importance to the current action. If ⁇ is 1, the influence of the historical action on the Q value is ignored; the parameter ⁇ is the discount rate, which means that the agent attaches importance to the return of the current action Degree, if ⁇ is 0, only the current return is not considered, and the long-term return is not considered, R (s, a) is the feedback value of action a acting on the environment; Q (s, a) is the cumulative value of R (s, a) .
  • the learning method of DNN is to repeatedly modify the weights and thresholds to make the loss function value to a minimum.
  • the BP algorithm Back Propagation
  • the weight and threshold of the network according to the gradient descent method, the correction of the weight vector is proportional to the gradient of E ( ⁇ , b) at the current position.
  • the threshold and weight between the hidden layer and the output layer are adjusted as follows:
  • the DNN can output the value evaluation function corresponding to each action with a small error.
  • the deep Q network compares the Q value corresponding to each action, and selects the action with the largest Q value as the green light. Adjust the time, so that after each real-time traffic information feedback, the deep Q network can determine the corresponding green light time according to its output value, thereby achieving dynamic timing of traffic lights.
  • the agent has a total of 10 kinds of actions, namely, the green light time minus 2s, 4s, 6s, 8s, minus 10s, and the green light time plus 2s, plus 4s, plus 6s, plus 8s, plus 10s
  • the change of the average travel time of the vehicle in the lane at the intersection becomes the actual return function value of the deep Q network.
  • the feedback value is obtained and the state is adjusted to the best action.
  • a good mapping strategy to complete the training of deep Q networks and achieve dynamic timing of traffic lights.
  • the traffic control center detects whether the selected action of each agent ends in real time, and the agent that completes the selected action inputs the deep Q network according to the traffic information fed back in real time and judges the next traffic timing according to the output of the network At a specific time, when it is judged that it has not been terminated, the control center re-dynamically allocates the motion control request sent by the traffic light, and finally achieves the effect of reasonable timing of the traffic light to reduce traffic congestion.
  • FIG. 1 is a schematic flowchart of the method of the present invention.
  • Figure 2 shows the deep Q network structure.
  • Figure 3 shows the deep Q network training process.
  • a traffic light dynamic timing algorithm based on deep Q network learning characterized in that: under this algorithm, the traffic light is used as an agent in the deep Q network, and the green time of the traffic light is taken as the action of the agent.
  • the timing algorithm specifically includes the following steps:
  • the agent statistical information includes vehicle saturation, weather conditions, average vehicle speed, road width, road flatness, and whether there are traffic accidents in intersection lanes.
  • Step 2 The agent establishes a deep Q network based on the collected vehicle information, and determines the traffic light green time according to the output of the deep Q network as the action of the agent.
  • the traffic control center weights the deep Q network of all agents Perform initialization.
  • the deep Q network is a combination of a deep neural network (DNN) and Q-learning (Q-Learning).
  • the input of the DNN is vehicle saturation on the intersection lane, weather conditions, average vehicle speed, road width, and road flatness ( As State), the output is the Value Evaluation Function corresponding to each action (Q value).
  • Step 3 The traffic control center performs dynamic timing based on the number of vehicles sent by the traffic lights on the road network, and sends the instruction to the traffic lights.
  • the traffic lights perform traffic command based on the timing algorithm.
  • DNN deep neural networks
  • the input layer of the DNN is the data of vehicle saturation, weather conditions, average vehicle speed, road width, and road flatness on the standardized intersection lanes.
  • the output layer of the output layer after forward propagation through the neural network is green light time green light Time minus 2s, 4s, 6s, 8s, 10s, and green light time plus Q value corresponding to 2s, 4s, 6s, 8s, 10s.
  • the traffic control center calculates the true And the deviation of the Q value output by the deep Q network, and the deep Q network is trained.
  • the DNN obtains the actual Q value at different green light times corresponding to different states, and subtracts the actual Q value from the Q value output by the deep Q network to obtain the loss function of the DNN.
  • the weight value between is ⁇ ij
  • the value of node j is b j
  • the output value of the hidden layer node is x j
  • the output value of the output layer node is d j
  • the correct output value corresponding to each piece of data is y j
  • x j f (S j )
  • the parameter ⁇ is the learning rate, which means the agent attaches importance to the current action. If ⁇ is 1, the influence of the historical action on the Q value is ignored; the parameter ⁇ is the discount rate, which means that the agent attaches importance to the return of the current action Degree, if ⁇ is 0, only the current return is not considered, and the long-term return is not considered, R (s, a) is the feedback value of action a acting on the environment; Q (s, a) is the cumulative value of R (s, a) .
  • the learning method of DNN is to repeatedly modify the weights and thresholds so that the loss function value reaches the minimum.
  • the BP algorithm Back Propagation
  • the value and threshold value according to the gradient descent method, the correction of the weight vector is proportional to the gradient of E ( ⁇ , b) at the current position.
  • Step 6 For the agent whose timing action has not ended, determine that its action has not been terminated, and go to Step 3.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于深度Q网络学习的交通灯动态配时算法,方法中交通控制中心首先统计所有交通灯智能体,存入集合中。交通控制中心对所有智能体的深度Q网络的权重进行初始化,并且根据路网上交通灯发送的动作控制请求进行动态配时,之后执行该配时动作。交通控制中心实时检测各智能体所选动作是否结束,对所选动作执行完毕的智能体根据实时反馈的交通信息来输入深度Q网络并根据网络的输出判断下次交通配时的具体时间,判断未终止时,控制中心重新根据交通灯发送的动作控制请求进行动态配时。最终达到合理对交通灯进行配时,减轻交通拥堵的效果。

Description

一种基于深度Q网络学习的交通灯动态配时算法 技术领域
本发明属于人工智能领域与通信领域,具体涉及一种基于深度Q网络学习的交通灯动态配时算法。
背景技术
随着社会经济的发展,城市交通问题也越来越引起人们的关注,交通堵塞也成为人们每天必须面对的问题。交通堵塞不但浪费大量的时间,而且排队过程中刹车和怠速会浪费能源。交通灯系统作为交通系统中的重要元素,对缓解交通堵塞扮演着重要角色,如何保证紧急车辆在道路上不受红绿灯的限制但又不闯红灯,使之畅通无阻的行驶,成为亟待解决的问题。
2015年,英国推出了全面升级的SCOOT(Split Cycle Offset Optimizing Technique,绿信比、周期、相位差优化技术)摄像技术智能交通系统,该系统采用的是视频摄像技术,通过自动计算需要过马路的人群数量来调整相应的红绿灯时间。该系统也是我国应用规模最大、最先进的控制系统,并在一定程度上缓解了城市交通拥堵问题,但是随着社会的发展,该系统也逐渐暴露了种种缺陷,如配时的有限性,据调研发现大部分路口的交通灯配时只有几个预先设置好的时间,交通灯根据埋藏在距离路口100左右地下的感应线圈粗略算出车流量,再根据流量选择配时而且相位不能切换,只能按顺序一个个完成,这就导致当其中一个相位没有或者车很少而另外的相位车流很大,排队车辆很多时,车少的相位的交通灯依然要经过一个红绿灯周期,而车 辆很大的相位只有等到轮到该相位是车辆才能通过,这样既造成交通拥堵还浪费了时间。所以设计一个有效的根据车辆数量的动态配时算法非常重要。
发明内容
本发明针对上述问题,提出一种基于深度Q网络学习的交通灯动态配时算法,在该算法下,每个交叉口的交通灯作为深度强化学习的智能体,智能体根据交叉口车道上车辆饱和度,天气情况,车辆平均速度,路段宽度,道路平坦情况,是否有交通事故发生等特征状态来建立深度Q网络,并根据深度Q网络的输出来确定交通灯绿灯时间来作为智能体的动作。
一种基于深度Q网络学习的交通灯动态配时算法,该算法下,将交通灯作为深度Q网络中的智能体,交通灯绿灯时间作为智能体的动作,所述交通灯动态配时算法具体包括如下步骤:
步骤一:车辆进入交通灯智能体的覆盖范围,交通灯智能体对车辆信息进行统计,并将信息传送到交通控制中心,并存入集合中;
步骤二:智能体根据采集到得车辆信息来建立深度Q网络,并根据深度Q网络的输出来确定交通灯绿灯时间来作为智能体的动作,交通控制中心对所有智能体的深度Q网络的权重进行初始化;
步骤三:交通控制中心根据路网上交通灯发送的车辆数量进行动态配时,并将该指令发给交通灯,交通灯根据配时算法进行交通指挥;
步骤四:交通控制中心实时检测各智能体所选动作是否结束;
步骤五:对配时动作结束的智能体,交通控制中心对所选动作执 行完毕的智能体根据实时反馈的交通信息来输入深度Q网络,并根据网络的输出判断下次交通配时的具体时间;
步骤六:对配时动作未结束的智能体,判断其动作未终止,执行步骤三。
进一步地,所述步骤一中,具体的,智能体统计的信息包括,交叉口车道上车辆饱和度、天气情况、车辆平均速度、路段宽度、道路平坦情况、是否有交通事故发生等特征状态。
进一步地,所述步骤二中,深度Q网络是将深度神经网络(DNN)和Q学习(Q-Learning)结合起来,DNN的输入是交叉口车道上车辆饱和度,天气情况,车辆平均速度,路段宽度,道路平坦情况(作为状态State),输出则是每个动作对应的价值评估Value Function(Q值)。
进一步地,所述步骤三中,具体的,如下式,通过更新参数θ使Q函数逼近最优Q值:
Q(s,a;θ)≈Q′(s,a)                  (1)
使用深度神经网络(DNN)自动提取复杂特征;
其中,DNN的输入层为经过标准化的交叉口车道上车辆饱和度,天气情况,车辆平均速度,路段宽度,道路平坦情况的数据,经过神经网络前向传播后的输出层的输出为绿灯时间绿灯时间减2s、4s、6s、8s、10s,以及绿灯时间加2s、4s、6s、8s、10s所对应的Q值,在获得交通灯反馈的交叉口平均通信时间后,交通控制中心计算出真实的Q值与深度Q网络输出的Q值的偏差,并对深度Q网络进行训练。
进一步地,DNN通过与环境的交互,得到了不同状态下所对应的不同绿灯时间的实际Q值,并将实际Q值与深度Q网络输出的Q值相减得到了DNN的损失函数,假设节点和节点之间的权值为ω ij,节点j的值为b j,设隐藏层节点的输出值为x j,输出层节点的输出值为d j,每条数据对应的正确输出值为y j,则有x j=f(S j),其中
Figure PCTCN2019092463-appb-000001
具体来说,DNN的损失函数定义为:
E(ω,b)=Average[(T arg etQ-Q(s,a;ω,b)) 2]    (2)
其中:
T arg etQ=(1-α)Q(s,a)+α(R(s,a))+γQ max(s’,a’)    (3)
式中,参数α是学习率,表示智能体对当前动作的重视程度,如果α为1,则忽视历史动作对Q值的影响;参数γ是折扣率,表示智能体对当前动作的回报的重视程度,如果γ为0,则只考虑当前回报不考虑长远回报,R(s,a)即为动作a作用于环境的反馈值;Q(s,a)为R(s,a)的累积值。
进一步地,DNN的学习方式是反复修正权值和阀值,使得损失函数值达到最小,其采用的BP算法(Back Propagation,反向传播算法)是通过沿着损失函数的最速下降方向,连续调整网络的权值和阀值,根据梯度下降法,权值矢量的修正正比于当前位置上E(ω,b)的梯度,对于第j个输出节点有:
Figure PCTCN2019092463-appb-000002
则针对每个节点的权重ω ij,有
Figure PCTCN2019092463-appb-000003
其中有δ ij=(d j-y j)·f(S j)[1-f(S j)];
则对于b j,同理可得
Figure PCTCN2019092463-appb-000004
上面是对隐含层和输出层之间的权值和输出层的阈值进行调整,而针对输入层和隐含层的调整为,假设ω ki是输入层第k个节点和隐含层第i个节点之间的权值,那么有:
Figure PCTCN2019092463-appb-000005
其中,
Figure PCTCN2019092463-appb-000006
则根据上述公式,并按照梯度下降法,则将隐含层和输出层之间的阈值和权重作如下调整:
Figure PCTCN2019092463-appb-000007
Figure PCTCN2019092463-appb-000008
则将输入层和隐含层之间的权重和阈值调整如下:
Figure PCTCN2019092463-appb-000009
Figure PCTCN2019092463-appb-000010
则按照式(8),(9),(10),(11)对各层之间的权重和阈值进行调整,且每调整一次,均按上述公式再次对权重和阈值进行调整,当调整次数足够大时,DNN就能以较小的误差输出每个动作动作对应的价值评估Value Function(Q值),最后深度Q网络比较每个动作对应的Q值,选择Q值最大的动作作为绿灯的调整时间,从而通过在每次实时交通信息反馈后,深度Q网络都能根据其输出值判断对应的绿灯时间,从而实现交通灯的动态配时。
进一步地,具体的,智能体总共有10种动作,分别为绿灯时间减2s,减4s,减6s,减8s,减10s,以及绿灯时间加2s,加4s,加6s,加8s,加10s,在改变绿灯时间后,车辆在交叉口处车道上的平均行驶时间的变化成为深度Q网络的实际回报函数值,通过深度Q网络与环境不断的交互,获得反馈值并调整状态到动作的最佳映射策略,从而完成深度Q网络的训练,并实现交通灯的动态配时。
本发明中,交通控制中心实时检测各智能体所选动作是否结束,对所选动作执行完毕的智能体根据实时反馈的交通信息来输入深度Q网络并根据网络的输出判断下次交通配时的具体时间,判断未终止时,控制中心重新根据交通灯发送的动作控制请求进行动态配时,最 终达到合理对交通灯进行配时,减轻交通拥堵的效果。
附图说明
图1为本发明所述方法的流程示意图。
图2为深度Q网络结构。
图3为深度Q网络训练过程。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
一种基于深度Q网络学习的交通灯动态配时算法,其特征在于:该算法下,将交通灯作为深度Q网络中的智能体,交通灯绿灯时间作为智能体的动作,所述交通灯动态配时算法具体包括如下步骤:
步骤一:车辆进入交通灯智能体的覆盖范围,交通灯智能体对车辆信息进行统计,并将信息传送到交通控制中心,并存入集合中。
具体的,智能体统计的信息包括,交叉口车道上车辆饱和度、天气情况、车辆平均速度、路段宽度、道路平坦情况、是否有交通事故发生等特征状态。
步骤二:智能体根据采集到得车辆信息来建立深度Q网络,并根据深度Q网络的输出来确定交通灯绿灯时间来作为智能体的动作,交通控制中心对所有智能体的深度Q网络的权重进行初始化。
所述深度Q网络是将深度神经网络(DNN)和Q学习(Q-Learning)结合起来,DNN的输入是交叉口车道上车辆饱和度,天气情况,车辆平均速度,路段宽度,道路平坦情况(作为状态State),输出则是每个动作对应的价值评估Value Function(Q值)。
步骤三:交通控制中心根据路网上交通灯发送的车辆数量进行动态配时,并将该指令发给交通灯,交通灯根据配时算法进行交通指挥。
具体的,如下式,通过更新参数θ使Q函数逼近最优Q值:
Q(s,a;θ)≈Q′(s,a)                  (1)
使用深度神经网络(DNN)自动提取复杂特征。
其中,DNN的输入层为经过标准化的交叉口车道上车辆饱和度,天气情况,车辆平均速度,路段宽度,道路平坦情况的数据,经过神经网络前向传播后的输出层的输出为绿灯时间绿灯时间减2s、4s、6s、8s、10s,以及绿灯时间加2s、4s、6s、8s、10s所对应的Q值,在获得交通灯反馈的交叉口平均通信时间后,交通控制中心计算出真实的Q值与深度Q网络输出的Q值的偏差,并对深度Q网络进行训练。
DNN通过与环境的交互,得到了不同状态下所对应的不同绿灯时间的实际Q值,并将实际Q值与深度Q网络输出的Q值相减得到了DNN的损失函数,假设节点和节点之间的权值为ω ij,节点j的值为b j,设隐藏层节点的输出值为x j,输出层节点的输出值为d j,每条数据对应的正确输出值为y j,则有x j=f(S j),其中
Figure PCTCN2019092463-appb-000011
具体来说,DNN的损失函数定义为:
E(ω,b)=Average[(T arg etQ-Q(s,a;ω,b)) 2]      (2)
其中:
T arg etQ=(1-α)Q(s,a)+α(R(s,a))+γQ max(s’,a’)     (3)
式中,参数α是学习率,表示智能体对当前动作的重视程度,如 果α为1,则忽视历史动作对Q值的影响;参数γ是折扣率,表示智能体对当前动作的回报的重视程度,如果γ为0,则只考虑当前回报不考虑长远回报,R(s,a)即为动作a作用于环境的反馈值;Q(s,a)为R(s,a)的累积值。
DNN的学习方式是反复修正权值和阀值,使得损失函数值达到最小,其采用的BP算法(Back Propagation,反向传播算法)是通过沿着损失函数的最速下降方向,连续调整网络的权值和阀值,根据梯度下降法,权值矢量的修正正比于当前位置上E(ω,b)的梯度,对于第j个输出节点有:
Figure PCTCN2019092463-appb-000012
则针对每个节点的权重ω ij,有:
Figure PCTCN2019092463-appb-000013
其中有δ ij=(d j-y j)·f(S j)[1-f(S j)];
则对于b j,同理可得:
Figure PCTCN2019092463-appb-000014
上面是对隐含层和输出层之间的权值和输出层的阈值进行调整,而针对输入层和隐含层的调整为,假设ω ki是输入层第k个节点和隐含 层第i个节点之间的权值,那么有:
Figure PCTCN2019092463-appb-000015
其中,
Figure PCTCN2019092463-appb-000016
则根据上述公式,并按照梯度下降法,则将隐含层和输出层之间的阈值和权重作如下调整:
Figure PCTCN2019092463-appb-000017
Figure PCTCN2019092463-appb-000018
则将输入层和隐含层之间的权重和阈值调整如下:
Figure PCTCN2019092463-appb-000019
Figure PCTCN2019092463-appb-000020
则按照式(8),(9),(10),(11)对各层之间的权重和阈值进行调整,且每调整一次,均按上述公式再次对权重和阈值进行调整,当调整次数足够大时,DNN就能以较小的误差输出每个动作动作对应的价值评估Value Function(Q值),最后深度Q网络比较每个动作对应的Q值,选择Q值最大的动作作为绿灯的调整时间,从而通过在每次实时交通信息反馈后,深度Q网络都能根据其输出值判断对应的绿灯 时间,从而实现交通灯的动态配时。
步骤四:交通控制中心实时检测各智能体所选动作是否结束。
步骤五:对配时动作结束的智能体,交通控制中心对所选动作执行完毕的智能体根据实时反馈的交通信息来输入深度Q网络,并根据网络的输出判断下次交通配时的具体时间。
步骤六:对配时动作未结束的智能体,判断其动作未终止,执行步骤三。
具体的,智能体总共有10种动作,分别为绿灯时间减2s,减4s,减6s,减8s,减10s,以及绿灯时间加2s,加4s,加6s,加8s,加10s,在改变绿灯时间后,车辆在交叉口处车道上的平均行驶时间的变化成为深度Q网络的实际回报函数值,通过深度Q网络与环境不断的交互,获得反馈值并调整状态到动作的最佳映射策略,从而完成深度Q网络的训练,并实现交通灯的动态配时。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (7)

  1. 一种基于深度Q网络学习的交通灯动态配时算法,其特征在于:该算法下,将交通灯作为深度Q网络中的智能体,交通灯绿灯时间作为智能体的动作,所述交通灯动态配时算法具体包括如下步骤:
    步骤一:车辆进入交通灯智能体的覆盖范围,交通灯智能体对车辆信息进行统计,并将信息传送到交通控制中心,并存入集合中;
    步骤二:智能体根据采集到得车辆信息来建立深度Q网络,并根据深度Q网络的输出来确定交通灯绿灯时间来作为智能体的动作,交通控制中心对所有智能体的深度Q网络的权重进行初始化;
    步骤三:交通控制中心根据路网上交通灯发送的车辆数量进行动态配时,并将该指令发给交通灯,交通灯根据配时算法进行交通指挥;
    步骤四:交通控制中心实时检测各智能体所选动作是否结束;
    步骤五:对配时动作结束的智能体,交通控制中心对所选动作执行完毕的智能体根据实时反馈的交通信息来输入深度Q网络,并根据网络的输出判断下次交通配时的具体时间;
    步骤六:对配时动作未结束的智能体,判断其动作未终止,执行步骤三。
  2. 根据权利要求1所述的一种基于深度Q网络学习的交通灯动态配时算法,其特征在于:所述步骤一中,具体的,智能体统计的信息包括,交叉口车道上车辆饱和度、天气情况、车辆平均速度、路段宽度、道路平坦情况、是否有交通事故发生等特征状态。
  3. 根据权利要求1所述的一种基于深度Q网络学习的交通灯动态配时算法,其特征在于:所述步骤二中,深度Q网络是将深度神 经网络(DNN)和Q学习(Q-Learning)结合起来,DNN的输入是交叉口车道上车辆饱和度,天气情况,车辆平均速度,路段宽度,道路平坦情况(作为状态State),输出则是每个动作对应的价值评估Value Function(Q值)。
  4. 根据权利要求1所述的一种基于深度Q网络学习的交通灯动态配时算法,其特征在于:所述步骤三中,具体的,如下式,通过更新参数θ使Q函数逼近最优Q值:
    Q(s,a;θ)≈Q′(s,a)     (1)
    使用深度神经网络(DNN)自动提取复杂特征;
    其中,DNN的输入层为经过标准化的交叉口车道上车辆饱和度,天气情况,车辆平均速度,路段宽度,道路平坦情况的数据,经过神经网络前向传播后的输出层的输出为绿灯时间绿灯时间减2s、4s、6s、8s、10s,以及绿灯时间加2s、4s、6s、8s、10s所对应的Q值,在获得交通灯反馈的交叉口平均通信时间后,交通控制中心计算出真实的Q值与深度Q网络输出的Q值的偏差,并对深度Q网络进行训练。
  5. 根据权利要求4所述的一种基于深度Q网络学习的交通灯动态配时算法,其特征在于:DNN通过与环境的交互,得到了不同状态下所对应的不同绿灯时间的实际Q值,并将实际Q值与深度Q网络输出的Q值相减得到了DNN的损失函数,假设节点和节点之间的权值为ω ij,节点j的值为b j,设隐藏层节点的输出值为x j,输出层节点的输出值为d j,每条数据对应的正确输出值为y j,则有x j=f(S j),其中
    Figure PCTCN2019092463-appb-100001
    具体来说,DNN的损失函数定义为:
    E(ω,b)=Average[(TargetQ-Q(s,a;ω,b)) 2]  (2)
    其中:
    TargetQ=(1-α)Q(s,a)+α(R(s,a))+γQ max(s’,a’)  (3)
    式中,参数α是学习率,表示智能体对当前动作的重视程度,如果α为1,则忽视历史动作对Q值的影响;参数γ是折扣率,表示智能体对当前动作的回报的重视程度,如果γ为0,则只考虑当前回报不考虑长远回报,R(s,a)即为动作a作用于环境的反馈值;Q(s,a)为R(s,a)的累积值。
  6. 根据权利要求5所述的一种基于深度Q网络学习的交通灯动态配时算法,其特征在于:DNN的学习方式是反复修正权值和阀值,使得损失函数值达到最小,其采用的BP算法(Back Propagation,反向传播算法)是通过沿着损失函数的最速下降方向,连续调整网络的权值和阀值,根据梯度下降法,权值矢量的修正正比于当前位置上E(ω,b)的梯度,对于第j个输出节点有
    Figure PCTCN2019092463-appb-100002
    则针对每个节点的权重ω ij,有:
    Figure PCTCN2019092463-appb-100003
    其中有δ ij=(d j-y j)·f(S j)[1-f(S j)];
    则对于b j,同理可得
    Figure PCTCN2019092463-appb-100004
    上面是对隐含层和输出层之间的权值和输出层的阈值进行调整,而针对输入层和隐含层的调整为,假设ω ki是输入层第k个节点和隐含层第i个节点之间的权值,那么有:
    Figure PCTCN2019092463-appb-100005
    其中,
    Figure PCTCN2019092463-appb-100006
    则根据上述公式,并按照梯度下降法,则将隐含层和输出层之间的阈值和权重作如下调整:
    Figure PCTCN2019092463-appb-100007
    Figure PCTCN2019092463-appb-100008
    则将输入层和隐含层之间的权重和阈值调整如下:
    Figure PCTCN2019092463-appb-100009
    Figure PCTCN2019092463-appb-100010
    则按照式(8),(9),(10),(11)对各层之间的权重和阈值进行调整,且每调整一次,均按上述公式再次对权重和阈值进行调整,当调整次数足够大时,DNN就能以较小的误差输出每个动作动作对应的价值评估Value Function(Q值),最后深度Q网络比较每个动作对应的Q值,选择Q值最大的动作作为绿灯的调整时间,从而通过在每次实时交通信息反馈后,深度Q网络都能根据其输出值判断对应的绿灯时间,从而实现交通灯的动态配时。
  7. 根据权利要求1所述的一种基于深度Q网络学习的交通灯动态配时算法,其特征在于:具体的,智能体总共有10种动作,分别为绿灯时间减2s,减4s,减6s,减8s,减10s,以及绿灯时间加2s,加4s,加6s,加8s,加10s,在改变绿灯时间后,车辆在交叉口处车道上的平均行驶时间的变化成为深度Q网络的实际回报函数值,通过深度Q网络与环境不断的交互,获得反馈值并调整状态到动作的最佳映射策略,从而完成深度Q网络的训练,并实现交通灯的动态配时。
PCT/CN2019/092463 2018-11-07 2019-06-24 一种基于深度q网络学习的交通灯动态配时算法 WO2020093702A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811319617.4A CN109558969A (zh) 2018-11-07 2018-11-07 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型
CN201811319617.4 2018-11-07

Publications (1)

Publication Number Publication Date
WO2020093702A1 true WO2020093702A1 (zh) 2020-05-14

Family

ID=65865977

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/CN2019/092463 WO2020093702A1 (zh) 2018-11-07 2019-06-24 一种基于深度q网络学习的交通灯动态配时算法
PCT/CN2019/092462 WO2020093701A1 (zh) 2018-11-07 2019-06-24 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型

Family Applications After (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/092462 WO2020093701A1 (zh) 2018-11-07 2019-06-24 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型

Country Status (2)

Country Link
CN (1) CN109558969A (zh)
WO (2) WO2020093702A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558969A (zh) * 2018-11-07 2019-04-02 南京邮电大学 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型
CN111126868B (zh) * 2019-12-30 2023-07-04 中南大学 一种道路交通事故发生风险确定方法及系统
CN111507504A (zh) * 2020-03-18 2020-08-07 中国南方电网有限责任公司 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法
CN111814836B (zh) * 2020-06-12 2022-07-19 武汉理工大学 基于类不平衡算法的车辆行驶行为检测方法及装置
CN111859291B (zh) * 2020-06-23 2022-02-25 北京百度网讯科技有限公司 交通事故识别方法、装置、设备和计算机存储介质
CN111768041A (zh) * 2020-07-02 2020-10-13 上海积成能源科技有限公司 一种基于自适应提升算法预测短期电力负荷的系统模型
US11725955B2 (en) * 2021-03-01 2023-08-15 Mitre Corporation Method and system for dynamically navigating routes according to safety-related risk profiles
CN113326971A (zh) * 2021-04-30 2021-08-31 东南大学 一种基于PCA和Adaboost的隧道交通事故持续时间预测方法
CN113780641A (zh) * 2021-08-31 2021-12-10 同济大学 一种基于迁移学习的事故预测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680156A (zh) * 2013-04-08 2014-03-26 沈阳广信先锋交通高技术有限公司 多智能体交通信号控制系统
CN104112366A (zh) * 2014-07-25 2014-10-22 中国科学院自动化研究所 基于隐语义模型的交通信号优化方法
CN109544913A (zh) * 2018-11-07 2019-03-29 南京邮电大学 一种基于深度q网络学习的交通灯动态配时算法
CN109697867A (zh) * 2019-01-28 2019-04-30 深圳市欧德克科技有限公司 一种基于深度学习的交通控制方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102984200B (zh) * 2012-09-13 2015-07-15 大连理工大学 一种适用于稀疏和稠密多种VANETs场景的方法
CN104064029B (zh) * 2014-07-07 2016-03-02 哈尔滨工业大学 一种VANETs中V2V链路延迟的动态预测方法
CN105677564A (zh) * 2016-01-04 2016-06-15 中国石油大学(华东) 基于改进的Adaboost软件缺陷不平衡数据分类方法
US10395183B2 (en) * 2016-03-15 2019-08-27 Nec Corporation Real-time filtering of digital data sources for traffic control centers
CN108154681B (zh) * 2016-12-06 2020-11-20 杭州海康威视数字技术股份有限公司 发生交通事故的风险预测方法、装置及系统
CN108763865B (zh) * 2018-05-21 2023-10-20 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN108596409B (zh) * 2018-07-16 2021-07-20 江苏智通交通科技有限公司 提升交通危险人员事故风险预测精度的方法
CN109558969A (zh) * 2018-11-07 2019-04-02 南京邮电大学 一种基于AdaBoost-SO的VANETs车辆事故风险预测模型

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680156A (zh) * 2013-04-08 2014-03-26 沈阳广信先锋交通高技术有限公司 多智能体交通信号控制系统
CN104112366A (zh) * 2014-07-25 2014-10-22 中国科学院自动化研究所 基于隐语义模型的交通信号优化方法
CN109544913A (zh) * 2018-11-07 2019-03-29 南京邮电大学 一种基于深度q网络学习的交通灯动态配时算法
CN109697867A (zh) * 2019-01-28 2019-04-30 深圳市欧德克科技有限公司 一种基于深度学习的交通控制方法及系统

Also Published As

Publication number Publication date
CN109558969A (zh) 2019-04-02
WO2020093701A1 (zh) 2020-05-14

Similar Documents

Publication Publication Date Title
WO2020093702A1 (zh) 一种基于深度q网络学习的交通灯动态配时算法
WO2021227502A1 (zh) 一种信号交叉口交通信号灯和车辆轨迹控制方法
CN106875710B (zh) 一种面向网联自动驾驶车辆的交叉口自组织控制方法
WO2021169353A1 (zh) 一种智能网联条件下的交叉口交通流微观控制方法
US11587436B1 (en) Methods for controlling traffic scheduling strategies in smart cities and Internet of Things (IoT) systems thereof
US11069233B1 (en) Video-based main road cooperative signal machine control method
CN110211396B (zh) 一种高速公路收费站与周边交叉口群的动态调控方法
Skabardonis Control strategies for transit priority
CN107331182A (zh) 一种面向连续信号交叉口的网联环境下自动驾驶车速控制方法
CN104933876B (zh) 一种自适应智慧城市智能交通信号的控制方法
CN104952263B (zh) 基于相位差渐进循环协调的应急车辆优先信号控制方法
US10699568B1 (en) Video-based crossroad signal machine control method
CN105046987A (zh) 一种基于强化学习的路面交通信号灯协调控制方法
CN107730886A (zh) 一种车联网环境下城市交叉口交通信号动态优化方法
CN103208180B (zh) 基于多智能体交互技术的智能交通调度系统及方法
CN106297329A (zh) 一种联网信号机的信号配时自适应优化方法
CN109544913A (zh) 一种基于深度q网络学习的交通灯动态配时算法
CN107341960A (zh) 一种基于公交车实时定位信息的主动公交信号优先控制方法
CN104485004A (zh) 主干道双向动态绿波与次干道半感应相结合的信号控制方法
CN105894831A (zh) 智能交通控制装置
CN101593419A (zh) 一种具有公交优先的城市路网交通流智能协调控制方法
CN107730920A (zh) 一种基于道钉灯的动态可变车道控制方法
CN107170257A (zh) 一种基于多源数据的逆向可变车道智能控制方法
CN108898858A (zh) 一种过饱和交通状态下连续交叉口的信号协调控制方法
CN107886744A (zh) 一种用于地铁站邻近交叉口公交优先信号控制方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19882049

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19882049

Country of ref document: EP

Kind code of ref document: A1