WO2021051930A1 - 基于动作预测模型的信号调节方法、装置和计算机设备 - Google Patents

基于动作预测模型的信号调节方法、装置和计算机设备 Download PDF

Info

Publication number
WO2021051930A1
WO2021051930A1 PCT/CN2020/098797 CN2020098797W WO2021051930A1 WO 2021051930 A1 WO2021051930 A1 WO 2021051930A1 CN 2020098797 W CN2020098797 W CN 2020098797W WO 2021051930 A1 WO2021051930 A1 WO 2021051930A1
Authority
WO
WIPO (PCT)
Prior art keywords
network
decision
output
prediction model
designated
Prior art date
Application number
PCT/CN2020/098797
Other languages
English (en)
French (fr)
Inventor
魏萍
王淼石
吴育人
庄伯金
王少军
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021051930A1 publication Critical patent/WO2021051930A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • This application relates to the technical field of smart cities, and in particular to a signal adjustment method, device, computer equipment, and storage medium based on an action prediction model.
  • Adaptive traffic light control can effectively reduce congestion through reasonable adjustment of traffic lights.
  • the existing multi-port signal adjustment generally adopts centralized control, which limits the robustness and scalability of the system. And when dealing with multiple intersections, the complexity of the system will increase exponentially with the increase in the number of intersections, causing dimensional disasters.
  • these multi-intersection signal light adaptive control algorithms are based on mathematical models to describe the randomness and dynamics of the intersection state. The inventor realizes that this method of signal adjustment that relies on the transition of the intersection state is complicated to solve. When the intersection state is too complex, it may not be possible to calculate the result in time, resulting in signal adjustment failure and traffic chaos.
  • the main purpose of this application is to provide a signal adjustment method, device, computer equipment, and storage medium based on an action prediction model, aiming to realize the associated control of multiple signal lights without considering the transition of the intersection state, reducing the amount of calculation, and improving Efficiency.
  • this application proposes a signal adjustment method based on an action prediction model, which is applied to the first agent, and the signal light is located at a designated intersection, including:
  • the state feature is input into a preset first decision-making network for processing, and the predicted action output by the first decision-making network is obtained; wherein the first decision-making network is a preset signal lamp based on a reinforcement learning model that has been trained A part of an action prediction model, where the signal light action prediction model includes the first decision network, a multi-head self-attention network, and an evaluation network connected in sequence;
  • the signal lamp is controlled according to the predicted action.
  • This application provides a signal conditioning device based on an action prediction model, which is applied to a first agent, and a signal light is located at a designated intersection, including:
  • the status feature acquisition unit is used to acquire the status features of the designated intersection through sensors pre-deployed at the designated intersection;
  • the predictive action acquisition unit is configured to input the state feature into a preset first decision-making network for processing to obtain the predicted action output by the first decision-making network; wherein the first decision-making network is a preset based on reinforcement learning A part of the trained signal light action prediction model of the model, the signal light action prediction model including the first decision network, the multi-head self-attention network and the evaluation network connected in sequence;
  • the signal adjustment unit is used to control the signal light according to the predicted action.
  • the present application provides a computer device, including a memory and a processor, the memory stores a computer program, and the processor implements the steps of a signal adjustment method based on an action prediction model when the computer program is executed, which is applied to the first The agent, the signal light is located at the designated intersection, and the method includes:
  • the state feature is input into a preset first decision-making network for processing, and the predicted action output by the first decision-making network is obtained; wherein the first decision-making network is a preset signal lamp based on a reinforcement learning model that has been trained A part of an action prediction model, where the signal light action prediction model includes the first decision network, a multi-head self-attention network, and an evaluation network connected in sequence;
  • the signal lamp is controlled according to the predicted action.
  • the present application provides a computer-readable storage medium on which a computer program is stored.
  • the steps of a signal adjustment method based on an action prediction model are implemented, which is applied to a first agent, and the signal light is located at For designated intersections, the method includes:
  • the state feature is input into a preset first decision-making network for processing, and the predicted action output by the first decision-making network is obtained; wherein the first decision-making network is a preset signal lamp based on a reinforcement learning model that has been trained A part of an action prediction model, where the signal light action prediction model includes the first decision network, a multi-head self-attention network, and an evaluation network connected in sequence;
  • the signal lamp is controlled according to the predicted action.
  • the signal conditioning method, device, computer equipment, and storage medium based on the action prediction model of the present application acquire the state characteristics of the designated intersection through sensors pre-deployed at the designated intersection; input the state characteristics into the preset first decision-making network to perform Processing to obtain the predicted action output by the first decision-making network; wherein the first decision-making network is a part of a preset signal light action prediction model based on a reinforcement learning model that has been trained, and the signal light action prediction model includes a sequence The connected first decision network, multi-head self-attention network, and evaluation network; and control the signal light according to the predicted action. Therefore, the associated control of multiple signal lights can be realized without considering the transition of the intersection state, which reduces the amount of calculation and improves the efficiency.
  • FIG. 1 is a schematic flowchart of a signal adjustment method based on an action prediction model according to an embodiment of the application
  • FIG. 2 is a schematic block diagram of the structure of a signal conditioning device based on an action prediction model according to an embodiment of the application;
  • FIG. 3 is a schematic block diagram of the structure of a computer device according to an embodiment of the application.
  • an embodiment of the present application provides a signal adjustment method based on an action prediction model, which is applied to a first agent, and a signal light is located at a designated intersection, including:
  • the signal adjustment method based on the action prediction model adopted in this application only considers the signal action of other intersections at the current time and the influence of the state of other intersections on the specified intersection (using the multi-head self-attention network to introduce the weight of the signal action of other intersections on the specified intersection Therefore, when training the model, the traffic state of multiple intersections can be comprehensively considered to update the network parameters of the model), without considering the transition of the intersection state, so that the amount of calculation is reduced and the amount of calculation is improved on the basis of satisfying signal conditioning. effectiveness.
  • the state characteristics of the designated intersection are acquired through the sensors pre-deployed at the designated intersection.
  • the sensor can be any sensor, such as an infrared sensor, a pressure sensor, a laser sensor, a timer, etc., for sensing the state characteristics of a designated intersection.
  • the state characteristics are, for example, the number of vehicles in the lane, the occupancy rate of the lane, the position of the vehicle, the speed of the vehicle, the length of the queue, and the delay of the vehicle.
  • the state features are input into a preset first decision-making network for processing to obtain the predicted action output by the first decision-making network; wherein the first decision-making network is a preset based on reinforcement learning A part of the trained signal light action prediction model of the model, and the signal light action prediction model includes the first decision network, the multi-head self-attention network and the evaluation network connected in sequence.
  • the trained signal light action prediction model based on the reinforcement learning model of the present application is composed of the first decision network, the multi-head self-attention network and the evaluation network connected in sequence.
  • the first decision-making network is used to predict the action of the traffic lights at the designated intersection.
  • the actions are, for example, whether to switch the current phase of the signal light, how to switch the signal light phase, and how long to keep the current phase if not, etc.
  • the reinforcement learning model is essentially a trial-and-error model, in which the multi-head self-attention network and the evaluation network are set to update the network parameters of the model.
  • the multi-head self-attention network is used to calculate the weight contribution of other agents' decisions to the designated intersection, so that multiple agents can perform behaviors that can improve the overall traffic conditions at multiple intersections.
  • the traffic light action prediction model further includes a plurality of decision-making networks, the multiple decision-making networks corresponding to a plurality of preset agents, and are used to predict the action of the traffic lights at the intersections where the multiple agents are located. .
  • the signal lamp is controlled according to the predicted action. Since the first decision-making network is a part of the trained signal light action prediction model, and the signal light action prediction model has already considered the influence of the decision-making of other agents introduced by the multi-head self-attention network during training, therefore The predicted action is an action consistent with improving the overall traffic conditions of multiple intersections, and the signal lights are controlled according to the predicted action.
  • the senor is a pressure sensor, and there are multiple pressure sensors, which are distributed under the ground or on the ground of each lane of the designated intersection.
  • the pressure sensor can Is activated, the step S1 of acquiring the state characteristics of the designated intersection through the sensors pre-deployed at the designated intersection includes:
  • S102 Mark the position of the activated pressure sensor in a preset topographic map corresponding to the designated intersection, so as to obtain a vehicle distribution map;
  • S103 Extract the vehicle distribution density of each lane of the designated intersection from the vehicle distribution map, and use the vehicle distribution density as a state feature of the designated intersection.
  • a pressure sensor is a sensor that can respond (activate) when subjected to a certain mechanical force.
  • This application sets the sensor at a designated intersection (such as each lane), and sets the method to be activated only when the pressure is equivalent to the vehicle ( That is, when there is a small pressure directly above, for example, when there is only the pressure of the human body, the sensor will not be activated. Only when there is a pressure greater than a predetermined threshold directly above, it is determined that there is a vehicle directly above, thereby activating the sensor).
  • the distribution of vehicles is detected, that is, there are vehicles on the activated sensors.
  • a vehicle distribution map can be obtained. Then extract the vehicle distribution density from the vehicle distribution map as a state feature, which is more accurate than ordinary state features.
  • the state characteristics are input into a preset first decision-making network for processing to obtain the predicted action output by the first decision-making network; wherein the first decision-making network is a preset based on enhanced A part of the trained signal light action prediction model of the learning model, the signal light action prediction model including the first decision network, the multi-head self-attention network, and the evaluation network connected in sequence before step S2, including:
  • S11 Construct a first decision-making network, which is composed of a first prediction network and a first target network that have the same network structure but different network parameters in parallel, and the first target network is used to output data according to the first prediction network.
  • the multi-head self-attention network is provided with n input layers and n output layers.
  • the n input layers are used to receive the output of the first decision network and the output of the second decision network respectively.
  • Output ..., the output of the nth decision-making network; wherein the second decision-making network,..., and the nth decision-making network are respectively applied to the second agent,..., and the nth agent to predict the actions of the corresponding signal lights respectively Network
  • the traffic light action prediction model includes n agents; the n output layers are sequentially associated with n agents, and the i-th output layer is used to output other agents except the i-th agent
  • the predicted action of contributes to the weight of the i-th agent, i is an integer greater than or equal to 1 and less than or equal to n;
  • the traffic light action prediction model of this application includes n agents, n decision-making networks, multi-head self-attention networks and n evaluation sub-networks, of which n agents, n decision-making networks and n evaluation sub-networks are one by one. correspond.
  • the multi-headed self-attention network is used to calculate the weight contribution of the predicted actions of other agents except the i-th agent to the i-th agent, so that multiple agents are related to each other to include multiple intersections The associated control of the signal lights inside is realized.
  • the method includes:
  • the network parameters of the traffic light action prediction model are updated. Updating the network parameters of the signal light action prediction model is actually a process of training the signal light action prediction model.
  • This application uses the historical actions and historical states of the first agent, the second agent, ..., the nth agent at the same historical time as the training sample data, and uses a multi-head self-attention network to calculate other intelligence
  • the weight contribution of the agent to the i-th agent makes the network parameters of different agents correlate with each other during training.
  • the network of multiple agents can be updated as a whole and adapted to the improvement of the overall traffic state.
  • the step S145 of updating the network parameters of the traffic light action prediction model by using the average expected value according to a preset network parameter update rule includes:
  • Loss is the loss function
  • t refers to the t-th decision-making moment
  • Q is the average expected value output by the evaluation sub-network
  • St is the intersection corresponding to the i-th agent at the t-th decision moment state characteristics
  • is the network parameter of the first target network
  • R t+1 is the negative number of the sum of the squares of the queue lengths of all lanes at the intersection corresponding to all agents at the t+1 decision time
  • is the preset parameter
  • is the first goal of the i-th agent
  • the output of the network, ⁇ - is the network parameter of the first target network.
  • the network parameters in the traffic light action prediction model are updated in the form of minimizing the preset loss function and adopting the reverse transfer method.
  • the reward R t+1 used in the loss function is the negative number of the sum of the squares of the queue lengths of the lanes at the intersections corresponding to all agents at the t+1 decision time, which reflects the traffic conditions at the intersections corresponding to all agents.
  • the expected value is the average expected value of the evaluation sub-networks corresponding to all agents; but it takes into account the state characteristics of the intersection corresponding to the i-th agent at the t-th decision time, that is, there is no need to worry about the transition of the intersection state
  • the linkage of multi-signal adjustment can be realized only by the state characteristics of the intersection corresponding to the i-th agent at the t-th decision time, thereby reducing the amount of calculation and improving the efficiency.
  • the method before the step S1 of acquiring the state characteristics of the designated intersection by using a sensor pre-deployed at the designated intersection, the method includes:
  • S02 Determine whether the current time belongs to the preset usage period of the signal lamp action measurement model
  • the command to generate the characteristics of the collected state is realized.
  • the purpose of this application is to determine whether it is a busy time period and whether there is a car accident, so as to determine whether to use a signal conditioning model based on a reinforcement learning model. If the current time is midnight, there is no need to use the signal light operation test model, and if there is a car accident that makes the traffic unclear, then there is no need to use the signal light operation test model. Based on this, by judging whether the current time belongs to the use period of the preset signal light operation test model, and judging whether there are vehicles with hanging wheels in each lane of the designated intersection to determine whether to generate an instruction to collect state characteristics, and then whether Use the signal conditioning model.
  • it may further include: analyzing the image of the intersection where the signal light is located, so as to determine whether there is a red color area with an area larger than a preset area in each lane of the intersection; if the existing area of each lane of the intersection is larger than the preset area, If the area of the red color area is set, it is judged whether the shape of the red color area is irregular; if the shape of the red color area is irregular, it is considered that a car accident has occurred, and it is judged that it does not meet the preset signal light operation test.
  • the red color area represents the blood area. Since a large area of blood is rarely seen in general car accidents, when there is a large area of blood, it is judged as a major traffic accident, so as to further determine that it does not meet the preset signal light action test model. Conditions of Use.
  • the signal light action prediction model is obtained by training sample data with a specified data structure, and the specified data structure is composed of a plurality of data blocks, wherein the sample data having the same signal light phase and the same prediction action is In the same data block, after the step S3 of controlling the signal light according to the predicted action, the method includes:
  • the specified phase, the first state feature, the prediction action, the second state feature, and the negative number of the sum of the squares of the queue length of each lane of the specified intersection are stored in the specified data block together.
  • the negative number of the sum of the squares of the queue lengths of the lanes at the designated intersection is the reward of the state in the reinforcement learning model for the predicted action.
  • this application constructs multiple data blocks, in which sample data with the same signal light phase and the same predicted action are stored in the same data block.
  • the same number of sample data is extracted from different data blocks for training, so that the signal light action prediction model obtained by training can be applied to the traffic conditions corresponding to the low-frequency phase-decision, so that the signal light can act
  • the prediction model is more robust.
  • the signal adjustment method based on the action prediction model of the present application acquires the state characteristics of the designated intersection through sensors deployed in advance at the designated intersection; inputs the state characteristics into a preset first decision-making network for processing, and obtains the first decision The predicted action of the network output; wherein the first decision network is a part of a preset signal light action prediction model based on a reinforcement learning model that has been trained, and the signal light action prediction model includes the first decision network connected in sequence , Multi-head self-attention network and evaluation network; control the signal light according to the predicted action. Therefore, the associated control of multiple signal lights can be realized without considering the transition of the intersection state, which reduces the amount of calculation and improves the efficiency.
  • an embodiment of the present application provides a signal conditioning device based on an action prediction model, including:
  • the state feature obtaining unit 10 is configured to obtain the state feature of the specified intersection through a sensor pre-deployed at the specified intersection;
  • the predictive action acquisition unit 20 is configured to input the state characteristics into a preset first decision-making network for processing to obtain the predicted action output by the first decision-making network; wherein the first decision-making network is a preset based on reinforcement A part of the trained signal light action prediction model of the learning model, the signal light action prediction model including the first decision network, the multi-head self-attention network and the evaluation network connected in sequence;
  • the signal adjustment unit 30 is configured to control the signal light according to the predicted action.
  • the senor is a pressure sensor, and there are multiple pressure sensors, which are distributed under the ground or on the ground of each lane of the designated intersection.
  • the pressure sensor can Is activated, the state feature acquiring unit 10 includes:
  • the position acquisition subunit is used to acquire the position of the activated pressure sensor
  • a location labeling subunit for labeling the location of the activated pressure sensor in a preset topographic map corresponding to the designated intersection, thereby obtaining a vehicle distribution map
  • the state feature acquisition subunit is configured to extract the vehicle distribution density of each lane of the designated intersection from the vehicle distribution map, and use the vehicle distribution density as the state feature of the designated intersection.
  • the device includes:
  • the first decision-making network construction unit is configured to construct a first decision-making network.
  • the first decision-making network is composed of a first prediction network and a first target network that have the same network structure but different network parameters in parallel, and the first target network For outputting a predicted action generated according to the network parameters of the first target network;
  • a multi-head self-attention network construction unit for constructing a multi-head self-attention network the multi-head self-attention network is provided with n input layers and n output layers, and the n input layers are used to respectively receive the first decision network The output of the second decision network,..., the output of the nth decision network; wherein the second decision network,..., the nth decision network are respectively applied to the second agent,...,the nth agent
  • the traffic light action prediction model includes n agents; the n output layers are sequentially associated with n agents, and the i-th output layer is used to output the i-th
  • the predicted actions of agents other than the agent contribute to the weight of the i-th agent, where i is an integer greater than or equal to 1 and less than or equal to n;
  • the evaluation network construction unit is used to construct an evaluation network.
  • the evaluation network is composed of n evaluation sub-networks corresponding to the n agents in sequence, and each evaluation sub-network includes parallel networks with the same network structure but different network parameters
  • the second prediction network and the second target network of the network, the evaluation network is used to output the expected value of the evaluation of the traffic condition;
  • the action prediction model acquisition unit is configured to sequentially connect the first decision network, the multi-head self-attention network and the evaluation network to obtain the signal light action prediction model.
  • the device includes:
  • the historical action and historical state acquisition unit is used to acquire the historical actions and historical states of the first agent, the second agent, ..., the nth agent at the same historical time;
  • a designated weight contribution acquisition unit configured to input the historical actions and historical states into the multi-head self-attention network for processing, so as to obtain the designated weight contribution output by the i-th output layer in the multi-head self-attention network ,
  • the specified weight contribution refers to the weight contribution of the predicted action of other agents except the i-th agent to the i-th agent;
  • Expected value acquisition unit configured to input the specified weight contribution and the historical state of the i-th agent into the i-th evaluation sub-network in the review evaluation network, thereby obtaining the i-th evaluation sub-network Expected value of output;
  • the average expected value acquisition unit is used according to the formula: Perform averaging processing on the expected value of the output of n evaluation sub-networks to obtain the average expected value, where Q1, Q2,..., Qn are respectively the output of the first evaluation sub-network, the second evaluation sub-network,..., the n-th evaluation sub-network Expected value
  • the network parameter update unit is configured to update the network parameters of the signal lamp action prediction model by using the average expected value according to a preset network parameter update rule.
  • the network parameter update unit includes:
  • the network parameter update subunit is used to update the network parameters in the signal light action prediction model in the form of minimizing the preset loss function and adopting the reverse transfer method, wherein the formula of the loss function is:
  • Loss is the loss function
  • t refers to the t-th decision-making moment
  • Q is the average expected value output by the evaluation sub-network
  • St is the intersection corresponding to the i-th agent at the t-th decision moment state characteristics
  • is the network parameter of the first target network
  • R t+1 is the negative number of the sum of the squares of the queue lengths of all lanes at the intersection corresponding to all agents at the t+1 decision time
  • is the preset parameter
  • is the first goal of the i-th agent
  • the output of the network, ⁇ - is the network parameter of the first target network.
  • the device includes:
  • a time and image acquisition unit for acquiring an image of the current time and the designated intersection
  • the period of use judging unit is used to determine whether the current time belongs to the period of use of the preset signal light operation test model
  • a vehicle judging unit configured to analyze the image of the designated intersection if the current time belongs to the use period of the preset signal light operation test model, so as to determine whether there is a vehicle with a floating wheel in each lane of the designated intersection;
  • the instruction generation unit is used to generate an instruction to collect state characteristics if there is no vehicle with a hanging wheel in each lane of the designated intersection, and the instruction to collect state characteristics is used to instruct to acquire through sensors pre-deployed at the designated intersection Specify the state characteristics of the intersection.
  • the traffic light action prediction model is obtained by training sample data with a specified data structure, the specified data structure being composed of multiple data blocks, wherein the sample data having the same signal light phase and the same predicted action is Existing in the same data block, the device includes:
  • the first state feature acquiring unit is configured to acquire the designated phase of the signal light and the first state feature of the designated intersection before the prediction action is performed;
  • the second state feature acquiring unit is configured to acquire the second state feature of the designated intersection and the negative number of the square sum of the queue length of each lane of the designated intersection when the traffic light action prediction model is used for prediction next time;
  • a designated data block storage unit for storing the designated phase, the first state feature, the predicted action, the second state feature, and the negative number of the square sum of the queue length of each lane of the designated intersection together
  • the designated data block is a data block storing the designated phase and the prediction action.
  • the signal conditioning device based on the action prediction model of the present application acquires the state characteristics of the designated intersection through sensors deployed in advance at the designated intersection; inputs the state characteristics into the preset first decision-making network for processing, and obtains the first decision The predicted action of the network output; wherein the first decision network is a part of a pre-trained signal light action prediction model based on a reinforcement learning model, and the signal light action prediction model includes the first decision network connected in sequence , Multi-head self-attention network and evaluation network; control the signal light according to the predicted action. Therefore, the associated control of multiple signal lights can be realized without considering the transition of the intersection state, which reduces the amount of calculation and improves the efficiency.
  • an embodiment of the present application also provides a computer device.
  • the computer device may be a server, and its internal structure may be as shown in the figure.
  • the computer equipment includes a processor, a memory, a network interface, and a database connected through a system bus. Among them, the processor designed by the computer is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, a computer program, and a database.
  • the memory provides an environment for the operation of the operating system and computer programs in the non-volatile storage medium.
  • the database of the computer equipment is used to store the data used in the signal conditioning method based on the motion prediction model.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer program is executed by the processor to realize a signal adjustment method based on the motion prediction model.
  • the above-mentioned processor executes the above-mentioned signal adjustment method based on the action prediction model, wherein the steps included in the method respectively correspond to the steps of executing the signal adjustment method based on the action prediction model of the aforementioned embodiment one-to-one, and will not be repeated here.
  • the computer device of the present application acquires the state characteristics of the designated intersection through sensors pre-deployed at the designated intersection; inputs the state characteristics into the preset first decision-making network for processing, and obtains the predicted action output by the first decision-making network;
  • the first decision network is a part of a pre-trained signal light action prediction model based on a reinforcement learning model, and the signal light action prediction model includes the first decision network and a multi-head self-attention network connected in sequence And an evaluation network; controlling the signal light according to the predicted action. Therefore, the associated control of multiple signal lights can be realized without considering the transition of the intersection state, which reduces the amount of calculation and improves the efficiency.
  • An embodiment of the present application also provides a computer-readable storage medium.
  • the above-mentioned storage medium may be a non-volatile storage medium or a volatile storage medium.
  • a computer program is stored thereon, and when the computer program is executed by a processor, a signal adjustment method based on an action prediction model is realized, wherein the steps included in the method are respectively the same as the steps of executing the signal adjustment method based on an action prediction model in the foregoing embodiment.
  • the computer-readable storage medium of the present application acquires the state characteristics of the designated intersection through sensors pre-deployed at the designated intersection; inputs the state characteristics into a preset first decision-making network for processing, and obtains the output of the first decision-making network Predictive action; wherein the first decision-making network is a part of a preset signal light action prediction model based on a reinforcement learning model that has been trained, and the signal light action prediction model includes the first decision network connected in sequence and a multi-head self Attention network and evaluation network; control the signal light according to the predicted action. Therefore, the associated control of multiple signal lights can be realized without considering the transition of the intersection state, which reduces the amount of calculation and improves the efficiency.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于动作预测模型的信号调节方法、装置、计算机设备和存储介质,涉及智慧城市技术领域,方法包括:通过预先部署在指定路口的传感器获取指定路口的状态特征(S1);将状态特征输入预设的第一决策网络中进行处理,得到第一决策网络输出的预测动作;其中第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,信号灯动作预测模型包括顺序连接的第一决策网络、多头自注意力网络和评估网络(S2);根据预测动作控制信号灯(S3)。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制,减少了计算量,提高了效率。

Description

基于动作预测模型的信号调节方法、装置和计算机设备
本申请要求于2019年09月18日提交中国专利局、申请号为201910882721.2,发明名称为“基于动作预测模型的信号调节方法、装置和计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及到智慧城市技术领域,特别是涉及到一种基于动作预测模型的信号调节方法、装置、计算机设备和存储介质。
背景技术
日益增多的车辆带来的一系列问题,尤其是交通拥塞。不仅增加了通行时间,还造成了环境与经济问题。自适应红绿灯控制通过合理的调节红绿灯,能够有效的减少拥堵。现有的多路口信号调节,一般采用的是集中式控制,限制了系统的稳健性和可扩展性。且在处理多个路口时,系统的复杂性会随着路口数量的增加成指数增长,造成维度灾难。同时,这些多路口信号灯自适应控制算法,是基于数学模型来描述路口状态的随机性和动态性。发明人意识到这种依赖于路口状态的变迁而进行信号调节的方法,求解复杂,当路口状态过于复杂时很可能无法及时计算出结果,造成信号调节失败,引起交通混乱。
技术问题
本申请的主要目的为提供一种基于动作预测模型的信号调节方法、装置、计算机设备和存储介质,旨在不需要考虑路口状态的变迁即可实现多信号灯的关联控制,减少了计算量,提高了效率。
技术解决方案
为了实现上述发明目的,本申请提出一种基于动作预测模型的信号调节方法,应用于第一智能体,信号灯位于指定路口,包括:
通过预先部署在指定路口的传感器获取指定路口的状态特征;
将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;
根据所述预测动作控制所述信号灯。
本申请提供一种基于动作预测模型的信号调节装置,应用于第一智能体,信号灯位于指定路口,包括:
状态特征获取单元,用于通过预先部署在指定路口的传感器获取指定路口的状态特征;
预测动作获取单元,用于将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;
信号调节单元,用于根据所述预测动作控制所述信号灯。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于动作预测模型的信号调节方法的步骤,应用于第一智能体,信号灯位于指定路口,所述方法包括:
通过预先部署在指定路口的传感器获取指定路口的状态特征;
将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;
根据所述预测动作控制所述信号灯。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种基于动作预测模型的信号调节方法的步骤,应用于第一智能体,信号灯位于指定路口,所述方法包括:
通过预先部署在指定路口的传感器获取指定路口的状态特征;
将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;
根据所述预测动作控制所述信号灯。
有益效果
本申请的基于动作预测模型的信号调节方法、装置、计算机设备和存储介质,通过预先部署在指定路口的传感器获取指定路口的状态特征;将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制,减少了计算量,提高了效率。
附图说明
图1为本申请一实施例的基于动作预测模型的信号调节方法的流程示意图;
图2为本申请一实施例的基于动作预测模型的信号调节装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
本发明的最佳实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于动作预测模型的信号调节方法,应用于第一智能体,信号灯位于指定路口,包括:
S1、通过预先部署在指定路口的传感器获取指定路口的状态特征;
S2、将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;
S3、根据所述预测动作控制所述信号灯。
本申请采用的基于动作预测模型的信号调节方法,仅考虑当前时间下其他路口的信号灯动作、其他路口的状态对指定路口的影响(利用多头自注意力网络引入其他路口信号灯动作对指定路口的权重贡献,从而在训练模型时,能够综合考虑多个路口的交通状态以更新模型的网络参数),而不需要考虑路口状态的迁移,从而在满足信号调节的基础上,减少了计算量,提高了效率。
如上述步骤S1所述,通过预先部署在指定路口的传感器获取指定路口的状态特征。所述传感器可为任意传感器,例如红外传感器,压力传感器,激光传感器,计时器等等,用于感测指定路口的状态特征。所述状态特征例如为车道车辆数目、车道占用率、车辆位置、车辆速度、排队长度和车辆延时等。进一步地,作为替换,还可以采用采集所述指定路口的图像,并对所述图像进行分析,从而得到所述状态特征的方式获取状态特征。
如上述步骤S2所述,将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络。其中本申请的基于强化学习模型的已训练好的信号灯动作预测模型,由顺序连接的所述第一决策网络、多头自注意力网络和评估网络构成。其中所述第一决策网络用于预测指定路口的信号灯的动作。所述动作例如为:是否切换信号灯当前相位,如何切换信号灯相位,若不切换则保持当前相位多少时间等。强化学习模型本质上是一种试错模型,其中所述多头自注意力网络和评估网络即是为了更新模型的网络参数而设置的。其中所述多头自注意力网络用于计算出其他智能体的决策对所述指定路口的权重贡献,从而使多个智能体执行能使多个路口的交通总状况得到改善的行为。进一步地,所述信号灯动作预测模型还包括多个决策网络,所述多个决策网络与预设的多个智能体相对应,用于预测与所述多个智能体所处路口的信号灯的动作。
如上述步骤S3所述,根据所述预测动作控制所述信号灯。由于所述第一决策网络是已训练好的信号灯动作预测模型中的一部分,并且所述信号灯动作预测模型在训练时已经考虑过由多头自注意力网络引进的其他智能体的决策的影响,因此所述预测动作是符合改善多个路口的交通总状况的动作,据此根据所述预测动作控制所述信号灯。
在一个实施方式中,所述传感器为压力传感器,所述压力传感器存在多个,分布于所述指定路口的各个车道的地下或者地面,当所述压力传感器正上方存在车辆时所述压力传感器能够被激活,所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤S1,包括:
S101、获取被激活的压力传感器的位置;
S102、在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置,从而得到车辆分布图;
S103、从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度,并将所述车辆分布密度作为所述指定路口的状态特征。
如上所述,实现了通过预先部署在指定路口的传感器获取指定路口的状态特征。压力传感器是一种当受到一定的机械力时能够响应(激活)的传感器,本申请通过在指定路口(如各个车道)设置传感器,并设置只有受到与车辆相当的压力时再会被激活的方式(即当正上方存在较小的压力,例如仅存在人体的压力时,传感器不会被激活,只有当正上方存在大于预定阈值的压力时,才判定正上方存在车辆,从而激活传感器),以感测到车辆的分布,即激活的传感器上存在车辆。从而结合与所述指定路口相应的地形图,可以得到车辆分布图。再从车辆分布图中提取出车辆分布密度,作为状态特征,相较于普通的状态特征,更加准确。
在一个实施方式中,所述将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络的步骤S2之前,包括:
S11、构建第一决策网络,所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作;
S12、构建多头自注意力网络,所述多头自注意力网络设置有n个输入层和n个输出层,所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出;其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络,其中所述信号灯动作预测模型包括n个智能体;所述n个输出层依次与n个智能体关联,其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献,i为大于等于1且小于等 于n的整数;
S13、构建评估网络,所述评估网络由与所述n个智能体依次对应的n个评估子网络构成,每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络,所述评估网络用于输出对交通状况进行评估的期望值;
S14、将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接,从而获得所述信号灯动作预测模型。
如上所述,实现了构建所述信号灯动作预测模型。本申请的信号灯动作预测模型共包括了n个智能体、n个决策网络、多头自注意力网络和n个评估子网络,其中n个智能体、n个决策网络和n个评估子网络一一对应。所述多头自注意力网络用于计算除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献,从而使多个智能体互相关联,以使包括多个路口在内的信号灯的关联控制得以实现。
在一个实施方式中,所述将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接,从而获得所述信号灯动作预测模型的步骤S14之后,包括:
S141、获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态;
S142、将所述历史动作和历史状态输入所述多头自注意力网络中进行处理,从而得到由所述多头自注意力网络中的第i个输出层输出的指定权重贡献,所述指定权重贡献指除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献;
S143、将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中,从而得到所述第i个评估子网络输出的期望值;
S144、根据公式:
Figure PCTCN2020098797-appb-000001
对n个评估子网络输出的期望值进行均值处理,得到平均期望值,其中Q1、Q2、…、Qn分别为第1个评估子网络、第2个评估子网络、…、第n个评估子网络输出的期望值;
S145、根据预设的网络参数更新规则,利用所述平均期望值,更新所述信号灯动作预测模型的网络参数。
如上所述,实现了更新所述信号灯动作预测模型的网络参数。更新所述信号灯动作预测模型的网络参数实际上也是训练所述信号灯动作预测模型的过程。本申请采用第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态作为训练的样本数据,并采用多头自注意力网络计算出其他智能体对第i个智能体的权重贡献,使得训练时不同智能体的网络参数相互关联,在训练完成后能够得到整体更新且适应于整体交通状态改善的多个智能体的网络。
在一个实施方式中,所述根据预设的网络参数更新规则,利用所述平均期望值,更新所述信号灯动作预测模型的网络参数的步骤S145,包括:
S1451、以最小化预设的损失函数的形式,并采用反向传递法,更新所述信号灯动作预测模型中的网络参数,其中所述损失函数的公式为:
Figure PCTCN2020098797-appb-000002
其中Loss为损失函数,共有N个决策时刻,t指第t个决策时刻,Q为所述评估子网络输出的平均期望值,S t为第t个决策时刻所述第i个智能体对应的路口的状态特征,a t为第t个决策时刻所述第i个智能体的第一预测网络的输出,ω为所述第一目标网络的网络参数,ω -为所述第二目标网络的网络参数,R t+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数,γ为预设参数,π为所述第i个智能体的第一目标网络的输出,θ -为所述第一目标网络的网络参数。
如上所述,实现了以最小化预设的损失函数的形式,并采用反向传递法,更新所述信号灯动作预测模型中的网络参数。其中损失函数中使用的奖励R t+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数,是反应了包括所有智能体对应的 路口的交通状况的反馈;所述期望值,是所有智能体对应的评估子网络的平均期望值;但是却考虑了第t个决策时刻所述第i个智能体对应的路口的状态特征,即不需担心路口状态的迁移对所述信号灯动作预测模型的影响,仅通过第t个决策时刻所述第i个智能体对应的路口的状态特征即可实现多信号调节的联动,从而减少了计算量,提高了效率。
在一个实施方式中,所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤S1之前,包括:
S01、获取当前时间与所述指定路口的图像;
S02、判断所述当前时间是否属于预设的信号灯动作测模型的使用时段;
S03、若所述当前时间属于预设的信号灯动作测模型的使用时段,则分析所述指定路口的图像,从而判断所述指定路口的各车道中是否存在行驶轮悬空的车辆;
S04、若所述指定路口的各车道中不存在行驶轮悬空的车辆,则生成采集状态特征的指令,所述采集状态特征的指令用于指示通过预先部署在指定路口的传感器获取指定路口的状态特征。
如上所述,实现了生成采集状态特征的指令。其中,本申请的目的在于判断是否为交通繁忙的时段、是否存在车祸现象,来决定是否使用基于强化学习模型的信号调节模型。若当前时间为午夜,则无需使用信号灯动作测模型,若存在车祸导致交通无法疏导,那么同样无需使用信号灯动作测模型。据此通过判断所述当前时间是否属于预设的信号灯动作测模型的使用时段,以及判断所述指定路口的各车道中是否存在行驶轮悬空的车辆以确定是否生成采集状态特征的指令,进而是否使用所述信号调节模型。更进一步地,还可以包括:分析所述信号灯所处路口的图像,从而判断所述路口的各车道中是否存在面积大于预设面积的红颜色区域;若所述路口的各车道存在面积大于预设面积的红颜色区域,则判断所述红颜色区域的形状是否呈不规则形状;若所述红颜色区域的形状呈不规则形状,则认为出现了车祸,判定不符合预设的信号灯动作测模型的使用条件。其中红颜色区域代表了血液区域,由于一般车祸较少出现大面积的血液区域,因此当存在大面积的血液区域时,判定为重大交通事故,从而进一步确定不符合预设的信号灯动作测模型的使用条件。
在一个实施方式中,所述信号灯动作预测模型通过具有指定数据结构的样本数据训练得到的,所述指定数据结构由多个数据块构成,其中,具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中,所述根据所述预测动作控制所述信号灯的步骤S3之后,包括:
S31、获取执行所述预测动作之前所述信号灯的指定相位、所述指定路口的第一状态特征;
S32、获取下一次采用所述信号灯动作预测模型进行预测时,所述指定路口的第二状态特征和所述指定路口的各车道排队长度的平方和的负数;
S33、将所述指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中,其中所述指定数据块为存储具有所述指定相位和所述预测动作的数据块。
如上所述,实现了将指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中。其中所述指定路口的各车道排队长度的平方和的负数即为强化学习模型中的状态对预测动作的奖励。为了防止低频次的相位-决策(即历史动作)被忽视,本申请构建了多个数据块,其中,具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中。从而在训练时,从不同的数据块中均抽取相同数量的样本数据进行训练,即可使训练得到的信号灯动作预测模型适用于低频次的相位-决策对应的交通状况,从而使所述信号灯动作预测模型更具鲁棒性。
本申请的基于动作预测模型的信号调节方法,通过预先部署在指定路口的传感器获取指定路口的状态特征;将所述状态特征输入预设的第一决策网络中进行处理,得到所述第 一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制,减少了计算量,提高了效率。
参照图2,本申请实施例提供一种基于动作预测模型的信号调节装置,包括:
状态特征获取单元10,用于通过预先部署在指定路口的传感器获取指定路口的状态特征;
预测动作获取单元20,用于将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;
信号调节单元30,用于根据所述预测动作控制所述信号灯。
其中上述单元分别用于执行的操作与前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述传感器为压力传感器,所述压力传感器存在多个,分布于所述指定路口的各个车道的地下或者地面,当所述压力传感器正上方存在车辆时所述压力传感器能够被激活,所述状态特征获取单元10,包括:
位置获取子单元,用于获取被激活的压力传感器的位置;
位置标注子单元,用于在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置,从而得到车辆分布图;
状态特征获取子单元,用于从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度,并将所述车辆分布密度作为所述指定路口的状态特征。
其中上述子单元分别用于执行的操作与前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
第一决策网络构建单元,用于构建第一决策网络,所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作;
多头自注意力网络构建单元,用于构建多头自注意力网络,所述多头自注意力网络设置有n个输入层和n个输出层,所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出;其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络,其中所述信号灯动作预测模型包括n个智能体;所述n个输出层依次与n个智能体关联,其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献,i为大于等于1且小于等于n的整数;
评估网络构建单元,用于构建评估网络,所述评估网络由与所述n个智能体依次对应的n个评估子网络构成,每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络,所述评估网络用于输出对交通状况进行评估的期望值;
动作预测模型获取单元,用于将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接,从而获得所述信号灯动作预测模型。
其中上述单元分别用于执行的操作与前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
历史动作和历史状态获取单元,用于获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态;
指定权重贡献获取单元,用于将所述历史动作和历史状态输入所述多头自注意力网络 中进行处理,从而得到由所述多头自注意力网络中的第i个输出层输出的指定权重贡献,所述指定权重贡献指除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献;
期望值获取单元,用于将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中,从而得到所述第i个评估子网络输出的期望值;
平均期望值获取单元,用于根据公式:
Figure PCTCN2020098797-appb-000003
对n个评估子网络输出的期望值进行均值处理,得到平均期望值,其中Q1、Q2、…、Qn分别为第1个评估子网络、第2个评估子网络、…、第n个评估子网络输出的期望值;
网络参数更新单元,用于根据预设的网络参数更新规则,利用所述平均期望值,更新所述信号灯动作预测模型的网络参数。
其中上述单元分别用于执行的操作与前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述网络参数更新单元,包括:
网络参数更新子单元,用于以最小化预设的损失函数的形式,并采用反向传递法,更新所述信号灯动作预测模型中的网络参数,其中所述损失函数的公式为:
Figure PCTCN2020098797-appb-000004
其中Loss为损失函数,共有N个决策时刻,t指第t个决策时刻,Q为所述评估子网络输出的平均期望值,S t为第t个决策时刻所述第i个智能体对应的路口的状态特征,a t为第t个决策时刻所述第i个智能体的第一预测网络的输出,ω为所述第一目标网络的网络参数,ω -为所述第二目标网络的网络参数,R t+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数,γ为预设参数,π为所述第i个智能体的第一目标网络的输出,θ -为所述第一目标网络的网络参数。
其中上述子单元分别用于执行的操作与前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
时间与图像获取单元,用于获取当前时间与所述指定路口的图像;
使用时段判断单元,用于判断所述当前时间是否属于预设的信号灯动作测模型的使用时段;
车辆判断单元,用于若所述当前时间属于预设的信号灯动作测模型的使用时段,则分析所述指定路口的图像,从而判断所述指定路口的各车道中是否存在行驶轮悬空的车辆;
指令生成单元,用于若所述指定路口的各车道中不存在行驶轮悬空的车辆,则生成采集状态特征的指令,所述采集状态特征的指令用于指示通过预先部署在指定路口的传感器获取指定路口的状态特征。
其中上述单元分别用于执行的操作与前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述信号灯动作预测模型通过具有指定数据结构的样本数据训练得到的,所述指定数据结构由多个数据块构成,其中,具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中,所述装置,包括:
第一状态特征获取单元,用于获取执行所述预测动作之前所述信号灯的指定相位、所述指定路口的第一状态特征;
第二状态特征获取单元,用于获取下一次采用所述信号灯动作预测模型进行预测时,所述指定路口的第二状态特征和所述指定路口的各车道排队长度的平方和的负数;
指定数据块存储单元,用于将所述指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中,其中所述指定数据块为存储具有所述指定相位和所述预测动作的数据块。
其中上述单元分别用于执行的操作与前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。
本申请的基于动作预测模型的信号调节装置,通过预先部署在指定路口的传感器获取指定路口的状态特征;将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制,减少了计算量,提高了效率。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于动作预测模型的信号调节方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于动作预测模型的信号调节方法。
上述处理器执行上述基于动作预测模型的信号调节方法,其中所述方法包括的步骤分别与执行前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,通过预先部署在指定路口的传感器获取指定路口的状态特征;将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制,减少了计算量,提高了效率。
本申请一实施例还提供一种计算机可读存储介质,上述存储介质可以是非易失性存储介质,也可以是易失性存储介质。其上存储有计算机程序,计算机程序被处理器执行时实现基于动作预测模型的信号调节方法,其中所述方法包括的步骤分别与执行前述实施方式的基于动作预测模型的信号调节方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,通过预先部署在指定路口的传感器获取指定路口的状态特征;将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;根据所述预测动作控制所述信号灯。从而不需要考虑路口状态的变迁即可实现多信号灯的关联控制,减少了计算量,提高了效率。

Claims (20)

  1. 一种基于动作预测模型的信号调节方法,其中,应用于第一智能体,信号灯位于指定路口,包括:
    通过预先部署在指定路口的传感器获取指定路口的状态特征;
    将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;
    根据所述预测动作控制所述信号灯。
  2. 根据权利要求1所述的基于动作预测模型的信号调节方法,其中,所述传感器为压力传感器,所述压力传感器存在多个,分布于所述指定路口的各个车道的地下或者地面,当所述压力传感器正上方存在车辆时所述压力传感器能够被激活,所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤,包括:
    获取被激活的压力传感器的位置;
    在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置,从而得到车辆分布图;
    从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度,并将所述车辆分布密度作为所述指定路口的状态特征。
  3. 根据权利要求1所述的基于动作预测模型的信号调节方法,其中,所述将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络的步骤之前,包括:
    构建第一决策网络,所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作;
    构建多头自注意力网络,所述多头自注意力网络设置有n个输入层和n个输出层,所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出;其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络,其中所述信号灯动作预测模型包括n个智能体;所述n个输出层依次与n个智能体关联,其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献,i为大于等于1且小于等于n的整数;
    构建评估网络,所述评估网络由与所述n个智能体依次对应的n个评估子网络构成,每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络,所述评估网络用于输出对交通状况进行评估的期望值;
    将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接,从而获得所述信号灯动作预测模型。
  4. 根据权利要求3所述的基于动作预测模型的信号调节方法,其中,所述将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接,从而获得所述信号灯动作预测模型的步骤之后,包括:
    获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态;
    将所述历史动作和历史状态输入所述多头自注意力网络中进行处理,从而得到由所述多头自注意力网络中的第i个输出层输出的指定权重贡献,所述指定权重贡献指除第i个智 能体之外的其他智能体的预测动作对第i个智能体的权重贡献;
    将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中,从而得到所述第i个评估子网络输出的期望值;
    根据公式:
    Figure PCTCN2020098797-appb-100001
    对n个评估子网络输出的期望值进行均值处理,得到平均期望值,其中Q1、Q2、…、Qn分别为第1个评估子网络、第2个评估子网络、…、第n个评估子网络输出的期望值;
    根据预设的网络参数更新规则,利用所述平均期望值,更新所述信号灯动作预测模型的网络参数。
  5. 根据权利要求4所述的基于动作预测模型的信号调节方法,其中,所述根据预设的网络参数更新规则,利用所述平均期望值,更新所述信号灯动作预测模型的网络参数的步骤,包括:
    以最小化预设的损失函数的形式,并采用反向传递法,更新所述信号灯动作预测模型中的网络参数,其中所述损失函数的公式为:
    Figure PCTCN2020098797-appb-100002
    其中Loss为损失函数,共有N个决策时刻,t指第t个决策时刻,Q为所述评估子网络输出的平均期望值,S t为第t个决策时刻所述第i个智能体对应的路口的状态特征,a t为第t个决策时刻所述第i个智能体的第一预测网络的输出,ω为所述第一目标网络的网络参数,ω -为所述第二目标网络的网络参数,R t+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数,γ为预设参数,π为所述第i个智能体的第一目标网络的输出,θ -为所述第一目标网络的网络参数。
  6. 根据权利要求1所述的基于动作预测模型的信号调节方法,其中,所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤之前,包括:
    获取当前时间与所述指定路口的图像;
    判断所述当前时间是否属于预设的信号灯动作测模型的使用时段;
    若所述当前时间属于预设的信号灯动作测模型的使用时段,则分析所述指定路口的图像,从而判断所述指定路口的各车道中是否存在行驶轮悬空的车辆;
    若所述指定路口的各车道中不存在行驶轮悬空的车辆,则生成采集状态特征的指令,所述采集状态特征的指令用于指示通过预先部署在指定路口的传感器获取指定路口的状态特征。
  7. 根据权利要求1所述的基于动作预测模型的信号调节方法,其中,所述信号灯动作预测模型通过具有指定数据结构的样本数据训练得到的,所述指定数据结构由多个数据块构成,其中,具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中,所述根据所述预测动作控制所述信号灯的步骤之后,包括:
    获取执行所述预测动作之前所述信号灯的指定相位、所述指定路口的第一状态特征;
    获取下一次采用所述信号灯动作预测模型进行预测时,所述指定路口的第二状态特征和所述指定路口的各车道排队长度的平方和的负数;
    将所述指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中,其中所述指定数据块为存储具有所述指定相位和所述预测动作的数据块。
  8. 一种基于动作预测模型的信号调节装置,其中,应用于第一智能体,信号灯位于指定路口,包括:
    状态特征获取单元,用于通过预先部署在指定路口的传感器获取指定路口的状态特征;
    预测动作获取单元,用于将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所 述第一决策网络、多头自注意力网络和评估网络;
    信号调节单元,用于根据所述预测动作控制所述信号灯。
  9. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现一种基于动作预测模型的信号调节方法的步骤,应用于第一智能体,信号灯位于指定路口,所述方法包括:
    通过预先部署在指定路口的传感器获取指定路口的状态特征;
    将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;
    根据所述预测动作控制所述信号灯。
  10. 根据权利要求9所述的计算机设备,其中,所述传感器为压力传感器,所述压力传感器存在多个,分布于所述指定路口的各个车道的地下或者地面,当所述压力传感器正上方存在车辆时所述压力传感器能够被激活,所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤,包括:
    获取被激活的压力传感器的位置;
    在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置,从而得到车辆分布图;
    从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度,并将所述车辆分布密度作为所述指定路口的状态特征。
  11. 根据权利要求9所述的计算机设备,其中,所述将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络的步骤之前,包括:
    构建第一决策网络,所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作;
    构建多头自注意力网络,所述多头自注意力网络设置有n个输入层和n个输出层,所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出;其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络,其中所述信号灯动作预测模型包括n个智能体;所述n个输出层依次与n个智能体关联,其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献,i为大于等于1且小于等于n的整数;
    构建评估网络,所述评估网络由与所述n个智能体依次对应的n个评估子网络构成,每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络,所述评估网络用于输出对交通状况进行评估的期望值;
    将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接,从而获得所述信号灯动作预测模型。
  12. 根据权利要求11所述的计算机设备,其中,所述将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接,从而获得所述信号灯动作预测模型的步骤之后,包括:
    获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态;
    将所述历史动作和历史状态输入所述多头自注意力网络中进行处理,从而得到由所述 多头自注意力网络中的第i个输出层输出的指定权重贡献,所述指定权重贡献指除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献;
    将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中,从而得到所述第i个评估子网络输出的期望值;
    根据公式:
    Figure PCTCN2020098797-appb-100003
    对n个评估子网络输出的期望值进行均值处理,得到平均期望值,其中Q1、Q2、…、Qn分别为第1个评估子网络、第2个评估子网络、…、第n个评估子网络输出的期望值;
    根据预设的网络参数更新规则,利用所述平均期望值,更新所述信号灯动作预测模型的网络参数。
  13. 根据权利要求12所述的计算机设备,其中,所述根据预设的网络参数更新规则,利用所述平均期望值,更新所述信号灯动作预测模型的网络参数的步骤,包括:
    以最小化预设的损失函数的形式,并采用反向传递法,更新所述信号灯动作预测模型中的网络参数,其中所述损失函数的公式为:
    Figure PCTCN2020098797-appb-100004
    其中Loss为损失函数,共有N个决策时刻,t指第t个决策时刻,Q为所述评估子网络输出的平均期望值,S t为第t个决策时刻所述第i个智能体对应的路口的状态特征,a t为第t个决策时刻所述第i个智能体的第一预测网络的输出,ω为所述第一目标网络的网络参数,ω -为所述第二目标网络的网络参数,R t+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数,γ为预设参数,π为所述第i个智能体的第一目标网络的输出,θ -为所述第一目标网络的网络参数。
  14. 根据权利要求9所述的计算机设备,其中,所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤之前,包括:
    获取当前时间与所述指定路口的图像;
    判断所述当前时间是否属于预设的信号灯动作测模型的使用时段;
    若所述当前时间属于预设的信号灯动作测模型的使用时段,则分析所述指定路口的图像,从而判断所述指定路口的各车道中是否存在行驶轮悬空的车辆;
    若所述指定路口的各车道中不存在行驶轮悬空的车辆,则生成采集状态特征的指令,所述采集状态特征的指令用于指示通过预先部署在指定路口的传感器获取指定路口的状态特征。
  15. 根据权利要求9所述的计算机设备,其中,所述信号灯动作预测模型通过具有指定数据结构的样本数据训练得到的,所述指定数据结构由多个数据块构成,其中,具有同一信号灯相位和同一预测动作的样本数据被存在同一个所述数据块中,所述根据所述预测动作控制所述信号灯的步骤之后,包括:
    获取执行所述预测动作之前所述信号灯的指定相位、所述指定路口的第一状态特征;
    获取下一次采用所述信号灯动作预测模型进行预测时,所述指定路口的第二状态特征和所述指定路口的各车道排队长度的平方和的负数;
    将所述指定相位、所述第一状态特征、所述预测动作、所述第二状态特征和所述指定路口的各车道排队长度的平方和的负数一起存入指定数据块中,其中所述指定数据块为存储具有所述指定相位和所述预测动作的数据块。
  16. 一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现一种基于动作预测模型的信号调节方法的步骤,应用于第一智能体,信号灯位于指定路口,所述方法包括:
    通过预先部署在指定路口的传感器获取指定路口的状态特征;
    将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预 测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络;
    根据所述预测动作控制所述信号灯。
  17. 根据权利要求16所述的计算机可读存储介质,其中,所述传感器为压力传感器,所述压力传感器存在多个,分布于所述指定路口的各个车道的地下或者地面,当所述压力传感器正上方存在车辆时所述压力传感器能够被激活,所述通过预先部署在指定路口的传感器获取指定路口的状态特征的步骤,包括:
    获取被激活的压力传感器的位置;
    在预设的与所述指定路口相应的地形图中标注所述被激活的压力传感器的位置,从而得到车辆分布图;
    从所述车辆分布图中提取所述指定路口的各个车道的车辆分布密度,并将所述车辆分布密度作为所述指定路口的状态特征。
  18. 根据权利要求16所述的计算机可读存储介质,其中,所述将所述状态特征输入预设的第一决策网络中进行处理,得到所述第一决策网络输出的预测动作;其中所述第一决策网络是预设的基于强化学习模型的已训练好的信号灯动作预测模型中的一部分,所述信号灯动作预测模型包括顺序连接的所述第一决策网络、多头自注意力网络和评估网络的步骤之前,包括:
    构建第一决策网络,所述第一决策网络由并行的具有相同网络结构但网络参数不同的第一预测网络和第一目标网络构成,所述第一目标网络用于输出根据所述第一目标网络的网络参数生成的预测动作;
    构建多头自注意力网络,所述多头自注意力网络设置有n个输入层和n个输出层,所述n个输入层用于分别接收第一决策网络的输出、第二决策网络的输出、…、第n决策网络的输出;其中所述第二决策网络、…、第n决策网络是分别应用于第二智能体、…、第n智能体的用于分别预测对应信号灯的动作的网络,其中所述信号灯动作预测模型包括n个智能体;所述n个输出层依次与n个智能体关联,其中第i个输出层用于输出除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献,i为大于等于1且小于等于n的整数;
    构建评估网络,所述评估网络由与所述n个智能体依次对应的n个评估子网络构成,每个评估子网络均包括并行的具有相同网络结构但网络参数不同的第二预测网络和第二目标网络,所述评估网络用于输出对交通状况进行评估的期望值;
    将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接,从而获得所述信号灯动作预测模型。
  19. 根据权利要求18所述的计算机可读存储介质,其中,所述将所述第一决策网络、所述多头自注意力网络和所述评估网络顺序连接,从而获得所述信号灯动作预测模型的步骤之后,包括:
    获取第一个智能体、第二个智能体、…、第n个智能体在同一历史时间下的历史动作和历史状态;
    将所述历史动作和历史状态输入所述多头自注意力网络中进行处理,从而得到由所述多头自注意力网络中的第i个输出层输出的指定权重贡献,所述指定权重贡献指除第i个智能体之外的其他智能体的预测动作对第i个智能体的权重贡献;
    将所述指定权重贡献与所述第i个智能体的历史状态共同输入所述评述评估网络中的第i个评估子网络中,从而得到所述第i个评估子网络输出的期望值;
    根据公式:
    Figure PCTCN2020098797-appb-100005
    对n个评估子网络输出的期望值进行均值处理,得到平均期望值,其中Q1、Q2、…、Qn分别为第1个评估子网络、第2个评估子网络、…、第n个评估子网络输出的期望值;
    根据预设的网络参数更新规则,利用所述平均期望值,更新所述信号灯动作预测模型 的网络参数。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述根据预设的网络参数更新规则,利用所述平均期望值,更新所述信号灯动作预测模型的网络参数的步骤,包括:
    以最小化预设的损失函数的形式,并采用反向传递法,更新所述信号灯动作预测模型中的网络参数,其中所述损失函数的公式为:
    Figure PCTCN2020098797-appb-100006
    其中Loss为损失函数,共有N个决策时刻,t指第t个决策时刻,Q为所述评估子网络输出的平均期望值,St为第t个决策时刻所述第i个智能体对应的路口的状态特征,at为第t个决策时刻所述第i个智能体的第一预测网络的输出,ω为所述第一目标网络的网络参数,ω-为所述第二目标网络的网络参数,Rt+1为第t+1个决策时刻所有智能体对应的路口的各车道排队长度的平方和的负数,γ为预设参数,π为所述第i个智能体的第一目标网络的输出,θ-为所述第一目标网络的网络参数。
PCT/CN2020/098797 2019-09-18 2020-06-29 基于动作预测模型的信号调节方法、装置和计算机设备 WO2021051930A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910882721.2A CN110766955B (zh) 2019-09-18 2019-09-18 基于动作预测模型的信号调节方法、装置和计算机设备
CN201910882721.2 2019-09-18

Publications (1)

Publication Number Publication Date
WO2021051930A1 true WO2021051930A1 (zh) 2021-03-25

Family

ID=69330058

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/098797 WO2021051930A1 (zh) 2019-09-18 2020-06-29 基于动作预测模型的信号调节方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN110766955B (zh)
WO (1) WO2021051930A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299078A (zh) * 2021-03-29 2021-08-24 东南大学 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN113505444A (zh) * 2021-09-09 2021-10-15 中国电子科技集团公司第二十八研究所 基于自注意力的多维度轨迹预测方法、装置
CN115514614A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766955B (zh) * 2019-09-18 2022-08-26 平安科技(深圳)有限公司 基于动作预测模型的信号调节方法、装置和计算机设备
CN111260937B (zh) * 2020-02-24 2021-09-14 武汉大学深圳研究院 一种基于强化学习的十字路口交通信号灯控制方法
CN112216129B (zh) * 2020-10-13 2021-07-27 大连海事大学 一种基于多智能体强化学习的自适应交通信号控制方法
CN114495506B (zh) * 2022-02-23 2023-07-28 复旦大学 基于车流预测和强化学习的多路口信号灯控制系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464310A (zh) * 2014-12-02 2015-03-25 上海交通大学 城市区域多交叉口信号协同优化控制方法及系统
CN105225502A (zh) * 2015-11-02 2016-01-06 招商局重庆交通科研设计院有限公司 一种基于多智能体的交叉口信号控制方法
WO2016114488A1 (ko) * 2015-01-14 2016-07-21 유영근 통행차량 검지를 위한 검지영역 설정 방법과 이를 이용한 교통 신호 제어방법
CN106056934A (zh) * 2016-08-04 2016-10-26 杭州普乐科技有限公司 一种智慧型主动式交通信号控制器及控制方法
CN106971563A (zh) * 2017-04-01 2017-07-21 中国科学院深圳先进技术研究院 智能交通信号灯控制方法及系统
CN108805348A (zh) * 2018-06-05 2018-11-13 北京京东金融科技控股有限公司 一种交叉口信号配时控制优化的方法和装置
CN109493617A (zh) * 2018-10-29 2019-03-19 沈阳天久信息技术工程有限公司 一种交通信号优化控制方法及装置
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110246345A (zh) * 2019-05-31 2019-09-17 闽南师范大学 一种基于HydraCNN的信号灯智能控制方法和系统
CN110766955A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 基于动作预测模型的信号调节方法、装置和计算机设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005046045A1 (de) * 2005-09-27 2007-03-29 Robert Bosch Gmbh Verfahren und Vorrichtung zur Steuerung mindestens eines Objektdetektionssensors
DE102008022349A1 (de) * 2008-05-02 2009-11-12 Deutsches Zentrum für Luft- und Raumfahrt e.V. Verfahren und Vorrichtung zur Ermittlung von Rückstaulängen an Lichtsignalanlagen
CN103413428A (zh) * 2013-06-27 2013-11-27 北京交通大学 基于传感器网络的道路交通信息可信度空间特性表示方法
CN103500508B (zh) * 2013-10-12 2016-05-11 大连联达科技有限公司 一种智能交通系统
CN105225500B (zh) * 2015-08-20 2018-04-03 青岛海信网络科技股份有限公司 一种交通控制辅助决策方法及装置
CN105774591B (zh) * 2016-04-07 2018-05-08 浙江瀚广新能源科技有限公司 一种电动车控制方法、装置、系统及电动车
CN107441709B (zh) * 2017-06-02 2020-11-24 华南理工大学 基于模糊行为树的游戏智能体动作序列生成方法
CN107134156A (zh) * 2017-06-16 2017-09-05 上海集成电路研发中心有限公司 一种基于深度学习的智能交通灯系统及其控制交通灯的方法
CN118194921A (zh) * 2017-10-27 2024-06-14 谷歌有限责任公司 基于关注的图像生成神经网络
US11501076B2 (en) * 2018-02-09 2022-11-15 Salesforce.Com, Inc. Multitask learning as question answering
US11238843B2 (en) * 2018-02-09 2022-02-01 Baidu Usa Llc Systems and methods for neural voice cloning with a few samples
WO2019165616A1 (zh) * 2018-02-28 2019-09-06 华为技术有限公司 信号灯控制方法、相关设备及系统
CN109389828A (zh) * 2018-10-19 2019-02-26 深圳市朋辉科技术有限公司 一种道路车辆行驶信息的监控系统
CN109919205A (zh) * 2019-02-25 2019-06-21 华南理工大学 基于多头自注意力机制的卷积回声状态网络时序分类方法
CN110032739B (zh) * 2019-04-18 2021-07-13 清华大学 中文电子病历命名实体抽取方法及系统
CN109948165B (zh) * 2019-04-24 2023-04-25 吉林大学 基于混合注意力网络的细粒度情感极性预测方法
CN110222188B (zh) * 2019-06-18 2023-04-18 深圳司南数据服务有限公司 一种多任务学习的公司公告处理方法及服务端

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464310A (zh) * 2014-12-02 2015-03-25 上海交通大学 城市区域多交叉口信号协同优化控制方法及系统
WO2016114488A1 (ko) * 2015-01-14 2016-07-21 유영근 통행차량 검지를 위한 검지영역 설정 방법과 이를 이용한 교통 신호 제어방법
CN105225502A (zh) * 2015-11-02 2016-01-06 招商局重庆交通科研设计院有限公司 一种基于多智能体的交叉口信号控制方法
CN106056934A (zh) * 2016-08-04 2016-10-26 杭州普乐科技有限公司 一种智慧型主动式交通信号控制器及控制方法
CN106971563A (zh) * 2017-04-01 2017-07-21 中国科学院深圳先进技术研究院 智能交通信号灯控制方法及系统
CN108805348A (zh) * 2018-06-05 2018-11-13 北京京东金融科技控股有限公司 一种交叉口信号配时控制优化的方法和装置
CN109493617A (zh) * 2018-10-29 2019-03-19 沈阳天久信息技术工程有限公司 一种交通信号优化控制方法及装置
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110246345A (zh) * 2019-05-31 2019-09-17 闽南师范大学 一种基于HydraCNN的信号灯智能控制方法和系统
CN110766955A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 基于动作预测模型的信号调节方法、装置和计算机设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299078A (zh) * 2021-03-29 2021-08-24 东南大学 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN113299078B (zh) * 2021-03-29 2022-04-08 东南大学 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN113505444A (zh) * 2021-09-09 2021-10-15 中国电子科技集团公司第二十八研究所 基于自注意力的多维度轨迹预测方法、装置
CN115514614A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质
CN115514614B (zh) * 2022-11-15 2023-02-24 阿里云计算有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质

Also Published As

Publication number Publication date
CN110766955A (zh) 2020-02-07
CN110766955B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
WO2021051930A1 (zh) 基于动作预测模型的信号调节方法、装置和计算机设备
Wei et al. Recent advances in reinforcement learning for traffic signal control: A survey of models and evaluation
WO2022121510A1 (zh) 基于随机策略梯度的交通信号控制方法、系统及电子设备
Zang et al. Metalight: Value-based meta-reinforcement learning for traffic signal control
Kuefler et al. Imitating driver behavior with generative adversarial networks
WO2021051870A1 (zh) 基于强化学习模型的信息控制方法、装置和计算机设备
CN112400192B (zh) 多模态深度交通信号控制的方法和系统
Jin et al. A group-based traffic signal control with adaptive learning ability
Abdulhai et al. Reinforcement learning for true adaptive traffic signal control
Płaczek A self-organizing system for urban traffic control based on predictive interval microscopic model
WO2022057912A1 (en) Method and system for adaptive cycle-level traffic signal control
US11893886B2 (en) Traffic control system
CN113257016B (zh) 一种交通信号控制方法、装置以及可读存储介质
CN113487857B (zh) 一种区域多路口可变车道协同控制决策方法
Sahu et al. Traffic light cycle control using deep reinforcement technique
CN115311860B (zh) 一种交通流量预测模型的在线联邦学习方法
JP5378002B2 (ja) 車両動作推定装置、車両動作推定方法および車両動作推定プログラム
JP2019079199A (ja) 信号機切替制御装置、信号機切替制御方法及び信号機切替制御プログラム
JP2020123269A (ja) 演算装置
Jaleel et al. Reducing congestion in an intelligent traffic system with collaborative and adaptive signaling on the edge
WO2022258943A1 (en) Traffic control system
CN116758768A (zh) 一种全十字路口红绿灯动态调控方法
CN116508081A (zh) 用于车辆交通信号优化的设备和方法
JP7394219B2 (ja) 交通システムを制御する方法、装置、コンピュータプログラム及びコンピュータ読み取り可能記憶媒体
CN111061966B (zh) 基于强化学习算法的失踪目标搜索方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20864734

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20864734

Country of ref document: EP

Kind code of ref document: A1