WO2018030772A1 - 감응식 교통 신호 제어 방법 및 그 장치 - Google Patents

감응식 교통 신호 제어 방법 및 그 장치 Download PDF

Info

Publication number
WO2018030772A1
WO2018030772A1 PCT/KR2017/008592 KR2017008592W WO2018030772A1 WO 2018030772 A1 WO2018030772 A1 WO 2018030772A1 KR 2017008592 W KR2017008592 W KR 2017008592W WO 2018030772 A1 WO2018030772 A1 WO 2018030772A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal control
control operation
traffic
value
intersection
Prior art date
Application number
PCT/KR2017/008592
Other languages
English (en)
French (fr)
Inventor
손기민
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Publication of WO2018030772A1 publication Critical patent/WO2018030772A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/075Ramp control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/095Traffic lights

Definitions

  • the present invention relates to a method and apparatus for controlling an adaptive traffic signal.
  • the present invention provides a method and apparatus for controlling an inductive traffic signal that can control a traffic signal inductively by using a plurality of consecutive intersection images without complicated equipment.
  • the present invention is a traffic controller through a plurality of intersection images in place of the existing traffic parameters difficult to accurately measure the traffic volume, speed, density, delay time, queue length in the traffic state measurement that is the core of the control of the sensitive signal intersection.
  • the present invention is to provide an adaptive traffic signal control method and apparatus for minimizing congestion by exerting more than a human state detection ability by applying an artificial intelligence function to the traffic signal.
  • an inductive traffic signal control method capable of inductively controlling a traffic signal using a plurality of consecutive intersection images without complicated equipment.
  • the traffic state change for each of the current traffic state and each signal control operation pair Outputting an approximated evaluation function value (Q-function) of the cumulative expected compensation according to; (b) selecting a signal control operation corresponding to a maximum value among the derived evaluation function values as a target signal control operation; (c) executing the selected target signal control operation; (d) updating a compensation value by using the intersection waiting and the number of approaching vehicles according to the execution of the target signal control operation; And (e) updating a parameter value of the evaluation function using the compensation value and the evaluation function value.
  • step (e) Before the step (e), updating the plurality of intersection images including the traffic state change according to the execution of the target signal control operation to the current traffic state; Storing a state transition experience example for a traffic state change according to execution of the target signal control operation in a reproduction memory; And randomly executing some of the state transition experience examples stored in the reproduction memory, wherein step (e) may update a parameter value of the evaluation function based on a stochastic gradient descent method.
  • Examples of the state transition experience include a previous traffic state, a signal control action taken in a previous traffic state, a compensation value for a traffic state change according to the signal control action, and a current traffic state as a result of a previous signal control action.
  • the state and the current traffic state are intersection images before and after the signal control operation is executed.
  • the deep CNN model further considers the current traffic conditions and the traffic conditions of other adjacent intersections for each signal control operation pair by further using another intersection image adjacent to the unit intersection. You can output the value of each evaluation function.
  • the deep CNN model may have an input layer and a plurality of hidden layers.
  • the deep CNN model may include an input layer configured to receive a plurality of intersection images of the current traffic condition; a plurality of convolution kernels of axa size and applying a plurality of convolution kernels to which a first skip is applied to the intersection image to perform a convolution operation A first hidden layer for outputting a first feature map; A plurality of convolution kernels having a bxb (natural number) size with respect to the first feature map, and applying a plurality of convolution kernels to which a first skip is applied to the first feature map A second hidden layer for performing a calculation to output a second feature map; a plurality of convolution kernels each having a size of cxc (natural number), and applying a plurality of convolution kernels to which a second skip is applied to the second feature map to perform a convolution operation to generate a third feature map.
  • n nodes of the fourth hidden layer are all connected to k nodes of the output layer, respectively, and the output layer is linearly activated.
  • the method may further include deleting the oldest state transition experience example stored among the state transition experience examples.
  • the evaluation function value may be derived as an approximated Q-function based on a reinforcement learning algorithm.
  • the step (d) may include: setting the compensation value to a first predetermined value (positive +1) when the number of waiting vehicles and the number of approaching vehicles on the intersection approach road increases and changes according to the execution of the target signal control operation; Setting the compensation value to a second predetermined value (positive value -1) when the number of waiting vehicles and the number of approaching vehicles on the intersection approach road decreases and changes according to the target signal control operation; And if there is no change in the number of waiting and approaching vehicles, setting the compensation value to a third predetermined value (0).
  • it may include a second deep CNN model for the measurement of the atmospheric and approach vehicle number of the intersection approach road, wherein the structure of the model may have a structure similar to the deep CNN model for approximating the evaluation function.
  • a snap image of each approach road to be controlled is pre-collected in advance according to a supervised machine learning method separately from a real-time image for signal control.
  • an inductive traffic signal control apparatus capable of inductively controlling a traffic signal using a plurality of consecutive intersection images without complicated equipment.
  • an approximated evaluation of cumulative expected compensation according to a traffic state change for each of the current traffic state and each signal control operation pair is received by receiving a plurality of intersection images including the current traffic state.
  • a deep CNN model unit which outputs a function value (Q-function), respectively;
  • a signal controller for controlling a traffic signal by selecting and executing a signal control operation corresponding to a maximum value of the derived evaluation function values as a target signal control operation;
  • a learner configured to update a compensation value by using the intersection waiting and the number of approach vehicles according to the execution of the target signal control operation, and update the parameter value of the evaluation function by using the compensation value and the evaluation function value.
  • An apparatus for controlling a traffic signal may be provided.
  • the signal controller may update the plurality of intersection images including the traffic state change according to the execution of the target signal control operation to the current traffic state and input the deep CNN model.
  • the learning unit stores a state transition experience example for a traffic state change according to the execution of the target signal control operation in a reproduction memory, randomly extracts some of the state transition experience examples stored in the reproduction memory, and then learns a probability
  • the parameter value of the evaluation function may be updated using the compensation value and the evaluation function value based on the right ascension descending method.
  • the deep CNN model unit further outputs respective evaluation function values by further considering the current traffic state and traffic conditions of other adjacent intersections for each signal control operation pair by further using another intersection image adjacent to a unit intersection. can do.
  • the signal controller may differently determine an execution time of the target signal control operation using the evaluation function value and the compensation value.
  • the learning unit may delete the state transition experience example stored the longest of the state transition experience examples when the reproduction memory is FULL.
  • the inductive traffic signal control capable of controlling a traffic signal in a sensible manner by using a plurality of consecutive intersection images without complicated equipment is possible. There is an advantage.
  • the present invention can minimize the intersection congestion by providing an artificial intelligence function to the traffic signal to exert more than the human state detection ability.
  • FIG. 1 is a view illustrating a sensitive traffic signal control system according to an embodiment of the present invention.
  • FIG. 2 is a flow chart illustrating a method for controlling an intersection in accordance with an embodiment of the present invention.
  • FIG. 3 illustrates an architecture of a deep CNN model according to an embodiment of the present invention.
  • FIG 4 illustrates an intersection image and an animated intersection image according to an embodiment of the present invention.
  • FIG. 5 is a block diagram schematically illustrating a configuration of an inductive traffic signal control apparatus according to an embodiment of the present invention.
  • FIG. 1 is a view illustrating a sensitive traffic signal control system according to an embodiment of the present invention.
  • the apparatus 100 for sensitive traffic signal control receives an intersection image including a current traffic state and receives reinforcement learning (RL) and deep learning (CNN). It is possible to control self-evolving traffic through reinforcement learning through trial and error using Convolution Neural Network.
  • RL reinforcement learning
  • CNN deep learning
  • the sensitive traffic signal control system does not require a complicated and expensive traffic detection device, and merely receives an intersection image including a traffic state, thereby recognizing and responding to a traffic state.
  • Type traffic signal control is possible.
  • the traffic signal control device 100 In response to the traffic signal control device 100 according to an embodiment of the present invention receives an intersection image including the current traffic state, the future waiting and approaching vehicle is based on the reinforcement learning and the deep CNN. It is possible to select the signal control operation that is expected to be small in number.
  • the artificial intelligence signal control apparatus 100 may perform the selected signal control operation and then receive the reward according to the result and reinforce the learning, thereby controlling the traffic signal in response to the traffic condition of the intersection.
  • FIG. 2 is a flowchart illustrating a method for controlling an intersection in accordance with an embodiment of the present invention
  • FIG. 3 is a diagram illustrating an architecture of a deep CNN model according to an embodiment of the present invention
  • FIG. 4 is an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating an intersection image and an animated intersection image according to an example.
  • the sensitive traffic signal control apparatus 100 receives an intersection image including current traffic state information, and predicts an evaluation function value of the cumulative expected compensation for each signal control operation based on the current traffic state information. do.
  • a deep convolutional neural network (CNN) model based on reinforcement learning is used to predict an evaluation function value.
  • CNN deep convolutional neural network
  • FIG 3 illustrates a structure of a deep CNN according to an embodiment of the present invention.
  • the deep CNN model receives a plurality of intersection images including a current traffic state, performs a plurality of steps of convolution calculation and subsampling, and finally, each signal control operation is performed. Output the evaluation function value.
  • the deep CNN model according to an embodiment of the present invention may be replaced by a simulation before the traffic signal controller is trained at an actual intersection. That is, the intersection animation shot through simulation may be used as the state image without using the intersection image including the current traffic state as it is.
  • the adaptive traffic signal control device 100 according to an embodiment of the present invention can reduce the burden on the citizens of the abnormal intersection delay that may appear in the learning period accompanied by trial and error.
  • FIG. 4 the actual intersection image and the simple image that animate the intersection image are respectively shown.
  • the pre-learning for adaptation to the actual intersection it is possible to minimize the difference from the reality image by using the animation close to the virtual reality.
  • the deep CNN model includes an input layer, a first hidden layer, a second hidden layer, a third hidden layer, a fourth hidden layer, and an output layer.
  • the input layer receives a plurality of intersection images.
  • the first concealment layer includes a plurality of convolution kernels of size a x a (natural number).
  • the first hidden layer directly performs a convolution operation on the plurality of intersection images through the plurality of convolution kernels.
  • the first hidden layer may perform the convolution kernel while skipping pixels in the first skip unit of the intersection image.
  • the result of the convolution operation on the plurality of intersection images in the first hidden layer will be referred to as a first feature map.
  • the size of the convolution kernel (filter) may be, for example, 8 ⁇ 8, and the first skip size may be 4 ⁇ 4.
  • the second hidden layer includes a plurality of convolution kernels of size b x b (natural numbers).
  • the second hidden layer outputs the second feature map by applying a plurality of convolution kernels of size b x b to the first feature map and performing a convolution operation.
  • the skip size of the second hidden layer may be the same as the first hidden layer.
  • the skip size may be set differently.
  • the third hidden layer may include a plurality of convolution kernels of size cxc (natural number), and output a third feature map by applying a plurality of cxc size convolution kernels to the second feature map and performing a convolution operation.
  • the skip size of the third hidden layer is set differently from the first hidden layer and the second hidden layer. For example, the skip size of the third hidden layer may be 1 ⁇ 1.
  • the fourth hidden layer includes n (natural numbers) nodes, and pools the third feature map.
  • the n nodes of the fourth hidden layer are fully connected to the k nodes of the output layer.
  • the output layer contains k nodes. Each node included in the output layer is set to correspond to each signal control operation. More specifically, each node included in the output layer outputs an evaluation function value corresponding to each signal control operation.
  • each node included in the output layer may be linearly activated.
  • the deep CNN model may receive a plurality of intersection images and output an evaluation function value according to cumulative expected compensation for a traffic condition change for each current traffic state and each signal control operation pair.
  • the evaluation function value may be a value of a Q-function based on reinforcement learning.
  • Equation 1 Q-function based on reinforcement learning
  • Is Represents an action taken (ie, a signal control action), Is Afterwards rewards, Represents the discount rate for compensation, Represents a Q-function, Is a symbol representing an average.
  • the sensitive traffic signal control apparatus 100 may find an optimal evaluation function value as accumulating experiences according to traffic signal control operations according to traffic conditions.
  • the evaluation function instead of using the evaluation function of reinforcement learning based on the Q-learning algorithm, the evaluation function (approximately based on the weight parameter) We use the deep CNN model as an approximation function.
  • the deep CNN receives an actual or animated intersection image including the current traffic state, and outputs an approximated evaluation function value for each signal control operation through the deep CNN model.
  • the sensitive traffic signal control apparatus 100 includes a single deep CNN model, and based on the prediction, the predicted evaluation function value according to each signal control operation is predicted and output.
  • the sensitive traffic signal control device 100 may further include another deep CNN model (second deep CNN model).
  • the second deep CNN model may measure the number of waiting and approaching vehicles on the intersection approach road.
  • the structure of the second deep CNN model may have a structure similar to that of the deep CNN model that predicts and outputs an evaluation function value.
  • a snap image of each access road to be controlled may be collected and pre-executed according to a supervised machine learning method.
  • the sensitive traffic signal control apparatus 100 selects a signal control operation corresponding to a maximum value of evaluation function values derived for each current traffic state and each signal control operation pair as a target signal control operation.
  • the traffic signal control apparatus 100 may randomly perform traffic signal control so that the apparatus 100 may experience various states in the learning period.
  • the sensitive traffic signal control apparatus 100 may calculate a probability value for the random operation by using Equation 2.
  • Equation 2 implements a function of increasing the random operation rate at the beginning of learning and decreasing the rate as learning progresses.
  • t denotes time
  • the sensitive traffic signal control apparatus 100 may perform the signal control operation randomly. have.
  • the sensitive traffic signal control apparatus 100 performs the selected target signal control operation.
  • the sensitive traffic signal control apparatus 100 updates the compensation value based on the change in the number of waiting and approaching vehicles according to the target signal control operation.
  • the sensitive traffic signal control apparatus 100 may update the compensation value by comparing the current waiting and approaching vehicle number with the previous waiting and approaching vehicle number according to the result of performing the target signal control operation.
  • the sensitive traffic signal control apparatus 100 determines a compensation value in advance when the current waiting and approaching vehicles are longer than the previous waiting and approaching vehicles (that is, when the number of previous waiting and approaching vehicles is short). Set to a first value (eg, a positive +1 value).
  • a second value (for example, a positive number) is determined in advance. -1 value).
  • the sensitive traffic signal control apparatus 100 may determine a compensation value in advance to a third value (for example, Set to 0).
  • the sensitive traffic signal control apparatus 100 stores a plurality of intersection images as a current traffic state after performing a target signal control operation.
  • the sensitive traffic signal control apparatus 100 is a state transition experience example according to the traffic state change according to performing the target signal control operation ( ) Is stored in the reproduction memory.
  • the signal control operation taken below represents a target signal control operation, Is After performing the compensation value, Is After performing the operation, the intersection image including the changed traffic state information is displayed.
  • the sensitive traffic signal control apparatus 100 may delete the longest stored example among the state transition experience examples to secure a memory space.
  • step 240 the adaptive traffic signal control apparatus 100 selects some of the state transition experience examples stored in the reproducing memory for reinforcement learning to perform the learning of the signal controller.
  • step 245 the sensitive traffic signal control apparatus 100 updates the parameter value of the evaluation function by using the compensation value and the evaluation function value based on the stochastic gradient descent method.
  • the objective function of the Q-learning algorithm can be represented in the form of a very simple least square method as shown in Equation (3).
  • SGD Stochastic gradient descent
  • SGD stochastic gradient descent method
  • the Q-learning algorithm does not always guarantee convergence to a global minimum when the Q-function is approximated by a nonlinear function, and is likely to be blocked in local minimization.
  • Reinforcement learning-based algorithms have the disadvantage of being able to automatically receive training examples as the algorithm is executed, while avoiding correlation between successive examples.
  • the adaptive traffic signal control apparatus 100 applied the following three measures.
  • the weight parameter of the target evaluation function is not updated every time interval, but is fixed for a long time until updated. However, when the target evaluation function is updated at a long period, the weight parameters may be set as the weight parameter of the main evaluation function at the time interval at that time.
  • Equation 3 is rearranged as in Equation 4.
  • I is a weight parameter of the target evaluation function, and represents a fixed value.
  • state transition experience examples at each time interval are stored in a reproducing memory with a certain size rather than being used immediately.
  • a certain number of state transition experience examples stored in the reproduction memory are randomly selected for updating the weight parameter.
  • the sensitive traffic signal control apparatus 100 may update the parameter value of the evaluation function by using the compensation value and the evaluation function value based on the stochastic gradient descent method.
  • the stochastic gradient descent method may be performed on the state transition experience examples stored in the reproduction memory. If this is rearranged by the equation (5).
  • M represents the number of mini deployment examples for state transition experience examples
  • j represents the index of state transition experience examples
  • the sensitive traffic signal control apparatus 100 may update every predetermined time interval C without performing traffic signal control every time.
  • FIG. 5 is a block diagram schematically illustrating a configuration of an apparatus for controlling an inductive traffic signal according to an embodiment of the present invention.
  • the sensitive signal control apparatus 100 includes a deep CNN model unit 510, a learner 515, a signal controller 520, and a memory 525. It is composed.
  • the deep CNN model unit 510 receives a plurality of intersection images including a current traffic state and approximates an evaluation function of cumulative expected compensation according to a traffic state change for each of the current traffic state and each signal control operation pair. Output each value (Q-function).
  • the deep CNN model unit 510 receives a plurality of consecutive intersection images, and based on a traffic state change of the plurality of consecutive intersection images, the current traffic state and each signal control operation pair for each pair.
  • the estimated value of the estimated function based on the change in the number of waiting and approaching vehicles (cumulative expectation compensation) according to the predicted traffic condition is predicted and output.
  • the signal controller 520 functions to control traffic signals by selecting and executing a signal control operation corresponding to a maximum value among evaluation function values derived corresponding to each signal control operation as a target signal control operation.
  • the signal controller 520 may be connected to an apparatus for controlling a real traffic light and output a signal control operation as a control signal.
  • the learning unit 515 updates the compensation value using the intersection waiting and the number of approach vehicles according to the execution of the target signal control operation, and uses the compensation value and the evaluation function value according to each signal control operation to calculate the parameter value of the evaluation function. Function to update.
  • the learner 515 does not learn by using the actual intersection image obtained in every hour period in real time. However, the learning unit 515 may reinforce the learning by randomly selecting some of the state transition experience examples after storing the state transition experience examples in the reproduction memory every hour.
  • the state transition experience example may include a previous traffic state, a signal control operation taken in the previous traffic state, a compensation value according to the signal control operation, and a current traffic state according to the signal control operation.
  • the previous traffic state and the current traffic state may each be a plurality of consecutive intersection images.
  • the learning unit 515 randomly selects some of the state transition examples stored in the reproduction memory based on the stochastic gradient method and uses the compensation value and the evaluation function value to determine the parameters of the evaluation function. You can update the value.
  • the memory 525 is a means for storing various algorithms, data, data derived from this process, etc. necessary for performing the method for controlling the sensitive traffic signal according to an embodiment of the present invention.
  • the memory 525 may also include a reproduction memory.
  • each component can be identified as a respective process.
  • the process of the above-described embodiment can be easily understood in terms of the components of the apparatus.
  • the technical contents described above may be embodied in the form of program instructions that may be executed by various computer means and may be recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

감응식 교통 신호 제어 방법 및 그 장치가 개시된다. 감응식 교통 신호 제어 방법은, (a) 현재 교통 상태를 포함하는 복수의 교차로 이미지를 딥 CNN(deep CNN) 모델에 입력함으로써, 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 단계;(b) 상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하는 단계; (c) 상기 선택된 타겟 신호 제어 동작을 실행하는 단계; (d) 상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하는 단계; 및 (e) 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 단계를 포함한다.

Description

감응식 교통 신호 제어 방법 및 그 장치
본 발명은 감응식 교통 신호 제어 방법 및 그 장치에 관한 것이다.
기술 발전에 따라 급격하게 인공 지능 기술이 발전하고 있으며, 이러한 인공 지능은 방대한 빅데이터를 처리하여 학습을 통해 다양한 문제를 해결하는 방향으로 진화되고 있다.
반면, 현대 산업의 발달로 차량이 급격하게 증가되고 있으며, 제한된 도로 상황과 획일적인 교통 신호체계로 인해 교차로에서의 지정체 문제가 심각한 사회 문제로 대두되고 있다. 현재, 교차로에서의 가장 큰 문제는 획일적으로 운영되는 고정식 교통 신호 체계에 그 문제점이 있다.
따라서, 인공 지능 기술을 접목하여 교통 상태를 정확하게 판단하여 감응적으로 교통 신호를 제어하기 위한 방안이 필요하다.
본 발명은 복잡한 장비 없이 연속되는 복수의 교차로 이미지를 이용하여 감응식으로 교통 신호를 제어할 수 있는 감응식 교통 신호제어 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 감응식 신호교차로 제어의 핵심인 교통상태 계측에 있어 교통량, 속도, 밀도, 지체시간, 대기행렬길이 등 정확한 측정이 어려운 기존 교통 파라미터를 대신하여 복수의 교차로 이미지를 통해 교통제어기가 인간의 상태감지능력 이상을 발휘하도록 함으로써, 고정식 신호운영 및 기존 감응식 신호제어의 한계를 극복하고 교차로 교통체증을 해소하는데 의의가 있다.
또한, 본 발명은 교통신호기에 인공지능 기능을 부여함으로써 인간의 상태 감지능력 이상을 발휘하도록 하여 교차로 혼잡을 최소하기 위한 감응식 교통 신호제어 방법 및 그 장치를 제공하기 위한 것이다.
본 발명의 일 측면에 따르면, 복잡한 장비 없이 연속되는 복수의 교차로 이미지를 이용하여 감응식으로 교통 신호를 제어할 수 있는 감응식 교통 신호 제어 방법이 제공된다.
본 발명의 일 실시예에 따르면, 현재 교통 상태를 포함하는 복수의 교차로 이미지를 딥 CNN(deep CNN) 모델에 입력함으로써, 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 단계; (b) 상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하는 단계; (c) 상기 선택된 타겟 신호 제어 동작을 실행하는 단계; (d) 상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하는 단계; 및 (e) 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 단계를 포함하는 감응식 교통 신호 제어 방법이 제공될 수 있다.
상기 (e) 단계 이전에, 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화를 포함하는 복수의 교차로 이미지를 현재 교통 상태로 갱신하는 단계; 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화에 대한 상태 전이 경험 예제를 재현 메모리에 저장하는 단계; 및 상기 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 랜덤하게 실행하는 단계를 포함하되, 상기 (e) 단계는 확률적경사하강법에 기초하여 상기 평가 함수의 파라미터값을 갱신할 수 있다.
상기 상태 전이 경험 예제는 이전 교통 상태, 이전 교통 상태에서 취해진 신호 제어 동작, 상기 신호 제어 동작에 따른 교통 상태 변화에 대한 보상값, 이전 신호 제어 동작의 결과인 현재 교통 상태를 포함하되, 상기 이전 교통 상태 및 상기 현재 교통 상태는 상기 신호 제어 동작 실행 전 후의 교차로 이미지이다.
상기 (a) 단계에서, 상기 딥 CNN 모델은, 단위 교차로에 인접한 다른 교차로 이미지를 더 이용하여 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대해 인접한 다른 교차로의 교통 상태를 더 고려하여 각각의 평가 함수값을 출력할 수 있다.
상기 딥 CNN 모델은 입력층 및 복수의 은닉층을 가질 수 있다. 상기 딥 CNN 모델은 상기 현재 교통 상태에 대한 복수의 교차로 이미지를 입력받는 입력층; a x a(자연수) 크기의 복수의 컨볼류션 커널(convolution kernel)을 포함하고, 제1 건너뛰기(stride)가 적용되는 복수의 컨볼류션 커널을 상기 교차로 이미지에 적용하여 컨볼류션 연산을 수행하여 제1 특징맵을 출력하는 제1 은닉층(hidden layer); 상기 제1 특징 맵에 대해 b x b(자연수) 크기의 복수의 컨볼류션 커널을 포함하고, 제1 건너뛰기(stride)가 적용되는 복수의 컨볼류션 커널을 제1 특징맵에 적용하여 컨볼류션 연산을 수행하여 제2 특징맵을 출력하는 제2 은닉층; c x c(자연수) 크기의 복수의 컨볼류션 커널을 포함하며, 제2 건너뛰기가 적용되는 복수의 컨볼류션 커널을 상기 제2 특징맵에 적용하여 컨볼류션 연산을 수행하여 제3 특징맵을 출력하는 제3 은닉층; n(자연수)개의 노드를 포함하고, 상기 제3 특징맵을 풀링(pooling)하는 제4 은닉층; 및 각 신호 제어 동작에 상응하는 k(자연수)개의 노드를 포함하는 출력층을 포함하되, 상기 제4 은닉층의 n개의 노드는 상기 출력층의 k개의 노드와 각각 모두 연결되며, 상기 출력층은 선형적으로 활성화될 수 있다.
상기 재현 메모리가 풀(Full) 상태이면, 상기 상태 전이 경험 예제들 중 가장 오래전에 저장된 상태 전이 경험 예제를 삭제하는 단계를 더 포함할 수 있다.
상기 평가 함수값은 강화 학습 알고리즘에 기반한 근사화된 Q-함수(function)으로 도출될 수 있다.
상기 (d) 단계는, 상기 타겟 신호 제어 동작 실행에 따른 교차로 접근로의 대기 및 접근 차량수가 증가하여 변화하는 경우, 상기 보상값을 미리 지정된 제1 값(양수 +1)으로 설정하는 단계; 상기 타겟 신호 제어 동작 실행에 따른 교차로 접근로의 대기 및 접근 차량수가 감소하여 변화하는 경우, 상기 보상값을 미리 지정된 제2 값(양수 -1)으로 설정하는 단계; 및 상기 대기 및 접근 차량수 변화가 없는 경우, 상기 보상값을 미리 지정된 제3값(0)으로 설정하는 단계를 포함할 수 있다.
이와 관련하여, 교차로 접근로의 대기 및 접근차량수의 측정을 위한 제2 딥 CNN 모델을 포함할 수 있으며, 이때 모형의 구조는 상기 평가함수 근사를 위한 딥 CNN 모델과 유사한 구조를 가질 수 있다. 제2 딥 CNN 모델의 훈련을 위해서는 신호제어를 위한 실시간 이미지와 별도로 제어 대상 교차로 각 접근로의 스냅 이미지를 사전 수집하여 지도형 기계학습방법에 따라 사전 시행한다.
본 발명의 다른 측면에 따르면, 복잡한 장비 없이 연속되는 복수의 교차로 이미지를 이용하여 감응식으로 교통 신호를 제어할 수 있는 감응식 교통 신호 제어 장치가 제공된다.
본 발명의 일 실시예에 따르면, 현재 교통 상태를 포함하는 복수의 교차로 이미지를 입력받아 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 딥 CNN 모델부; 상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하여 실행함으로써 교통 신호를 제어하는 신호 제어부; 및 상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하고, 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 학습부를 포함하는 감응식 교통 신호 제어 장치가 제공될 수 있다.
상기 신호 제어부는, 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화를 포함하는 복수의 교차로 이미지를 현재 교통 상태로 갱신하여 상기 딥 CNN 모델로 입력할 수 있다.
상기 학습부는, 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화에 대한 상태 전이 경험 예제를 재현 메모리에 저장하고, 상기 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 랜덤하게 추출하여 학습한 후 확률적경사하강법에 기초하여 상기 보상값 및 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신할 수 있다.
상기 딥 CNN 모델부는, 단위 교차로에 인접한 다른 교차로 이미지를 더 이용하여 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대해 인접한 다른 교차로의 교통 상태를 더 고려하여 각각의 평가 함수값을 출력할 수 있다.
상기 신호 제어부는, 상기 평가 함수값 및 상기 보상값을 이용하여 상기 타겟 신호 제어 동작의 실행 시간을 상이하게 결정할 수 있다.
상기 학습부는, 상기 재현 메모리가 풀(FULL)이면, 상기 상태 전이 경험 예제들 중 가장 오래전에 저장된 상태 전이 경험 예제를 삭제할 수 있다.
본 발명의 일 실시예에 따른 감응식 교통 신호제어 방법 및 그 장치를 제공함으로써, 복잡한 장비 없이 연속되는 복수의 교차로 이미지를 이용하여 감응식으로 교통 신호를 제어할 수 있는 감응식 교통 신호 제어가 가능한 이점이 있다.
또한, 본 발명은 교통신호기에 인공지능 기능을 부여함으로써 인간의 상태 감지능력 이상을 발휘하도록 하여 교차로 혼잡을 최소화 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 시스템을 설명하기 위해 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 감응식 교차로 제어 방법을 나타낸 순서도.
도 3은 본 발명의 일 실시예에 따른 딥 CNN 모델의 아키텍쳐를 나타낸 도면.
도 4는 본 발명의 일 실시예에 따른 교차로 이미지와 애니메이션화된 교차로 이미지를 나타낸 도면.
도 5는 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치의 구성을 개략적으로 도시한 블록도.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 시스템을 설명하기 위해 도시한 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치(100)는 현재 교통 상태를 포함하는 교차로 이미지를 입력받아 강화 학습(RL: Reinforcement Learning)과 딥러닝(CNN: Convolution Neural Network)을 이용하여 시행착오를 통한 강화학습을 통해 스스로 진화하는 감응식 교통 제어가 가능하다.
이로 인해, 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 시스템은 복잡하고 값비싼 교통검지장치를 필요로 하지 않으며, 단지 교통 상태를 포함하는 교차로 이미지를 입력 받음으로써, 교통 상태를 인지하여 감응식 교통 신호 제어가 가능하다.
본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치(100)는 현재 교통 상태를 포함하는 교차로 이미지를 입력받아 강화 학습과 딥 CNN에 기반하여 현재 대기 및 접근 차량수보다 미래의 대기 및 접근 차량수가 적어질 것으로 예상되는 신호 제어 동작을 선택할 수 있다.
이어, 인공 지능 신호 제어 장치(100)는 선택된 신호 제어 동작을 수행한 후 그 결과에 따른 보상을 입력받아 강화 학습함으로써, 교차로 교통 상태에 따라 감응식으로 교통 신호를 제어할 수 있다.
이하 도 2를 참조하여 감응식 교통 신호 제어 장치(100)에서 감응식으로 교통 신호를 제어하는 방법에 대해 보다 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 감응식 교차로 제어 방법을 나타낸 순서도이고, 도 3은 본 발명의 일 실시예에 따른 딥 CNN 모델의 아키텍쳐를 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따른 교차로 이미지와 애니메이션화된 교차로 이미지를 나타낸 도면이다.
단계 210에서 감응식 교통 신호 제어 장치(100)는 현재 교통 상태 정보를 포함하는 교차로 이미지를 입력받고, 이를 이용하여 현재 교통 상태 정보에 기반한 각 신호 제어 동작에 대한 누적기대보상의 평가 함수값을 예측한다.
본 발명의 일 실시예에서는 평가 함수값 예측을 위해 강화 학습에 기반한 딥 CNN(deep convolutional neural network) 모델을 이용한다.
도 3에는 본 발명의 일 실시예에 따른 딥 CNN의 구조가 예시되어 있다.
본 발명의 일 실시예에 따른 딥 CNN 모델은 현재 교통 상태를 포함하는 복수의 교차로 이미지를 입력받고, 이를 컨볼류션 연산 및 서브 샘플링하는 복수의 단계를 수행하여 최종적으로 각 신호 제어 동작 각각에 대한 평가 함수값을 출력한다.
본 발명의 일 실시예에 따른 딥 CNN 모델은 실제 교차로를 대상으로 교통신호 제어기를 학습시키기 전에 시뮬레이션을 통해 이를 대신할 수 있다. 즉, 현재 교통 상태를 포함하는 교차로 이미지를 그대로 이용하지 않고, 시뮬레이션을 통한 교차로 애니메이션 샷(shoot)을 상태 이미지로 사용할 수 있다. 이를 통해, 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치(100)는 시행착오가 수반되는 학습기간에 나타날 수 있는 비정상적인 교차로 지체에 대한 시민 부담을 덜 수 있다.
도 4에는 실제 교차로 이미지와 교차로 이미지를 애니메이션화한 단순 이미지가 각각 도시되어 있다. 실제 교차로에 대한 적응을 위한 사전 학습에서는 가상현실에 가까운 애니메이션을 이용함으로써 현실 이미지와의 차이를 최소화할 수 있다.
이하, 도 3을 참조하여 본 발명의 일 실시예에 따른 딥 CNN 모델의 아키텍쳐에 대해 간략하게 설명하기로 한다.
본 발명의 일 실시예에 따른 딥 CNN 모델은 도 3에 도시된 바와 같이, 입력층, 제1 은닉층(convolution hidden layer), 제2 은닉층, 제3 은닉층, 제4 은닉층 및 출력층으로 구성된다.
입력층은 이미 전술한 바와 같이, 복수의 교차로 이미지를 입력받는다.
제1 은닉층은 a x a(자연수) 크기의 복수의 컨볼루션 커널(convolution kernel)을 포함한다. 제1 은닉층은 복수의 컨볼루션 커널을 통해 복수의 교차로 이미지에 대해 직접적으로 컨볼루션 연산을 수행한다. 이때, 제1 은닉층은 복수의 컨볼루션 커널을 수행함에 있어, 교차로 이미지를 제1 건너뛰기(stride) 단위로 픽셀을 건너뛰며 컨볼루션 커널을 수행할 수 있다.
제1 은닉층에서 복수의 교차로 이미지를 컨볼루션 연산한 결과를 제1 특징맵이라 칭하기로 한다.
제1 은닉층의 경우, 컨볼루션 커널(필터)의 크기는 예를 들어, 8 x 8일 수 있으며, 제1 건너뛰기(stride) 사이즈는 4 x 4일 수 있다.
제2 은닉층은 b x b(자연수) 크기의 복수의 컨볼루션 커널을 포함한다. 제2 은닉층은 b x b 크기의 복수의 컨볼루션 커널을 제1 특징맵에 적용하여 컨볼루션 연산을 수행함으로써 제2 특징 맵을 출력한다.
제2 은닉층의 건너뛰기 사이즈는 제1 은닉층과 동일할 수 있다. 물론, 구현 방법에 따라 건너뛰기 사이즈는 상이하게 설정될 수도 있다.
제3 은닉층은 c x c(자연수) 크기의 복수의 컨볼루션 커널을 포함하고, c x c 크기의 복수의 컨볼루션 커널을 제2 특징맵에 적용하여 컨볼루션 연산을 수행함으로써 제3 특징맵을 출력할 수 있다. 제3 은닉층의 건너뛰기 사이즈는 제1 은닉층 및 제2 은닉층과는 상이하게 설정된다. 예를 등러, 제3 은닉층의 건너뛰기 사이즈는 1 x 1일 수 있다.
제4 은닉층은 n(자연수)개의 노드를 포함하며, 제3 특징맵을 풀링(pooling)한다. 제4 은닉층의 n개의 노드는 출력층의 k개의 노드와 완전히 연결(full connection)되어 있다.
출력층은 k개의 노드를 포함한다. 출력층에 포함되는 각 노드는 각 신호 제어 동작에 상응하도록 설정된다. 보다 상세하게, 출력층에 포함되는 각 노드는 각 신호 제어 동작에 상응하는 평가 함수값을 출력한다.
이때, 출력층에 포함되는 각 노드는 선형적으로 활성화될 수 있다.
다시 설명하면, 딥 CNN 모델은 복수의 교차로 이미지를 입력받아 현재 교통 상태와 각 신호 제어 동작 페어 각각에 대한 교통 상태 변화에 대한 누적기대보상에 따른 평가 함수값을 각각 출력할 수 있다.
여기서, 평가 함수값은 강화 학습에 기반한 Q-함수(function)의 값일 수 있다.
강화 학습에 기반한 Q-함수(function)는 수학식 1과 같이 나타낼 수 있다.
Figure PCTKR2017008592-appb-M000001
여기서,
Figure PCTKR2017008592-appb-I000001
는 t시간에서의 교통 상태를 나타내며,
Figure PCTKR2017008592-appb-I000002
Figure PCTKR2017008592-appb-I000003
에서 취해지는 동작(즉, 신호 제어 동작)을 나타내고,
Figure PCTKR2017008592-appb-I000004
Figure PCTKR2017008592-appb-I000005
이후에 보상을 나타내며,
Figure PCTKR2017008592-appb-I000006
는 보상을 위한 할인율(discount rate)을 나타내며,
Figure PCTKR2017008592-appb-I000007
는 Q-함수(function)를 나타내고,
Figure PCTKR2017008592-appb-I000008
는 평균을 나타내는 기호이다.
본 발명의 일 실시예에 따르면, 감응식 교통 신호 제어 장치(100)는 교통 상태에 따른 교통 신호 제어 동작에 따른 경험을 축적함에 따라 최적의 평가 함수값을 찾아갈 수 있다.
본 발명의 일 실시예에서는 Q-학습 알고리즘에 기반한 강화 학습의 평가 함수를 그대로 이용하지 않고 가중치 파라미터에 기반하여 근사화된 평가 함수(
Figure PCTKR2017008592-appb-I000009
)를 도입하는데, 이 근사함수로 딥 CNN 모델을 채택한다.
따라서, 딥 CNN은 현재 교통 상태를 포함하는 실제 또는 애니메이션화된 교차로 이미지를 입력받고, 딥 CNN 모델을 통해 각 신호 제어 동작에 대해 근사화된 평가 함수값을 출력한다.
도 2에서는 감응식 교통 신호 제어 장치(100)가 하나의 딥 CNN 모델을 구비하고, 이를 기반으로 각 신호 제어 동작에 따른 근사화된 평가 함수값을 예측하여 출력하는 것을 중심으로 설명하였다.
다른 예를 들어, 감응식 교통 신호 제어 장치(100)는 다른 딥 CNN 모델(제2 딥 CNN 모델)을 더 구비할 수도 있다. 제2 딥 CNN 모델은 교차로 접근로의 대기 및 접근 차량 수를 측정할 수 있다. 제2 딥 CNN 모델의 구조는 평가 함수값을 예측하여 출력하는 딥 CNN 모델과 유사한 구조를 가질 수 있다. 제2 딥 CNN 모델의 훈련을 위해서는 신호제어를 위한 실시간 이미지와는 별도로 제어 대상 교차로 각 접근로의 스냅 이미지를 사진 수집하여 지도형 기계학습방법에 따라 사전 시행할 수 있다.
단계 215에서 감응식 교통 신호 제어 장치(100)는 현재 교통 상태와 각 신호 제어 동작 페어 각각에 대해 도출된 평가 함수값들 중 최대값에 대응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택한다.
여기서, 감응식 교통 신호 제어 장치(100)가 학습기간에 다양한 상태를 경험할 수 있도록 교통 신호 제어를 랜덤하게 수행할 수도 있다.
즉, 감응식 교통 신호 제어 장치(100)는 랜덤 동작시에 대한 확률값을 수학식 2를 이용하여 계산할 수 있다. 수학식 2를 통해 학습 초기에는 랜덤 동작 비율을 높게하고 학습이 진행됨에 따라 그 비율을 낮추는 기능을 구현한다.
Figure PCTKR2017008592-appb-M000002
여기서,
Figure PCTKR2017008592-appb-I000010
는 초기 확률값을 나타내고,
Figure PCTKR2017008592-appb-I000011
는 최종 확률값을 나타내며,
Figure PCTKR2017008592-appb-I000012
는 확률값의 감쇄 파라미터를 나타내며, t는 시간을 나타낸다.
신호 제어 동작을 시행하는 시간 주기마다 하나의 랜덤 넘버를 발생시킨 후 그 값이 수학식2에 의해 계산된 확률값 미만인 경우, 감응식 교통 신호 제어 장치(100)는 랜덤하게 신호 제어 동작을 수행할 수도 있다.
단계 220에서 감응식 교통 신호 제어 장치(100)는 선택된 타겟 신호 제어 동작을 수행한다.
단계 225에서 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작 수행에 따른 대기 및 접근 차량수 변화에 기반하여 보상값을 갱신한다.
예를 들어, 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작을 수행한 결과에 따른 현재 대기 및 접근 차량수와 이전 대기 및 접근 차량수를 비교하여 보상값을 갱신할 수 있다.
즉, 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작을 수행한 결과 현재 대기 및 접근 차량수가 이전 대기 및 접근 차량수보다 길면(즉, 이전 대기 및 접근 차량수가 짧으면) 보상값을 미리 정한 제1 값(예를 들어, 양수 +1 값)으로 설정한다.
그러나 만일 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작을 수행한 결과 현재 대기 및 접근 차량수가 이전 대기 및 접근 차량수보다 줄어들었으면, 보상값을 미리 정한 제2 값(예를 들어, 양수 -1값)으로 설정한다.
타겟 신호 제어 동작을 수행한 결과 현재 대기 및 접근 차량수와 이전 대기 및 접근 차량수간에 차이가 없는 경우, 감응식 교통 신호 제어 장치(100)는 보상값을 미리 정한 제3 값(예를 들어, 0)으로 설정한다.
단계 230에서 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작을 수행한 이후 복수의 교차로 이미지를 현재 교통 상태로 저장한다.
단계 235에서 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작 수행에 따른 교통 상태 변화에 따른 상태 전이 경험 예제(
Figure PCTKR2017008592-appb-I000013
)를 재현 메모리에 저장한다.
여기서,
Figure PCTKR2017008592-appb-I000014
는 타겟 신호 제어 동작 수행 이전의 교통 상태를 포함하는 교차로 이미지이고,
Figure PCTKR2017008592-appb-I000015
Figure PCTKR2017008592-appb-I000016
하에서 취해진 신호 제어 동작으로 타겟 신호 제어 동작을 나타내며,
Figure PCTKR2017008592-appb-I000017
Figure PCTKR2017008592-appb-I000018
수행 후 보상값을 나타내고,
Figure PCTKR2017008592-appb-I000019
Figure PCTKR2017008592-appb-I000020
를 수행한 후 변화된 교통 상태 정보를 포함하는 교차로 이미지를 나타낸다.
이때, 감응식 교통 신호 제어 장치(100)는 재현 메모리가 풀(FULL)이면, 상태 전이 경험 예제들 중 가장 오래전에 저장된 예제를 삭제하여 메모리 공간을 확보할 수 있다.
단계 240에서 감응식 교통 신호 제어 장치(100)는 강화 학습을 위해, 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 선택하여 신호제어기의 학습을 시행한다.
단계 245에서 감응식 교통 신호 제어 장치(100)는 확률적경사하강법에 기초하여 보상값 및 평가 함수값을 이용하여 평가 함수의 파라미터값을 강화하여 갱신한다.
Q-학습 알고리즘의 목적 함수는 수학식 3과 같이 매우 간단한 최소제곱법의 형태로 나타낼 수 있다.
Figure PCTKR2017008592-appb-M000003
여기서,
Figure PCTKR2017008592-appb-I000021
는 근사화된 평가 함수(Q-function), 즉 딥 CNN을 나타내고,
Figure PCTKR2017008592-appb-I000022
는 평가 함수의 가중치 파라미터 집합을 나타낸다.
확률적경사하강법(SGD)는 수학식 2의 목적 함수를 최소화하기 위해 가장 적합한 알고리즘이다.
확률적경사하강법(SGD)는 단일 예제로 간주되는 각 시간 간격에서,
Figure PCTKR2017008592-appb-I000023
의 필요한 페어를 포함하는 MDP 문제의 목적 함수를 최소화하기에 가장 적합하다. 여기서,
Figure PCTKR2017008592-appb-I000024
는 다음 교통 상태를 나타내고,
Figure PCTKR2017008592-appb-I000025
는 교통 상태에 따른 가능한 신호 제어 동작을 나타내며,
Figure PCTKR2017008592-appb-I000026
는 보상값을 나타낸다.
만약 일반적인 경사하강법(GD)을 사용한다면 상태 전이 경험 예제(
Figure PCTKR2017008592-appb-I000027
)의 모든 가능한 조합을 통해 수학식 2의 목적함수의 평균을 계산해야 하는 부담이 있지만, 확률적경사하강법(SGD)를 적용하면 수학식2의 목적 함수를 평균으로 계산할 필요가 없어지는 장점을 갖게 된다.
그러나, Q-학습 알고리즘이 평가 함수(Q-function)가 비선형 함수에 의해 근사화되었을 때 항상 전역적 최소값으로의 수렴을 보증하지는 않으며, 국부적 최소화에서 막힐 가능성이 있다.
강화 학습 기반 알고리즘은 알고리즘이 실행됨으로써 자동적으로 훈련 예제들을 수신할 수 있는 반면, 연속으로 얻어지는 예제들간의 상관을 피하기 어려운 단점을 가지고 있다.
또한, 전역해 찾기에 불안정성을 야기하는 또 다른 원인은 전후 평가함수 사이의 구조적 상관관계에 있다. 따라서, 이러한 문제를 해결하기 위해, 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치(100)는 다음의 세가지 척도를 적용하였다.
우선, 타겟 평가 함수와 갱신될 메인 평가 함수를 분리한다. 타겟 평가 함수의 가중치 파라미터는 매 시간 간격마다 갱신되지 않고, 갱신될때까지 장기간 고정된다. 다만, 장기간 주기로 타겟 평가 함수가 갱신될 때, 가중치 파라미터들을 그 당시의 시간 간격에서 메인 평가 함수의 가중치 파라미터로 설정될 수 있다.
수학식 3을 다시 정리하면 수학식 4과 같다.
Figure PCTKR2017008592-appb-M000004
여기서,
Figure PCTKR2017008592-appb-I000028
는 타겟 평가 함수의 가중치 파라미터로, 고정된 값을 나타낸다.
두번째, 각 시간 간격에서의 상태 전이 경험 예제들이 즉각적으로 이용되기 보다는 일정 크기를 갖는 재현 메모리에 저장된다. 가중치 파라미터의 갱신을 위해 재현 메모리에 저장된 일정 수의 상태 전이 경험 예제들이 랜덤하게 선택된다. 다시, 정리하면, 감응식 교통 신호 제어 장치(100)는 확률적경사하강법에 기초하여 보상값 및 평가 함수값을 이용하여 평가 함수의 파라미터값을 강화하여 갱신할 수 있다. 이때, 확률적경사하강법은 재현 메모리에 저장된 상태 전이 경험 예제들을 대상으로 수행될 수 있다. 이를 수식으로 다시 정리하면 수학식 5와 같다.
Figure PCTKR2017008592-appb-M000005
여기서, M은 상태 전이 경험 예제들에 대한 미니 배치 예제들의 개수를 나타내고, j는 상태 전이 경험 예제들의 인덱스를 나타낸다.
Figure PCTKR2017008592-appb-I000029
는 상태 전이 경험 예제에서 이전 신호 제어 동작에 의한 결과 상태 이미지를 나타내고,
Figure PCTKR2017008592-appb-I000030
는 타겟 평가함수의 최대값을 얻기 위한 실행 가능한 신호 동작 변수를 나타낸다.
또한, 감응식 교통 신호 제어 장치(100)는 타겟 평가 함수의 파라미터값을 갱신함에 있어, 교통 신호 제어가 수행되는 매 시간마다 수행하지 않고, 일정 시간 간격(C)마다 갱신할 수 있다.
이에 대해서는 이미 전술한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
도 5는 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치의 구성을 개략적으로 도시한 블록도이다.
도 5를 참조하면, 본 발명의 일 실시예에 따른 감응식 신호 제어 장치(100)는 딥 CNN 모델부(510), 학습부(515), 신호 제어부(520) 및 메모리(525)를 포함하여 구성된다.
딥 CNN 모델부(510)는 현재 교통 상태를 포함하는 복수의 교차로 이미지를 입력받아 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력한다.
예를 들어, 딥 CNN 모델부(510)는 연속된 복수의 교차로 이미지를 입력받고, 연속된 복수의 교차로 이미지의 교통 상태 변화에 기반하여 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 예견되는 교통 상태 변화에 따른 대기 및 접근 차량수 변화(누적기대보상)에 기반한 근사화된 평가 함수값을 예측하여 출력한다.
이는 도 2 및 도 3에서 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
신호 제어부(520)는 각 신호 제어 동작에 상응하여 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하여 실행함으로써 교통 신호를 제어하는 기능을 한다. 이러한, 신호 제어부(520)는 실제 신호등 제어를 위한 장치와 연결되어 신호 제어 동작을 제어 신호로써 출력할 수 있다.
학습부(515)는 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하고, 보상값과 각 신호 제어 동작에 따른 평가 함수값을 이용하여 평가 함수의 파라미터값을 갱신하는 기능을 한다.
학습부(515)는 매시간 주기로 얻어지는 실제 교차로 이미지를 실시간으로 이용하여 학습하지는 않는다. 다만, 학습부(515)는 매시간 재현 메모리에 상태 전이 경험 예제를 각각 저장한 후 상태 전이 경험 예제들 중 일부를 랜덤하게 선택하여 강화 학습할 수 있다.
상태 전이 경험 예제는 이미 전술한 바와 같이, 이전 교통 상태, 이전 교통 상태에서 취해진 신호 제어 동작, 신호 제어 동작에 따른 보상값, 신호 제어 동작 수행에 따른 현재 교통 상태를 포함할 수 있다.
이미 전술한 바와 같이, 이전 교통 상태 및 현재 교통 상태는 각각 연속된 복수의 교차로 이미지일 수 있다.
본 발명의 일 실시예에 따른 학습부(515)는 확률적경사하강법에 기초하여 재현 메모리에 저장된 상태 전이 예제들 중 일부를 랜덤하게 선택하여 보상값 및 평가 함수값을 이용하여 평가 함수의 파라미터값을 갱신할 수 있다.
이에 대해서는 이미 도 2를 참조하여 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
메모리(525)는 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 방법을 수행하기 위해 필요한 다양한 알고리즘, 데이터, 이 과정에서 파생되는 데이터 등을 저장하기 위한 수단이다. 또한, 메모리(525)는 재현 메모리를 포함할 수도 있다.
한편, 전술된 실시예의 구성 요소는 프로세스적인 관점에서 용이하게 파악될 수 있다. 즉, 각각의 구성 요소는 각각의 프로세스로 파악될 수 있다. 또한 전술된 실시예의 프로세스는 장치의 구성 요소 관점에서 용이하게 파악될 수 있다.
또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (16)

  1. (a) 현재 교통 상태를 포함하는 복수의 교차로 이미지를 딥 CNN(deep CNN) 모델에 입력함으로써, 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 단계;
    (b) 상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하는 단계;
    (c) 상기 선택된 타겟 신호 제어 동작을 실행하는 단계;
    (d) 상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하는 단계; 및
    (e) 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 단계를 포함하는 감응식 교통 신호 제어 방법.
  2. 제1 항에 있어서,
    상기 (e) 단계 이전에,
    상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화를 포함하는 복수의 교차로 이미지를 현재 교통 상태로 갱신하는 단계;
    상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화에 대한 상태 전이 경험 예제를 재현 메모리에 저장하는 단계; 및
    상기 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 랜덤하게 추출하는 단계를 포함하되,
    상기 (e) 단계는 확률적경사하강법에 기초하여 상기 평가 함수의 파라미터값을 갱신하는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
  3. 제2 항에 있어서,
    상기 상태 전이 경험 예제는 이전 교통 상태, 이전 교통 상태에서 취해진 신호 제어 동작, 상기 신호 제어 동작에 따른 교통 상태 변화에 대한 보상값, 현재 교통 상태를 포함하되,
    상기 이전 교통 상태 및 상기 현재 교통 상태는 상기 신호 제어 동작 실행 전 후의 교차로 이미지인 것을 특징으로 하는 감응식 교통 신호 제어 방법.
  4. 제1 항에 있어서,
    상기 (a) 단계에서, 상기 딥 CNN 모델은,
    단위 교차로에 인접한 다른 교차로 이미지를 더 이용하여 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대해 인접한 다른 교차로의 교통 상태를 더 고려하여 각각의 평가 함수값을 출력하는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
  5. 제1 항에 있어서,
    상기 딥 CNN 모델은,
    상기 현재 교통 상태에 대한 복수의 교차로 이미지를 입력받는 입력층;
    복수의 컨볼류션 커널(convolution kernel)을 포함하고, 지정된 건너뛰기(stride)가 적용되는 상기 복수의 컨볼류션 커널을 이미지에 적용하여 컨볼류션 연산을 수행하는 복수의 은닉층(hidden layer); 및
    각 신호 제어 동작에 상응하는 k(자연수)개의 노드를 포함하는 출력층을 포함하되,
    상기 출력층에 포함되는 k개의 노드는 상기 복수의 은닉층 중 가장 마지막 은닉층에 포함되는 복수의 노드와 각각 모두 연결되며, 상기 출력층의 k개의 노드는 각각 선형적으로 활성화되는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
  6. 제5 항에 있어서,
    상기 복수의 은닉층은,
    a x a(자연수) 크기의 복수의 컨볼류션 커널(convolution kernel)을 포함하고, 제1 건너뛰기(stride)가 적용되는 복수의 컨볼류션 커널을 상기 교차로 이미지에 적용하여 컨볼류션 연산을 수행하여 제1 특징맵을 출력하는 제1 은닉층(hidden layer);
    상기 제1 특징 맵에 대해 b x b(자연수) 크기의 복수의 컨볼류션 커널을 포함하고, 제1 건너뛰기(stride)가 적용되는 복수의 컨볼류션 커널을 제1 특징맵에 적용하여 컨볼류션 연산을 수행하여 제2 특징맵을 출력하는 제2 은닉층;
    c x c(자연수) 크기의 복수의 컨볼류션 커널을 포함하며, 제2 건너뛰기가 적용되는 복수의 컨볼류션 커널을 상기 제2 특징맵에 적용하여 컨볼류션 연산을 수행하여 제3 특징맵을 출력하는 제3 은닉층; 및
    n(자연수)개의 노드를 포함하고, 상기 제3 특징맵을 풀링(pooling)하는 제4 은닉층을 포함하는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
  7. 제2 항에 있어서,
    상기 재현 메모리가 풀(Full) 상태이면, 상기 상태 전이 경험 예제들 중 가장 오래전에 저장된 상태 전이 경험 예제를 삭제하는 단계를 더 포함하는 감응식 교통 신호 제어 방법.
  8. 제1 항에 있어서,
    상기 평가 함수값은 강화 학습 알고리즘에 기반한 근사화된 Q-함수(function)으로 도출되는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
  9. 제1 항에 있어서,
    상기 (d) 단계는,
    상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수가 증가하여 변화하는 경우, 상기 보상값을 제1 값으로 설정하는 단계;
    상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수가 감소하여 변화하는 경우, 상기 보상값을 제2 값으로 설정하는 단계; 및
    상기 대기 및 접근 차량수 변화가 없는 경우, 상기 보상값을 제3 값으로 설정하는 단계를 포함하는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
  10. 제1 항에 따른 방법을 수행하기 위한 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체 제품.
  11. 현재 교통 상태를 포함하는 복수의 교차로 이미지를 입력받아 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 딥 CNN 모델부;
    상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하여 실행함으로써 교통 신호를 제어하는 신호 제어부; 및
    상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하고, 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 학습부를 포함하는 감응식 교통 신호 제어 장치.
  12. 제11 항에 있어서,
    상기 신호 제어부는, 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화를 포함하는 복수의 교차로 이미지를 현재 교통 상태로 갱신하여 상기 딥 CNN 모델로 입력하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.
  13. 제11 항에 있어서,
    상기 학습부는,
    상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화에 대한 상태 전이 경험 예제를 재현 메모리에 저장하고,
    상기 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 랜덤하게 실행하여 학습한 후 확률적경사하강법에 기초하여 상기 보상값 및 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.
  14. 제11 항에 있어서,
    상기 딥 CNN 모델부는,
    단위 교차로에 인접한 다른 교차로 이미지를 더 이용하여 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대해 인접한 다른 교차로의 교통 상태를 더 고려하여 각각의 평가 함수값을 출력하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.
  15. 제11 항에 있어서,
    상기 신호 제어부는,
    상기 평가 함수값 및 상기 보상값을 이용하여 상기 타겟 신호 제어 동작의 실행 시간을 상이하게 결정하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.
  16. 제13 항에 있어서,
    상기 학습부는,
    상기 재현 메모리가 풀(FULL)이면, 상기 상태 전이 경험 예제들 중 가장 오래전에 저장된 상태 전이 경험 예제를 삭제하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.
PCT/KR2017/008592 2016-08-10 2017-08-09 감응식 교통 신호 제어 방법 및 그 장치 WO2018030772A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0101714 2016-08-10
KR1020160101714A KR101821494B1 (ko) 2016-08-10 2016-08-10 감응식 교통 신호 제어 방법 및 그 장치

Publications (1)

Publication Number Publication Date
WO2018030772A1 true WO2018030772A1 (ko) 2018-02-15

Family

ID=61029299

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/008592 WO2018030772A1 (ko) 2016-08-10 2017-08-09 감응식 교통 신호 제어 방법 및 그 장치

Country Status (2)

Country Link
KR (1) KR101821494B1 (ko)
WO (1) WO2018030772A1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147331A (zh) * 2018-10-11 2019-01-04 青岛大学 一种基于计算机视觉的道路拥堵状态检测方法
CN109697852A (zh) * 2019-01-23 2019-04-30 吉林大学 基于时序交通事件的城市道路拥堵程度预测方法
CN110176143A (zh) * 2019-06-10 2019-08-27 长安大学 一种基于深度学习算法的高速公路交通拥堵检测方法
WO2019200477A1 (en) * 2018-04-20 2019-10-24 The Governing Council Of The University Of Toronto Method and system for multimodal deep traffic signal control
CN111899537A (zh) * 2020-07-01 2020-11-06 山东摩西网络科技有限公司 一种基于边缘计算的交叉口信号控制移动调优装置和方法
CN112289045A (zh) * 2020-10-19 2021-01-29 智邮开源通信研究院(北京)有限公司 交通信号控制方法、装置、电子设备及可读存储介质
CN112489464A (zh) * 2020-11-19 2021-03-12 天津大学 一种具有位置感知的路口交通信号灯调控方法
CN112802326A (zh) * 2019-11-13 2021-05-14 北京百度网讯科技有限公司 交通方案控制方法和装置
CN113838296A (zh) * 2021-09-17 2021-12-24 中山大学 一种交通信号控制方法、装置、设备及存储介质
CN114038212A (zh) * 2021-10-19 2022-02-11 南京航空航天大学 基于双阶段注意力机制和深度强化学习的信号灯控制方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102171671B1 (ko) * 2018-08-09 2020-10-29 (주)인터아이 딥 러닝 및 인공지능 플래닝 기반 교통신호 통합제어 시스템
KR20200023697A (ko) * 2018-08-21 2020-03-06 한국과학기술정보연구원 교통상태정보를 예측하는 장치, 교통상태정보를 예측하는 방법 및 교통상태정보를 예측하는 프로그램을 저장하는 저장매체
KR102145217B1 (ko) * 2018-12-11 2020-08-18 라온피플 주식회사 교통신호 제어 장치 및 방법
KR102184914B1 (ko) * 2019-09-11 2020-12-01 중앙대학교 산학협력단 동영상을 이용한 다중 교차로 교통 신호 제어 방법 및 그 장치
KR102155055B1 (ko) * 2019-10-28 2020-09-11 라온피플 주식회사 강화학습 기반 신호 제어 장치 및 신호 제어 방법
KR102346506B1 (ko) * 2020-01-03 2022-01-03 숙명여자대학교산학협력단 강화학습 기반의 교통 신호 시간 제어 방법 및 장치
KR102336052B1 (ko) * 2020-01-31 2021-12-06 숙명여자대학교산학협력단 강화학습 기반의 교통 신호 제어 방법 및 장치
KR102346507B1 (ko) * 2020-02-04 2022-01-03 숙명여자대학교산학협력단 다중 교차로 환경에서의 강화학습 기반의 분산 교통 신호 제어 방법 및 장치
KR102493930B1 (ko) * 2020-03-30 2023-01-31 주식회사 라온로드 강화학습 기반 신호 제어 장치 및 신호 제어 방법
US20220270480A1 (en) * 2020-03-30 2022-08-25 Laon Road Inc. Signal control apparatus and method based on reinforcement learning
CN112419726B (zh) * 2020-11-20 2022-09-20 华南理工大学 一种基于交通流预测的城市交通信号控制系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950001575A (ko) * 1993-06-22 1995-01-03 기따오까 다까시 교통 수단 제어 장치
KR20000058895A (ko) * 2000-07-04 2000-10-05 정환도 유무선 통합 교통신호 제어시스템
KR20070111853A (ko) * 2006-05-19 2007-11-22 인하대학교 산학협력단 은닉노드 목표값을 가진 2 개층 신경망을 이용한 분리 학습시스템 및 방법
KR20090116172A (ko) * 2008-05-06 2009-11-11 최상우 인공지능 차량 신호등 제어장치
KR101281143B1 (ko) * 2013-02-28 2013-07-05 주식회사 포에프 영상처리 및 저장 기능 통합형 교통신호 제어기

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950001575A (ko) * 1993-06-22 1995-01-03 기따오까 다까시 교통 수단 제어 장치
KR20000058895A (ko) * 2000-07-04 2000-10-05 정환도 유무선 통합 교통신호 제어시스템
KR20070111853A (ko) * 2006-05-19 2007-11-22 인하대학교 산학협력단 은닉노드 목표값을 가진 2 개층 신경망을 이용한 분리 학습시스템 및 방법
KR20090116172A (ko) * 2008-05-06 2009-11-11 최상우 인공지능 차량 신호등 제어장치
KR101281143B1 (ko) * 2013-02-28 2013-07-05 주식회사 포에프 영상처리 및 저장 기능 통합형 교통신호 제어기

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019200477A1 (en) * 2018-04-20 2019-10-24 The Governing Council Of The University Of Toronto Method and system for multimodal deep traffic signal control
CN109147331A (zh) * 2018-10-11 2019-01-04 青岛大学 一种基于计算机视觉的道路拥堵状态检测方法
CN109147331B (zh) * 2018-10-11 2021-07-27 青岛大学 一种基于计算机视觉的道路拥堵状态检测方法
CN109697852A (zh) * 2019-01-23 2019-04-30 吉林大学 基于时序交通事件的城市道路拥堵程度预测方法
CN110176143A (zh) * 2019-06-10 2019-08-27 长安大学 一种基于深度学习算法的高速公路交通拥堵检测方法
CN112802326B (zh) * 2019-11-13 2022-03-04 阿波罗智联(北京)科技有限公司 交通方案控制方法和装置
CN112802326A (zh) * 2019-11-13 2021-05-14 北京百度网讯科技有限公司 交通方案控制方法和装置
CN111899537A (zh) * 2020-07-01 2020-11-06 山东摩西网络科技有限公司 一种基于边缘计算的交叉口信号控制移动调优装置和方法
CN111899537B (zh) * 2020-07-01 2023-03-28 山东摩西网络科技有限公司 一种基于边缘计算的交叉口信号控制移动调优装置和方法
CN112289045A (zh) * 2020-10-19 2021-01-29 智邮开源通信研究院(北京)有限公司 交通信号控制方法、装置、电子设备及可读存储介质
CN112489464A (zh) * 2020-11-19 2021-03-12 天津大学 一种具有位置感知的路口交通信号灯调控方法
CN112489464B (zh) * 2020-11-19 2022-06-28 天津大学 一种具有位置感知的路口交通信号灯调控方法
CN113838296A (zh) * 2021-09-17 2021-12-24 中山大学 一种交通信号控制方法、装置、设备及存储介质
CN114038212A (zh) * 2021-10-19 2022-02-11 南京航空航天大学 基于双阶段注意力机制和深度强化学习的信号灯控制方法

Also Published As

Publication number Publication date
KR101821494B1 (ko) 2018-01-24

Similar Documents

Publication Publication Date Title
WO2018030772A1 (ko) 감응식 교통 신호 제어 방법 및 그 장치
US10846567B2 (en) Scene understanding using a neurosynaptic system
WO2021085848A1 (ko) 강화학습 기반 신호 제어 장치 및 신호 제어 방법
WO2019168336A1 (en) Autonomous driving apparatus and method thereof
WO2019098414A1 (ko) 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
WO2019050297A1 (ko) 뉴럴 네트워크 학습 방법 및 장치
WO2019098538A1 (en) Device and method for processing convolution operation using kernel
WO2020159241A1 (ko) 이미지를 처리하기 위한 방법 및 그에 따른 장치
WO2021201569A1 (ko) 강화학습 기반 신호 제어 장치 및 신호 제어 방법
WO2022146050A1 (ko) 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
WO2020045794A1 (ko) 전자 장치 및 그 제어 방법
KR20200010655A (ko) 영상에서 객체를 인식하는 방법 및 장치
WO2022177345A1 (ko) 인공지능 기반으로 화면 정보를 인지하여 화면 상의 오브젝트에 이벤트를 발생시키는 방법 및 시스템
CN110147724A (zh) 用于检测视频中的文本区域的方法、装置、设备以及介质
EP4176393A1 (en) Systems and methods for automatic mixed-precision quantization search
WO2019240330A1 (ko) 영상 기반 힘 예측 시스템 및 그 방법
WO2019198900A1 (en) Electronic apparatus and control method thereof
WO2020141907A1 (ko) 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법
WO2019124602A1 (ko) 객체 추적 방법 및 이를 수행하는 장치들
WO2022139327A1 (en) Method and apparatus for detecting unsupported utterances in natural language understanding
WO2018084473A1 (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
WO2022055231A1 (ko) 인공신경망을 이용한 주행 차량의 차로 판단 방법과 장치 및 이를 포함하는 내비게이션 장치
WO2023085610A1 (ko) 멀티-태스크 모델의 학습을 수행하는 방법 및 전자 장치
WO2022191379A1 (ko) 텍스트 기반 관계 추출 방법 및 장치
WO2023008797A1 (ko) 전자 장치 및 전자 장치의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17839790

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17839790

Country of ref document: EP

Kind code of ref document: A1