KR102493930B1 - 강화학습 기반 신호 제어 장치 및 신호 제어 방법 - Google Patents

강화학습 기반 신호 제어 장치 및 신호 제어 방법 Download PDF

Info

Publication number
KR102493930B1
KR102493930B1 KR1020210041123A KR20210041123A KR102493930B1 KR 102493930 B1 KR102493930 B1 KR 102493930B1 KR 1020210041123 A KR1020210041123 A KR 1020210041123A KR 20210041123 A KR20210041123 A KR 20210041123A KR 102493930 B1 KR102493930 B1 KR 102493930B1
Authority
KR
South Korea
Prior art keywords
intersection
signal
reinforcement learning
learning model
traffic
Prior art date
Application number
KR1020210041123A
Other languages
English (en)
Other versions
KR20210122181A (ko
Inventor
이석중
최태욱
김대승
이희빈
Original Assignee
주식회사 라온로드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 라온로드 filed Critical 주식회사 라온로드
Priority to PCT/KR2021/003938 priority Critical patent/WO2021201569A1/ko
Priority to US17/422,779 priority patent/US20220270480A1/en
Publication of KR20210122181A publication Critical patent/KR20210122181A/ko
Application granted granted Critical
Publication of KR102493930B1 publication Critical patent/KR102493930B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/056Detecting movement of traffic to be counted or controlled with provision for distinguishing direction of travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Traffic Control Systems (AREA)

Abstract

신호 제어 장치 및 신호 제어 방법을 제시하며, 본 명세서에 개시된 일 실시예에 따르면, 강화학습모델에 기반하여 교차로에서의 교통 신호를 제어하는 신호 제어 장치에 있어서, 복수의 교차로 각각을 촬영하여 복수의 교차로 이미지를 획득하는 촬영부, 신호 제어를 위한 프로그램이 저장되는 저장부, 및 적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 촬영부를 통해 획득된 교차로 이미지를 이용하여 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출하는 제어부를 포함하며, 상기 제어부는, 상태정보 및 리워드를 입력값으로 하여 신호등 제어를 위한 액션정보를 출력함에 따라 트레이닝된 강화학습모델 기반 에이전트를 복수개 이용하여, 상기 복수의교차로 이미지 각각에 기초하여 산출된 상태정보가 입력된 복수의 에이전트에 의해 산출된 액션정보에 기초하여, 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출할 수 있다.

Description

강화학습 기반 신호 제어 장치 및 신호 제어 방법{APPARATUS AND METHOD FOR CONTROLLING TRAFFIC SIGNAL BASED ON REINFORCEMENT LEARNING}
본 명세서에서 개시되는 실시예들은 강화학습 기반 신호 제어 장치 및 신호 제어 방법에 관한 것으로, 보다 상세하게는 복수 개의 교차로에서의 교통 신호를 제어하는 장치 및 방법에 관한 것이다.
최근에는 생활의 편리나 직업적인 이유로 차량을 구입하는 사람들이 증가함에 따라 도로에서 운행 중인 차량이 증가하고 있다. 이러한 차량의 증가로 인해 교통난이 증가하고 있으며, 도로환경, 운전자상황, 차량고장, 및 차량사고 등의 다양한 요인으로 인해 교통난이 발생될 수 있다
교통난이 발생하는 이유 중의 하나로 도로환경에서 교통신호체계의 문제가 있다. 예를 들어, 교통신호는 차량의 흐름을 제어하며, 미리 정해진 시간 간격으로 차량의 통행방향을 결정하여 주기 때문에, 특정 방향에 차량이 증가하는 경우 교통체증이 발생할 수밖에 없다. 이로 인해, 교통체증이 발생하면, 경찰관이나 관련자가 직접 신호 제어기를 조작하여 교통 흐름을 조절한다. 이와 같은 방식은 교통신호를 제어하기 위해 사람이 상시 대기할 수 없는 한계가 존재하기 때문에 교통신호를 제어하기 위한 다양한 시도들이 있었다.
선행기술 문헌인 한국 공개특허 제10-2009-0116172호 '인공지능 차량 신호등 제어장치'에는 영상 검지기를 이용하여 촬영된 영상을 분석하여 교통 신호등을 제어하는 방법이 기재되어 있다. 그러나 상기의 종래기술에서는 단순히 영상을 분석하여 특정 차로의 차량 존재 여부 등을 검출하기 위한 수단으로서 인공지능 모델이 이용될 뿐, 검출된 정보에 기반하여 다음 신호를 결정하는 것은 기존의 단편적인 연산에 의해 이루어지므로 신호 체계의 효율성을 도모하기 어렵다는 문제가 있다.
따라서 교통상황을 개선하기 위한 기술이 필요하게 되었다.
한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 명세서에서 개시되는 실시예들은, 강화학습모델에 기반한 신호 제어 장치 및 신호 제어 방법을 제시하는 것을 목적으로 한다.
또한 본 명세서에서 개시되는 실시예들은, 멀티에이전트 기반 강화학습모델에 기반한 신호 제어 장치 및 신호 제어 방법을 제시하는 것을 목적으로 한다.
또한 본 명세서에서 개시되는 실시예들은, 복수의 교차로에서 원활한 교통 흐름을 가능하게 하는 신호 제어 장치 및 신호 제어 방법을 제시하는 것을 목적으로 한다.
또한, 본 명세서에서 개시되는 실시예들은, 제어대상 환경과 학습대상 환경이 불일치한 문제점을 해소하는 신호 제어 장치 및 신호 제어 방법을 제시하는 것을 목적으로 한다.
또한, 본 명세서에서 개시되는 실시예들은, 교통 시뮬레이션 시간에 최소한의 시간을 투입하도록 하는 신호 제어 장치 및 신호 제어 방법을 제시하는 것을 목적으로 한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 명세서에 기재된 일 실시예에 따르면, 강화학습모델에 기반하여 교차로에서의 교통 신호를 제어하는 신호 제어 장치에 있어서, 복수의 2교차로 각각을 촬영하여 복수의 교차로 이미지를 획득하는 촬영부, 신호 제어를 위한 프로그램이 저장되는 저장부, 및 적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 촬영부를 통해 획득된 교차로 이미지를 이용하여 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출하는 제어부를 포함하며, 상기 제어부는, 상태정보 및 리워드를 입력값으로 하여 신호등 제어를 위한 액션정보를 출력함에 따라 트레이닝된 강화학습모델 기반 에이전트를 복수개 이용하여, 상기 복수의 교차로 이미지 각각에 기초하여 산출된 상태정보가 입력된 복수의 에이전트에 의해 산출된 액션정보에 기초하여, 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출할 수 있다.
또한, 상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 명세서에 기재된 일 실시예에 따르면, 신호 제어 장치가, 강화학습모델에 기반하여 교차로에서의 교통 신호를 제어하는 방법에 있어서, 상태정보 및 리워드를 입력값으로 하여 에이전트가 신호등 제어를 위한 액션정보를 출력하도록 강화학습모델을 트레이닝시키는 단계, 복수의 교차로 각각을 촬영하여 복수의 교차로 이미지를 획득하는 단계, 및 획득된 교차로 이미지를 이용하여 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출하는 단계를 포함하며, 상기 제어정보를 산출하는 단계는, 상기 트레이닝된 강화학습모델 기반 에이전트를 복수개 이용하여, 상기 복수의 교차로 이미지 각각에 기초하여 산출된 상태정보가 입력된 복수의 에이전트에 의해 산출된 액션정보에 기초하여, 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출하는 단계를 포함할 수 있다.
전술한 과제 해결 수단 중 하나에 의하면, 강화학습모델에 기반한 신호 제어 장치 및 신호 제어 방법을 제시할 수 있다.
또한 본 명세서에서 개시되는 실시예들은, 멀티에이전트 기반 강화학습모델에 기반한 신호 제어 장치 및 신호 제어 방법을 제시할 수 있다.
또한 본 명세서에서 개시되는 실시예들은, 복수의 교차로에서 원활한 교통 흐름을 가능하게 하는 신호 제어 장치 및 신호 제어 방법을 제시할 수 있다.
또한, 본 명세서에서 개시되는 실시예들은, 제어대상 환경과 학습대상 환경이 불일치한 문제점을 해소하는 신호 제어 장치 및 신호 제어 방법을 제시할 수 있다.
또한, 본 명세서에서 개시되는 실시예들은, 교통 시뮬레이션 시간에 최소한의 시간을 투입하도록 하는 신호 제어 장치 및 신호 제어 방법을 제시할 수 있다.
개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 일 실시예에 따른 신호 제어 장치의 구성을 도시한 블록도이다.
도 2는 일 실시예에 따른 신호 제어 장치를 포함하는 신호 제어 시스템의 개략적인 구성을 도시한 도면이다.
도 3 내지 도 4는 일 실시예에 따른 신호 제어 장치를 설명하기 위한 예시도이다.
도 5는 일반적인 강화학습모델을 도시한 도면이다.
도 6은 일 실시예에 따른 신호 제어 장치의 강화학습 및 신호제어 과정을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 신호 제어 방법의 강화학습 과정을 단계적으로 도시한 흐름도이다.
도 8은 일 실시예에 따른 신호 제어 방법의 강화학습된 모델을 이용하여 신호등을 제어하는 과정을 단계적으로 도시한 흐름도이다.
아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.
이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 신호 제어 장치(100)의 구성을 도시한 블록도이고, 도 2는 일 실시예에 따른 신호 제어 장치(100)를 포함하는 신호 제어 시스템의 개략적인 구성을 도시한 도면이다.
신호 제어 장치(100)는 교차로에 설치되어 교차로로의 진입차로 또는 교차로로부터의 진출차로 등의 이미지를 촬영하고 분석하는 장치이다. 이하에서는 교차로에 설치된 신호 제어 장치(100)가 촬영하는 이미지를 '교차로 이미지'라고 한다.
도 1에 도시된 바와 같이 신호 제어 장치(100)는 교차로 이미지를 촬영하는 촬영부(110)와, 교차로 이미지를 분석하는 제어부(120)를 포함한다.
촬영부(110)는 교차로 이미지를 촬영하기 위한 카메라를 포함할 수 있는데, 가시광선이나 적외선 등 일정범위의 파장의 영상을 촬영할 수 있는 카메라를 포함할 수 있다. 그에 따라 촬영부(110)는 주간이나 야간, 또는 현재의 상황에 따라 서로 다른 파장 영역의 영상을 촬영하여 교차로 이미지를 획득할 수도 있다. 이때 촬영부(110)는 미리 설정한 주기로 교차로 이미지를 획득할 수 있다.
그리고 제어부(120)는 촬영부(110)에 의해 획득된 교차로 이미지를 분석하여 지체도, 대기길이, 대기시간, 통행속도 및 혼잡도 중 적어도 하나를 생성할 수 있다. 이와 같이 산출된 정보는 후술되는 강화학습모델에서 이용될 수 있다.
상술된 바와 같이 교차로 이미지를 분석하여 정보를 산출하기 위해 제어부(120)는 교차로 이미지를 분석 가능하게 가공하고, 가공된 교차로 이미지에서 차량에 대응하는 객체나 픽셀을 식별할 수 있다. 그리고 이를 위하여 제어부(120)는 인공신경망을 이용하여 교차로 이미지에서 차량에 대응하는 객체를 식별하거나 각 픽셀이 차량에 대응하는 위치인지를 식별할 수 있다.
이때 신호 제어 장치(100)는 교차로 이미지의 촬영을 위한 촬영부(110)와 촬영부(110)가 촬영한 교차로 이미지를 분석하는 제어부(120)가 서로 통신하되 물리적으로 이격 형성되도록, 둘 이상의 하드웨어 장치를 포함하여 구성될 수 있다. 즉 교차로 이미지의 촬영과 분석을 서로 이격된 하드웨어 장치가 구분하여 수행하도록 신호 제어 장치(100)가 구성될 수 있다. 이때 제어부(120)의 구성을 포함하는 하드웨어 장치는 서로 다른 복수의 촬영부(110)로부터 각각 교차로 이미지를 전달받아 교차로 이미지를 분석할 수도 있다. 또한 제어부(120)는 둘 이상의 하드웨어 장치로 구성되어 교차로 각각의 교차로 이미지를 처리하도록 구성될 수 있다.
또한 제어부(120)는 교차로 이미지를 분석하여 획득한 지체도에 기초하여 교차로에 대한 제어신호를 생성할 수 있다. 이때 제어부(120)는 강화학습모델을 이용하여 교차로의 상태정보와, 액션정보를 산출할 수 있다. 이를 위해 강화학습모델은 미리 트레이닝될 수 있다.
또한 신호 제어 장치(100)는 저장부(130)를 포함할 수 있다. 저장부(130)는 교차로 이미지의 촬영이나 분석을 위해 필요한 프로그램이나 데이터, 파일, 운영체제 등을 저장하고, 교차로 이미지나 교차로 이미지의 분석 결과를 적어도 일시적으로 저장할 수 있다. 제어부(120)는 저장부(130)에 저장된 데이터에 접근하여 이를 이용하거나, 또는 새로운 데이터를 저장부(130)에 저장할 수도 있다. 또한, 제어부(120)는 저장부(130)에 설치된 프로그램을 실행할 수도 있다.
나아가 신호 제어 장치(100)는 구동부(140)를 포함할 수 있다. 구동부(140)는 신호등(S)에 구동신호를 인가함으로써, 교차로에 설치된 신호등(S)이 제어부(120)가 산출한 제어신호에 따라 구동되도록 할 수 있다. 그에 따라 환경정보가 업데이트될 수 있고 환경을 관찰하여 획득되는 상태정보가 업데이트될 수 있다.
이러한 신호 제어 장치(100)의 촬영부(110)는 상술한 바와 같이 교차로에 설치되되, 설치 높이나 위치에 따라 하나의 교차로에 하나만이 구비되거나, 또는 교차로의 진출입로 수에 대응하는 수만큼 구비될 수 있다. 예를 들어 4지 교차로의 경우, 신호 제어 장치(100)는 4개의 진출입로 각각을 구분하여 촬영하여 교차로 이미지를 획득하는 4개의 촬영부(110)를 포함할 수 있다. 또한 예를 들어 4개의 진출입로 각각의 교차로 이미지를 4개의 촬영부(110)가 획득하면 4개의 교차로 이미지를 조합하여 1개의 교차로 이미지를 생성할 수도 있다.
이러한 신호 제어 장치(100)는 하나 이상의 하드웨어 구성요소를 포함하여 구성될 수 있고, 또한 후술할 신호 제어 시스템에 포함되는 하드웨어 구성요소들의 조합으로 이루어질 수도 있다.
구체적으로 신호 제어 장치(100)는, 도 2에 도시된 바와 같이 신호 제어 시스템의 적어도 일부 구성으로서 형성될 수 있다. 이때 신호 제어 시스템은 상술한 교차로 이미지를 촬영하는 영상 검지 장치(10), 신호등(S)에 연결되어 구동신호를 인가하는 교통신호제어기(20), 그리고 교통신호제어기(20)와 원격에서 통신하여 교통 신호를 관제하는 중앙센터(30)를 포함할 수 있다.
여기서 교통신호제어기(20)는 주제어부, 신호구동부, 그리고 기타장치부를 포함하여 구성될 수 있다. 이때 주제어부에는 전원장치, 메인보드, 운영자입력장치, 모뎀, 검지기보드, 옵션보드 등이 하나의 버스에 연결되도록 구성될 수 있다. 신호구동부는 컨트롤러보드, 점멸기, 동기구동장치, 확장보드 등을 포함하여 구성될 수 있다. 그 외에 신호 위반 여부를 검출하기 위한 영상 촬영 장치 등의 기타 장치를 제어하기 위한 기타장치부가 구비될 수 있다.
교통신호제어기(20)의 신호구동부는 메인보드로부터 제어신호를 수신하여, 상기 제어신호에 따라 신호등의 구동신호를 생성하고, 생성된 구동신호를 신호등으로 인가할 수 있다.
그리고 중앙센터(30)는 복수의 교차로의 교통신호제어기(20)가 서로 연관하여 제어될 수 있도록 중앙 제어하거나, 각각의 교통신호제어기(20)가 각 교차로 상황에 따라 로컬 제어되도록 할 수 있다. 중앙센터(30)는 적절한 제어 방식을 선택하거나, 구체적인 제어신호를 생성하는데 참조하기 위하여 각 교차로의 상황을 관제할 수 있으며, 예를 들어 옵셋 시간에 기초하여 일 교차로에서의 녹색등화 시작 시간을 변경하는 등의 제어를 할 수 있다. 또한 중앙 센터(30)는 영상 검지 장치(10)에 의해 촬영된 교차로 이미지를 직접 수신하거나 신호 제어 장치(100)가 생성한 지체도를 수신할 수 있다.
신호 제어 장치(100)는 상술한 신호 제어 시스템의 적어도 일부 구성을 이루도록 구성될 수 있으며, 상술한 신호 제어 시스템 자체일 수도 있다.
예를 들어, 신호 제어 장치(100)의 제어부(120)는 중앙센터(30)에 구비되고, 촬영부(110)는 영상 검지 장치(10) 내에 구성되며, 구동부(140)는 교통신호제어기(20) 내에 구성될 수 있다.
이하에서, 신호 제어 장치(100)의 제어부(120)의 동작을 보다 구체적으로 살펴보면, 제어부(120)는 촬영부(110)가 획득한 교차로 이미지를 분석하여, 지체도, 대기길이, 대기시간, 통행속도 및 혼잡도 중 적어도 하나를 산출할 수 있다. 이와 같이 산출된 정보는 후술되는 강화학습모델에서 이용될 수 있다.
관련하여 도 3은 일 실시예에 따른 신호 제어 장치를 설명하기 위한 예시도로서 교차로 이미지를 도시한 것이다.
도 3은 일 실시예에 따라 촬영부(110)가 촬영한 교차로 이미지로서, 도 3을 참조하면, 제어부(120)는 교차로 이미지를 분석하여 지체도, 대기길이, 대기시간, 통행속도 및 혼잡도 중 적어도 하나를 생성할 수 있다.
실시예에 따르면 제어부(120)는 지체도를 산출할 수 있다. 지체도는 소정의 시간(T) 동안의 도착교통량(
Figure 112021037302316-pat00001
)과 통과교통량(
Figure 112021037302316-pat00002
)을 측정함으로써 다음의 수식1에 따라 산출될 수 있다.
수식 1:
Figure 112021037302316-pat00003
이때 도착교통량(
Figure 112021037302316-pat00004
)은 직진방향, 좌회전, 우회전 방향 모두를 통틀어 교차로를 빠져나가는 차량의 대수이다. 예를 들어, 교차로의 중심점을 향한 방향을 진입방향, 상기 중심점으로부터 벗어나는 방향을 진출방향이라고 하였을 때 도착교통량(
Figure 112021037302316-pat00005
)은, 교차로로 진입하였다가 진출하는 차량의 대수로서 진출 방향을 고려하지 아니한바, 제어부(120)는, 도 3에서 도시된 바와 같은 교차로에서 교차로를 나가는 영역(351)에 위치한 차량 대수를 카운팅하고 도착교통량으로 결정할 수 있다. 또한 교차로 통과교통량(
Figure 112021037302316-pat00006
)은 교차로로의 진입방향인 차량의 대수로서, 진입방향에 위한 소정 영역(352) 내의 차량 대수를 카운팅함으로써 통과교통량을 산출할 수 있다. 이때 소정 영역(352)는 차량 속도가 급격히 변경되는 빈도수가 높은 영역으로서 교차로마다 달리 설정될 수 있으며, 그 크기는 차량의 평균 길이와 해당 교차로를 구성하는 차선의 폭을 가질 수 있다.
또한 제어부(120)는 대기길이를 산출할 수 있다. 이를 위해 제어부(120)는 교차로 내에서 대기 중인 차량 수를 검출할 수 있는데, 도 3에서 도시된 바와 같이 좌측에 위치한 차량들 중에서 직진방향(331)으로 진행 예정인 차량(301)을 식별할 수 있고, 마찬가지로 우측에 위치한 차량 중에서 직진 방향(332)으로 진행 예정 차량(302) 및 좌측 방향으로 진행 예정 차량(303)을 식별할 수 있다. 이때 대기 중인 차량 대수를 카운팅하여 차량 대수를 '대기길이'로 산출하거나, 또는 차량대수가 차로에서 차지하는 길이를 연산하여 연산결과를 '대기길이'로서 산출할 수 있다. 또한, 제어부(120)는 대기 중인 차량이 교차로를 빠져나가는데 필요한 시간을 대기시간으로 산출할 수 있으며, 예를 들어, 교차로에 위치한 일 차량을 추적하여 해당 차량이 교차로 내에 대기한 시간을 산출하거나, 소정의 시점을 기준으로 교차로 내 위치한 각 차량이 교차로 내에서 대기한 시간을 평균내어 산출할 수 있다.
또한 제어부(120)는 통행속도를 산출할 수 있는데 이를 위해 제어부(120)는 교차로 내에서 이동 중인 일 차량을 추적하여 해당 차량의 이동속도를 통행속도로 산출하거나, 또는 교차로 내에서 이동 중인 모든 차량의 속도의 평균값을 통행속도로 산출할 수 있다.
그리고 제어부(120)는 혼잡도를 산출할 수 있는데 이를 위해 제어부(120)는 차선영역 별 또는 주행방향 별로 위치할 수 있는 차량 수에 대비하여 현재 대기 중인 차량 수의 비율로서 혼잡도를 산출할 수 있다. 따라서 예를 들어, 각 차선영역이나 주행방향의 차량이 포화 수준에 이른 경우 혼잡도를 100으로 설정하고, 각 차선영역이나 주행방향의 차량이 존재하지 않는 상태를 0으로 수치화할 수 있고, 따라서 예를 들어, 20대의 차량이 위치가능한 차로에서 10대가 위치한다면 혼잡도를 50으로 산출할 수 있다.
한편 제어부(120)는 지체도, 대기길이, 대기시간, 통행속도 및 혼잡도 중 적어도 하나를 생성하기 위해, 교차로 이미지 내에서의 차량으로 추정되는 객체를 식별하고 식별된 객체의 위치에 대한 정보를 출력하는 인공신경망을 이용하여 각 객체의 위치 좌표를 획득하거나, 각 객체를 에워싸는 바운딩박스를 획득할 수 있다.
구체적으로 제어부(120)가 이용하는 인공신경망의 입력 값은 교차로 이미지이고, 출력 값은 자동차로 추정되는 객체의 위치 정보와 객체의 크기 정보로 구성되도록 설정될 수 있다. 여기서 객체의 위치 정보는 객체의 중심점(P)의 좌표(x, y)이고, 크기 정보는 객체의 폭과 높이(w, h)에 대한 정보로서, 인공신경망의 출력 값은 각각의 객체(O)에 대해 (x, y, w, h)의 형식으로 산출될 수 있다. 제어부(120)는 출력 값으로부터 각 차량의 이미지의 중심점(P)의 좌표(x, y)를 2차원 좌표로 획득할 수 있다. 그에 따라 차로의 각 차량을 식별해낼 수 있다.
이때 사용 가능한 인공신경망은 예를 들어 YOLO, SSD, Faster R-CNN, Pelee 등이 될 수 있고, 이러한 인공신경망은 교차로 이미지 내에서 차량에 대응하는 객체를 인식할 수 있도록 트레이닝될 수 있다.
또한 다른 예로서 제어부(120)는 세그멘테이션(Segmentation) 분석을 수행하는 인공신경망을 이용하여 교차로의 혼잡도 정보를 취득할 수 있다. 제어부(120)는 교차로 이미지를 입력으로 하여 교차로 이미지에 포함된 각 픽셀이 차량에 대응할 확률을 나타내는 확률맵을 출력하는 인공신경망을 이용하여, 차량에 대응하는 픽셀을 추출하고, 추출된 각 픽셀을 교차로 평면 상의 픽셀로 변환한 후, 각 차선영역 또는 각 주행방향의 차선영역 내에 포함된 변환된 픽셀의 수에 따라 차로 내에 객체가 존재하는지 여부를 산출할 수 있다.
구체적으로 설명하면 제어부(120)가 이용하는 인공신경망의 입력 값은 교차로 이미지이고, 출력 값은 각 픽셀 별 자동차일 확률에 대한 맵이 될 수 있다. 그리고 제어부(120)는 인공신경망의 출력 값인 각 픽셀 별 자동차일 확률 맵에 기초하여 차량에 대응하는 객체를 구성하는 픽셀들을 추출할 수 있다. 그에 따라 교차로 이미지 내에서 객체에 대응하는 부분의 픽셀들만이 다른 픽셀들과 구분하여 추출되고, 제어부(120)는 차선영역 또는 각 주행방향의 차선영역 내의 각각의 픽셀들을 분포를 확인할 수 있다. 이어서 제어부(120)는 기 설정된 영역 내의 픽셀의 수에 따라 소정 개수의 픽셀에 해당하는 부분이 객체 부분인지 여부를 판단할 수 있다.
이때 사용할 수 있는 인공신경망은 예를 들어, FCN, Deconvolutional Network, Dilated Convolution, DeepLab 등이 될 수 있으며, 이러한 인공신경망은 교차로 이미지에 포함된 각각의 픽셀이 특정 객체, 특히 차량에 대응할 확률을 산출하여 확률맵을 작성하도록 트레이닝될 수 있다.
이어서 제어부(120)는 상태정보 및 리워드를 입력값으로 하여 에이전트가 신호등 제어를 위한 액션정보를 출력하도록 강화학습모델을 트레이닝시킬 수 있다. 그리고 트레이닝된 강화학습모델 기반 에이전트를 복수개 이용하여, 복수개 교차로 이미지 각각에 기초하여 산출된 상태정보가 입력된 복수의 에이전트에 의해 산출된 액션정보에 기초하여, 복수의 교차로에서의 신호등을 제어하는 제어정보를 산출할 수 있다.
실시예에 따르면 제어부(120)는 지체도 및 현재 시점의 신호패턴에 대한 정보, 즉 현시에 대한 정보를, 트레이닝된 강화학습모델의 에이전트에 입력하여 해당 에이전트로 하여금 옵셋 시간에 관한 제어 정보를 산출하도록 할 수 있다.
여기서 현시는, 신호등(S)에 의해 나타나는 신호 패턴으로서, 예를 들어 동서남북 방향의 각 신호등에 각각 동시에 나타나는 신호들의 조합을 의미하며, 일반적으로는 서로 다른 현시가 순차적으로 나타나도록 설정된다. 아울러 후술되는 패턴정보는 복수 개의 현시가 조합된 것을 의미한다.
또한 옵셋 시간은 일 방향을 기준으로 연속된 교차로에서 어떤 기준시간으로부터 첫 신호등의 녹색등화의 시작시간과 다음 신호등의 녹색등화가 켜질 때까지의 시간차를 초(sec) 또는 주기의 백분율로 나타낸 값을 나타낸다.
관련하여 도 4는 일 실시예에 따른 신호 제어 장치(100)를 설명하기 위한 예시도로서 복수의 교차로 이미지를 도시한 것이다.
도 4를 참조하면, 일 방향(401)을 기준으로 차량이 이동할 때 직진 차량은 제1교차로(410)와 제2교차로(420) 각각을 거쳐 이동하게 되며, 제어부(120)는 제1교차로(410)와 제2교차로(420) 각각에 대해 교차로 이미지를 획득할 수 있다.
이하에서는 설명의 편의상 진행방향을 기준으로 먼저 나오는 교차로를 '제1교차로'로 칭하며, 제1교차로를 지나 나타나는 다음 교차로를 '제2교차로'로 칭한다.
이때 옵셋 시간은, 제1교차로(410)에서 차량이 마주치는 첫 신호등(411)의 녹색등화의 시작시간과, 제2교차로(420)에서 차량이 마주치는 첫 신호등(422)의 녹색등화의 시작시간까지의 시간 차일 수 있다.
즉, 제어부(120)는 지체도 등의 상태정보에 기초하여 제어정보로서 옵셋시간을 산출하기 위해 강화학습모델을 이용할 수 있다.
도 5는 일반적인 강화학습모델을 나타낸 도면이고, 도 6은 일 실시예에 따른 신호 제어 장치의 강화학습 및 신호제어 과정을 설명하기 위한 도면이다.
도 5에 도시된 바와 같이 강화학습모델은 에이전트와 환경을 포함할 수 있다. 여기서 에이전트는 일반적으로 인공신경망이나 룩업테이블 등에 의해 구성되는 '정책'과, 환경으로부터 주어지는 상태정보와 리워드 정보를 참조하여 액션(At)을 결정하는 정책을 최적화하는 '강화학습 알고리즘'을 포함하여 구성될 수 있다. 이때 강화학습 알고리즘은 환경을 관찰하여 획득되는 상태정보(St)와, 상태가 목적하는 방향으로 개선될 때 주어지는 리워드(Rt), 그리고 정책에 따라 출력되는 액션(At)을 참조하여 정책을 개선한다.
그리고 이러한 과정은 단계마다 반복적으로 수행되고, 이하에서 현재에 대응하는 단계는 t로, 다음 단계는 t+1 등으로 구분하여 나타낸다.
일 실시예에서 신호 제어 장치(100)는, 교차로를 환경으로, 교차로의 지체도를 상태정보로 갖고, 옵셋시간을 액션정보로 하며, 지체도가 최소화되는 방향으로 개선되면 리워드가 제공되도록 구성될 수 있다.
즉 도 6에 도시된 바와 같이 교차로(600)를 촬영한 영상으로부터 상술한 방법에 따라 지체도(
Figure 112021037302316-pat00007
)가 산출될 수 있다. 그리고 이를 이용하여 상태정보(St)를 구성할 수 있다.
구체적으로는 다음과 같이 상태정보(St)가 정의될 수 있다.
Figure 112021037302316-pat00008
추가로 상태정보(St)로서, 대기길이, 대기시간, 통행속도 및 혼잡도 중 적어도 하나가 더 추가될 수 있다.
그리고 리워드(Rt)는 지체도(
Figure 112021037302316-pat00009
)에 기초하여 다음과 같이 연산될 수 있다.
Figure 112021037302316-pat00010
그에 따라 t+1 단계에서 지체도가 감소하면 리워드(Rt)가 양의 값을 가지므로, 강화학습모델에 더 큰 보상이 주어진다. 더욱이 t+1단계에서의 지체도와 t에서의 지체도 차이가 클수록 더 큰 보상을 리워드(Rt)로 줄 수 있어 강화학습모델을 용이하게 학습시킬 수 있다.
추가적으로 리워드(Rt)는 대기길이, 대기시간, 통행속도, 혼잡도 중 적어도 하나에 기초하여 연산될 수 있다.
예를 들어, 리워드(Rt)는 대기길이가 최소화될 때 양의 보상을 주도록 설정되거나, 대기시간이 최소화될 때 양의 보상을 주도록 설정될 수 있다. 또한 리워드(Rt)는 통행속도가 최대화될 때 양의 보상을 주도록 설정될 수 있으며, 또는 혼잡도가 최소화될 때 양의 보상을 주도록 설정될 수 있다.
상술한 강화학습모델은 Q-network 또는 Q-network에 다른 인공신경망이 결합되는 DQN을 포함하여 구성될 수 있다. 그에 따라 정책(π)를 최적화하는, 즉 각각의 트레이닝 단계에서 축적되는 미래 보상에 대한 기대 값을 최대화하는 액션(At)을 선택하도록 정책(π)을 학습시킨다.
즉, 다음과 같은 함수를 정의한다.
Figure 112021037302316-pat00011
여기서 상태(st)에서, 액션(at)에 대한 최적의 Q함수, Q*을 도출되도록 트레이닝이 수행된다. 또한
Figure 112021037302316-pat00012
은 Discount Factor로서 미래의 단계에 대한 리워드를 기대값 연산에 상대적으로 적게 반영함으로써, 현재의 리워드를 더 높이는 방향의 액션(at)이 선택되도록 하기 위한 것이다.
그리고 이때 Q함수는 실질적으로 테이블 형태로 구성되므로, 이를 Function Approximator를 이용하여 새로운 파라미터를 갖는 유사 함수로 함수화할 수 있다.
Figure 112021037302316-pat00013
이때 딥러닝(Deep-Learning) 인공신경망을 이용할 수 있으며, 그에 따라 상술한 바와 같이 강화학습모델은 DQN을 포함하여 구성될 수 있다.
이와 같이 트레이닝되는 강화학습모델은 상태정보(St)와 리워드(Rt)에 기초하여 액션(at)으로서 옵셋 시간을 결정하고 그에 따라 제2교차로에서의 녹색 현시 시간이 결정될 수 있어 제2 교차로에서의 신호등(S)에 반영되어 궁극적으로 제1교차로의 지체도에 영향을 미칠 수 있다.
즉 제어부(120)는 제1교차로 이미지에 기초하여 산출된 상태정보 및 리워드를 입력값으로 하여 제1에이전트로부터 제1교차로에 대한 신호등의 제어를 위한 액션정보를 획득하도록 강화학습모델을 트레이닝할 수 있으며, 이때 액션정보로서 옵셋시간을 산출하도록 트레이닝될 수 있다.
그에 따라 트레이닝된 에이전트가 제1에이전트가 제1교차로 이미지에 기초하여 산출된 상태정보를 입력값으로 하여 옵셋 시간을 출력할 수 있다.
이와 같이 제1에이전트가 출력한 옵셋시간은, 일 실시예에 따르면 제2교차로에 대한 신호등의 제어정보로 이용될 수 있는데, 제2교차로에서의 신호등의 녹색등화와의 차를 옵셋 시간에 맞추기 위해 제1교차로에서의 신호등의 녹색등화 시작 시간을 조절할 수 있다.
또 다른 실시예에 따르면 제1에이전트가 출력한 옵셋 시간은 제1교차로에 대한 신호등의 제어정보로서 이용될 수 있는데, 제2교차로에서의 신호등의 녹색등화와의 차를 옵셋 시간에 맞추기 위해 제1교차로에서의 신호등의 녹색등화 시작 시간을 조절할 수 있다.
제1교차로 또는 제2교차로에서의 녹색등화 시작시간이 조절됨에 따라 제1교차로 또는 제2교차로의 환경이 업데이트되고, 그에 따라 촬영부(110)가 획득하는 교차로 이미지가 변경될 수 있다. 변경된 교차로 이미지는 변경된 상태정보를 산출하게끔 한다.
위와 같은 과정은 반복 수행되어 강화학습모델의 정책을 최적화한다.
또한 제어부(120)는 트레이닝된 강화학습모델을 기반으로, 교차로 이미지에 기초하여 산출된 상태정보를 에이전트에 입력하고 그에 따라 출력된 액션정보에 따라 제어정보를 생성하고 그에 따라 신호등을 제어할 수 있다.
한편 제어부(120)는 멀티에이전트 강화학습모델을 기반으로 교차로의 교통신호를 제어하는 반면, 추가로 로컬 교차로의 상태에 따라 또 다른 강화학습모델을 기반으로 교차로의 교통신호를 제어할 수 있다.
이때 로컬은, 일 교차로를 의미할 수 있고, 또는 소정 개수의 교차로군을 의미할 수 있다. 예를 들어, 권역별로 위치한 교차로 복수개를 하나의 교차로군으로 보고 해당 교차로군의 상태에 따라 교차로군을 구성하는 교차로의 교통신호를 제어할 수 있다.
멀티에이전트 강화학습모델을 기반으로 옵셋 시간이 결정됨에 따라 제1교차로 및 제2교차로 각각의 환경이 설정될 수 있다.
이때, 제1교차로에서 과포화가 발생되면, 스필백 등의 영향으로 교통소통이 급격히 나빠질 수 있으므로 과포화가 발생한 제1교차로의 신호주기를 늘려야 할 필요성이 있다.
이때 과포화상태 여부는 제1교차로의 혼잡도가 소정 크기 이상 소정의 시간 동안 지속된다 판단되면 과포화상태라 판단할 수 있으며, 예를 들어, 혼잡도가 50%이상인 상태가 10분 동안 지속된다 판단되면 해당 교차로는 과포화라 판단할 수 있다. 또는, 과포화상태 여부는 제1교차로에 스필백이 발생되면 제1교차로가 과포화상태라 판단하거나, 제1교차로에 스필백이 발생되면 제2교차로가 과포화상태라 판단할 수 있다.
이에 일 실시예에 따라 제어부(120)는 일 교차로가 과포화상태일 때 기설정된 신호주기를 과포화된 교차로의 신호주기에 더하여, 과포화의 원인이 되는 차선영역 또는 주행방향에 위치한 차량을 이동시킬 수 있도록 해당 신호주기를 늘리거나, 과포화의 원인이 되는 차선영역 또는 주행방향에 위치한 차량을 이동시킬 수 있는 신호패턴을 추가할 수 있다.
또한 제어부(120)는 교차로군 내에서의 모든 교차로의 신호주기를 늘리거나 신호패턴을 추가할 수 있다. 또는 제어부(120)는, 교차로군 내에서 혼잡도가 가장 높은 교차로 또는 스필백 발생 시간이 가장 긴 교차로를 선정하고, 해당 교차로의 신호주기를 늘리거나 신호패턴을 추가할 수 있다.
한편 또 다른 실시예에 따라 제어부(120)는 또 다른 강화학습모델에 기반하여 과포화된 교차로의 신호주기를 늘리거나 신호패턴을 추가할 수 있다.
이하에서는 설명의 편의상, 위에서 서술된 멀티에이전트 강화학습모델을 제1강화학습모델이라 칭하며, 제1강화학습모델과 상이한 강화학습모델을 제2강화학습모델이라 칭한다.
제2강화학습모델은 Q-network 또는 Q-network에 다른 인공신경망이 결합되는 DQN을 포함하여 구성될 수 있으며 제1강화학습모델과 같이 정책을 학습시킬 수 있다. 제2강화학습모델은 에이전트와 환경을 포함할 수 있으며, 이하에서는 설명의 편의상, 앞선 제1에이전트와 제2에이전트와 구분하기 위해 제2강화학습모델의 에이전트는 제3에이전트라 칭한다.
일 실시예에 따르면, 제어부(120)는 각 교차로마다 교차로를 환경으로, 교차로의 지체도를 상태정보로 갖고, 현시신호주기(주어진 순차적인 현시순서를 한번 완결하는데 필요한 시간)를 액션으로 하며, 지체도가 개선되면 리워드가 제공되도록 제2강화학습모델을 트레이닝시킬 수 있다.
따라서 예를 들어, 소정시간 동안 제1교차로의 중심에서 스필백이 발생하여 제1교차로가 과포화상태라 판단되면, 제어부(120)는 제2강화학습모델을 기반으로 동작하는 제3에이전트로 하여금 제1교차로를 환경으로 교차로의 지체도를 상태정보로서 입력받았을 때 액션정보로서 현시신호주기를 산출하고, 산출된 신호주기에 따라 신호등(S)이 제어되도록 제어신호를 생성할 수 있다. 이때 제어부(120)는 과포화상태일 때 제1강화학습모델에 따른 제어신호에 따라 신호등(S)을 제어하는 대신에, 제2강화학습모델에 따른 제어신호에 따라 신호등(S)을 제어할 수 있다.
그에 따라 환경이 변경됨으로써 제1강화학습모델에 입력되는 상태정보가 변경됨에 따라 제1교차로에서의 제1에이전트가 산출하는 옵셋 시간이 변경될 수 있고 그에 따라 제2교차로의 환경이 변경됨에 따라 제2교차로에서의 제2에이전트가 산출하는 옵셋 시간이 달라질 수 있다.
또 다른 실시예에 따르면, 제어부(120)는 각 교차로마다 교차로를 환경으로, 교차로의 지체도를 상태정보로 갖고, 기 설정된 복수의 서로 다른 현시의 패턴을 액션으로 하며 지체도가 개선되면 리워드가 제공되도록 제2강화학습모델을 트레이닝시킬 수 있다.
따라서 예를 들어, 소정시간 동안 제1교차로의 중심에서 스필백이 발생하여 제1교차로가 과포화상태라 판단되면, 제어부(120)는 제2강화학습모델을 이용하여 제1교차로를 환경으로 교차로의 지체도를 상태정보로서 입력함으로써 액션정보로서 패턴정보를 산출하고, 산출된 패턴에 따라 신호등(S)이 제어되도록 제어신호를 생성할 수 있다. 따라서 예를 들어, 양방향 직진 신호 패턴이 포함되지 않았던 신호주기에서, 제3에이전트가 양방향 직진 신호패턴을 산출함에 따라 양방향 직진 신호패턴을 포함시켜 구동되도록 함으로써 전체 신호주기가 늘 수 있다.
상술된 바에 따라 과포화상태가 해소(해당 교차로가 과포화상태가 아니라 판단)되면 제어부(120)는 제1강화학습모델에 따라 신호등(S)을 제어할 수 있다. 이때 실시예에 따르면, 과포화상태의 제1교차로의 상태를 해소하기 위해 제2강화학습모델을 이용하는 동안, 다른 교차로에서의 신호 제어는 제1강화학습모델에 따라 수행될 수 있다.
한편 상술된 제2강화학습모델을 기반으로 교차로의 과포화를 해소하기 위한 방안은 교차로군을 구성하는 일 교차로의 과포화를 해소할 때에도 동일하게 적용할 수 있다.
한편, 제어부(120)는 교차로군을 하나의 교차로로 볼 수 있고 이때 교차로군에 차량이 진입하는 도입부를 일 교차로의 도입부로, 해당 교차로에서 차량이 진출하는 진출부를 일 교차로의 진출부로 대응시켜 설정할 수 있고, 그에 따라 해당 교차로군을 마치 1개의 교차로처럼 취급할 수 있다.
그에 따라, 일 실시예에 따르면 제어부(120)는 교차로군의 지체도를 상태정보로서 입력하였을 때 현시신호주기를 액션으로 하며, 지체도가 개선되면 리워드가 제공되도록 제2강화학습모델을 트레이닝시킬 수 있다. 트레이닝된 제2강화학습모델의 제3에이전트에, 교차로군의 지체도를 입력함에 따라 현시신호주기가 산출되면, 제어부(120)는 교차로군을 구성하는 교차로 각각의 현시신호주기를 조정할 수 있다. 예를 들어 교차로군에 포함된 모든 교차로의 현시신호주기를 늘릴 수 있다.
또 다른 실시예에 따르면 제어부(120)는 교차로군을 하나의 교차로로 설정하여, 교차로군을 환경으로, 교차로군의 지체도를 상태정보로 갖고, 패턴정보를 액션으로 하며, 지체도가 개선되면 리워드가 제공되도록 제2강화학습모델을 트레이닝시킬 수 있다. 트레이닝된 제2강화학습모델의 제3에이전트에, 교차로군의 지체도를 입력함에 따라 패턴정보가 산출되면, 제어부(120)는 교차로군을 구성하는 교차로 각각에서 해당 패턴정보를 추가함으로써 패턴정보를 조정할 수 있다. 예를 들어 교차로군에 포함되는 모든 교차로의 패턴정보에, 양방향 직진신호 패턴을 추가할 수 있다.
한편 상술된 제1강화학습모델 및 제2강화학습모델 각각 트레이닝된 이후 이용될 수 있다. 이 경우에는 강화학습모델에 포함된 강화학습 알고리즘은 이용되지 않고 정책만 이용될 수 있다.
구체적으로 제어부(120)는 강화학습모델의 정책을 이용하여 다음 신호를 결정하고, 결정된 다음 신호에 대응하는 제어신호를 생성하여 신호등(S)이 제어되도록 하기 이전에, 강화학습모델을 미리 학습시킬 수 있다. 물론 강화학습 알고리즘을 지속적으로 이용하여 트레이닝과 신호결정을 동시에 할 수도 있음은 물론이다.
관련하여 제어부(120)는 학습대상 환경과 추론대상 환경을 구분할 수 있다.
예를 들어, 제어부(120)는 미리 설정된 변수 값 및 교통량 패턴에 따라 구성되는 교통 시뮬레이션 환경으로부터 획득되는 교차로 이미지를 기반으로 강화학습모델을 트레이닝시킨 후에, 교차로를 촬영한 교차로 이미지를 기반으로 추론할 수 있다. 즉, 강화학습모델을 트레이닝한 뒤, 활성화되지 않는 부분을 찾아 쳐내거나, 또는 강화학습모델을 구성하는 레이어의 연산단계를 융합시킬 필요성에 따라 추론 과정을 수행하게 되는데, 실제 교차로를 촬영한 교차로 이미지로 추론을 수행함에 따라 추론에 드는 리소스와 시간을 축소시킬 수 있다. 또한, 종래에는 학습대상 환경과 제어대상 환경이 상이함에 따라 사고가 발생한다거나 교통이 혼잡해지는 문제점이 있었는데 본 실시예에 따라 추론함으로써 제어대상 환경에 적용하였을 때 사고없이 안전하게 교통 흐름을 통제할 수 있다.
한편, 도 7은 일 실시예에 따른 신호 제어 방법의 강화학습 과정을 단계적으로 도시한 흐름도이고, 도 8은 일 실시예에 따른 신호 제어 방법의 강화학습된 모델을 이용하여 신호등을 제어하는 과정을 단계적으로 도시한 흐름도이다.
도 7 내지 도 8에 도시된 신호 제어 방법은 도 1 내지 도 6을 통해 설명된 신호 제어 장치(100)에서 시계열적으로 처리하는 단계들을 포함한다. 따라서 이하에서 생략된 내용이라고 하더라도 도 1 내지 도 6에 도시된 신호 제어 장치(100)에 관하여 이상에서 기술한 내용은 도 7 내지 도 8에 도시된 실시예에 따른 신호 제어 방법에도 이용될 수 있다.
도 7에 도시된 바와 같이 신호 제어 장치(100)는 상태정보와 리워드 정보를 연산한다(S710). 이때 상태정보로서 지체도를 연산할 수 있고, 지체도를 산출할 수 있다.
여기서 상태정보는 상술한 바와 같이 소정의 시간 동안의 도착교통량 및 통과교통량에 기초하여 산출된 지체도일 수 있고, 리워드는 지체도에 비례하여 환산된 값이 될 수 있다.
그리고 신호 제어 장치(100)는 상태정보 및 리워드를 입력값으로 하여 교차로에서의 신호등 제어를 위한 액션을 제어하는 강화학습모델 기반 에이전트를 학습시킬 수 있다.
즉 신호 제어 장치(100)는 연산된 상태정보와 리워드 정보를 강화학습모델의 에이전트에 입력 값으로 하고(S720), 에이전트에 의해 출력된 액션정보를 토대로 제어정보를 생성할 수 있다(S730). 그리고 신호 제어 장치(100)는 제어정보에 따라 학습대상 교차로의 신호를 제어할 수 있다(S740).
즉, 실시예에 따르면 신호 제어 장치(100)는 제1교차로 이미지에 기초하여 산출된 상태정보를 입력값으로 하여 제1에이전트로부터 제2교차로에 대한 신호등의 제어를 위한 액션정보를 획득하도록 상기 강화학습모델을 트레이닝시킬 수 있다.
또 다른 실시예에 따르면 신호 제어 장치(100)는 제1교차로 이미지에 기초하여 산출된 상태정보를 입력값으로 하여 제1에이전트로부터 옵셋시간을 액션정보로서 획득하도록 강화학습모델을 트레이닝시킬 수 있다.
이때 상술한 S710단계 내지 S740단계는 반복적으로 수행되며, 이러한 과정에서 최적의 Q함수가 산출될 수 있다.
따라서 강화학습모델은 상술한 S710단계 내지 S740단계를 반복함으로써 학습될 수 있다.
한편 도 8을 참조하여, S710 내지 S740단계를 반복하여 학습된 강화학습모델을 이용하여 신호등을 제어하는 과정을 살펴보면, 우선 신호 제어 장치(100)는 실제 교차로를 촬영한 교차로 이미지를 획득할 수 있다(S810).
이때 실시예에 따르면, 신호 제어 장치(100)는 교차로별로 에이전트가 동작하도록 할 수 있으며 그에 따라 교차로마다 각각의 에이전트가, 교차로를 촬영한 교차로 이미지에 기반하여 산출된 상태정보를 입력값으로 하여 액션정보를 출력하고, 그에 따라 교차로 각각의 신호등은 물론 다음 교차로의 신호등도 제어할 수 있다.
따라서 신호 제어 장치(100)는 교차로 이미지를 분석하여 지체도를 산출할 수 있다(S820). 그리고 신호 제어 장치(100)는 S820단계에서 산출된 지체도를 이용하여 현재 상태정보를 연산할 수 있다(S830).
그리고 이어서 신호 제어 장치(100)는 액션정보에 따라 제어정보를 산출할 수 있다(S840). 이어서 신호 제어 장치(100)는 산출된 제어정보에 따라 신호등(S)으로 구동신호를 인가할 수 있다.
물론 이때 도 8에 도시된 과정을 수행하면서 동시에 신호 제어 장치(100)는 강화학습모델에 대한 추가적인 트레이닝을 수행할 수 있음은 앞서 설명한 바와 같다.
또한 신호 제어 장치(100)는 교차로가 과포화상태라 판단되면 트레이닝된 강화학습모델에 따라 옵셋 시간을 액션정보로서 에이전트가 산출하는 것을 중단시키고, 또 다른 강화학습모델에 따라 주기시간 또는 패턴정보를 에이전트가 산출하도록 할 수 있다.
일 실시예에 따르면 신호 제어 장치(100)는 제1교차로가 과포화상태라 판단하면, 상기 제1교차로 이미지로부터 추출된 상태정보를 입력값으로 하여 상기 제1교차로의 신호등 제어를 위한 신호주기를 액션정보로 출력하도록 트레이닝된 강화학습모델을 이용하여, 상기 제1교차로 이미지에 기초하여 신호주기를 산출할 수 있다.
또 다른 실시예에 따르면 신호 제어 장치(100)는 상기 제1교차로가 과포화상태라 판단하면, 상기 제1교차로 이미지로부터 추출된 상태정보를 입력값으로 하여 상기 제1교차로의 신호등 제어를 위한 신호패턴을 액션정보로 출력하도록 트레이닝된 강화학습모델을 이용하여, 상기 제1교차로 이미지에 기초하여 신호패턴을 산출할 수 있다.
상기와 같이 설명된 신호 제어 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
상기와 같이 설명된 신호 제어 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
상기와 같이 설명된 신호 제어 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.
구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.
뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다. 상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 명세서를 통해 보호받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.
100: 신호 제어 장치
110: 촬영부 120: 제어부
130: 저장부 140: 구동부

Claims (14)

  1. 강화학습모델에 기반하여 교차로에서의 교통 신호를 제어하는 신호 제어 장치에 있어서,
    복수의 교차로 각각을 촬영하여 복수의 교차로 이미지를 획득하는 촬영부;
    신호 제어를 위한 프로그램이 저장되는 저장부; 및
    적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 상기 촬영부를 통해 획득된 교차로 이미지를 이용하여 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출하는 제어부를 포함하며,
    상기 제어부는,
    상태정보 및 리워드를 입력값으로 하여 신호등 제어를 위한 액션정보를 출력함에 따라 트레이닝된 강화학습모델 기반 에이전트를 복수개 이용하여, 상기 복수의 교차로 이미지 각각에 기초하여 산출된 상태정보가 입력된 복수의 에이전트에 의해 산출된 액션정보에 기초하여, 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출하며,
    상기 제어부는 상기 복수의 교차로 중 일 교차로인 제1교차로가 과포화상태인지 또는 과포화가 아닌 상태인지를 구분하여 판단하고,
    상기 과포화가 아닌 상태에 해당하면, 상기 제1교차로에서의 신호등의 녹색등화의 시작시간과 제2교차로에서의 신호등의 녹색등화의 시작시간까지의 시간차에 관한 옵셋시간을 상기 액션정보로 출력하도록 상기 강화학습모델을 트레이닝시키는, 신호 제어 장치.
  2. 제1항에 있어서,
    상기 제어부는,
    교차로 이미지에 대응되는 교차로에서의 지체도를 상태정보로서 산출하되, 소정의 시간 동안의 도착교통량 및 통과교통량에 기초하여 산출하는, 신호 제어 장치.
  3. 제1항에 있어서,
    상기 제어부는,
    상기 복수의 교차로 중 일 교차로인 상기 제1교차로의 이미지에 기초하여 산출된 상태정보를 입력값으로 하여 제1에이전트로부터 상기 제2교차로에 대한 신호등의 제어를 위한 액션정보를 획득하도록 상기 강화학습모델을 트레이닝시키는, 신호 제어 장치.
  4. 삭제
  5. 제1항에 있어서,
    상기 제어부는,
    상기 복수의 교차로 중 일 교차로인 상기 제1교차로가 상기 과포화상태라 판단하면, 상기 제1교차로의 이미지로부터 추출된 상태정보를 입력값으로 하여 상기 제1교차로의 신호등 제어를 위한 신호주기를 액션정보로 출력하도록 트레이닝된 강화학습모델을 이용하여, 상기 제1교차로의 이미지에 기초하여 신호주기를 산출하는, 신호 제어 장치.
  6. 제1항에 있어서,
    상기 제어부는,
    상기 복수의 교차로 중 일 교차로인 상기 제1교차로가 상기 과포화상태라 판단하면, 상기 제1교차로의 이미지로부터 추출된 상태정보를 입력값으로 하여 상기 제1교차로의 신호등 제어를 위한 신호패턴을 액션정보로 출력하도록 트레이닝된 강화학습모델을 이용하여, 상기 제1교차로의 이미지에 기초하여 신호패턴을 산출하는, 신호 제어 장치.
  7. 제1항에 있어서,
    상기 제어부는,
    상태정보 및 리워드를 입력값으로 하여 신호등 제어를 위한 액션정보로 상기 강화학습모델을 트레이닝시키되, 지체도에 비례하여 상기 리워드를 증가시키는, 신호 제어 장치.
  8. 제1항에 있어서,
    상기 강화학습모델은,
    미리 설정된 변수 값 및 교통량 패턴에 따라 구성되는 교통 시뮬레이션 환경으로부터 획득되는 교차로 이미지를 기반으로 트레이닝되되, 교차로를 촬영한 교차로 이미지를 기반으로 추론되는, 신호 제어 장치.
  9. 신호 제어 장치가, 강화학습모델에 기반하여 교차로에서의 교통 신호를 제어하는 방법에 있어서,
    상태정보 및 리워드를 입력값으로 하여 에이전트가 신호등 제어를 위한 액션정보를 출력하도록 강화학습모델을 트레이닝시키는 단계;
    복수의 교차로 각각을 촬영하여 복수의 교차로 이미지를 획득하는 단계; 및
    획득된 교차로 이미지를 이용하여 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출하는 단계를 포함하며,
    상기 제어정보를 산출하는 단계는,
    상기 트레이닝된 강화학습모델 기반 에이전트를 복수개 이용하여, 상기 복수의 교차로 이미지 각각에 기초하여 산출된 상태정보가 입력된 복수의 에이전트에 의해 산출된 액션정보에 기초하여, 상기 복수의 교차로 각각에서의 신호등을 제어하는 제어정보를 산출하는 단계를 포함하며,
    상기 강화학습모델을 트레이닝시키는 단계는,
    상기 복수의 교차로 중 일 교차로인 제1교차로가 과포화상태인지 또는 과포화가 아닌 상태인지를 구분하여 판단하고,
    상기 과포화가 아닌 상태에 해당하면, 상기 제1교차로에서의 신호등의 녹색등화의 시작시간과 제2교차로에서의 신호등의 녹색등화의 시작시간까지의 시간차에 관한 옵셋시간을 상기 액션정보로 출력하도록 상기 강화학습모델을 트레이닝시키는, 신호 제어 방법.
  10. 제9항에 있어서,
    상기 강화학습모델을 트레이닝시키는 단계는,
    교차로 이미지에 대응되는 교차로에서의 지체도를 상태정보로서 산출하되, 소정의 시간 동안의 도착교통량 및 통과교통량에 기초하여 산출하는 단계를 포함하는, 신호 제어 방법.
  11. 제9항에 있어서,
    상기 강화학습모델을 트레이닝시키는 단계는,
    상기 복수의 교차로 중 일 교차로인 상기 제1교차로의 이미지에 기초하여 산출된 상태정보를 입력값으로 하여 제1에이전트로부터 상기 제2교차로에 대한 신호등의 제어를 위한 액션정보를 획득하도록 상기 강화학습모델을 트레이닝시키는 단계를 포함하는, 신호 제어 방법.
  12. 삭제
  13. 제9항에 있어서,
    상기 제어정보를 산출하는 단계는,
    상기 복수의 교차로 중 일 교차로인 상기 제1교차로가 상기 과포화상태라 판단하면, 상기 제1교차로의 이미지로부터 추출된 상태정보를 입력값으로 하여 상기 제1교차로의 신호등 제어를 위한 신호주기를 액션정보로 출력하도록 트레이닝된 강화학습모델을 이용하여, 상기 제1교차로의 이미지에 기초하여 신호주기를 산출하는 단계를 더 포함하는, 신호 제어 방법.
  14. 제9항에 있어서,
    상기 제어정보를 산출하는 단계는,
    상기 복수의 교차로 중 일 교차로인 상기 제1교차로가 상기 과포화상태라 판단하면, 상기 제1교차로 이미지로부터 추출된 상태정보를 입력값으로 하여 상기 제1교차로의 신호등 제어를 위한 신호패턴을 액션정보로 출력하도록 트레이닝된 강화학습모델을 이용하여, 상기 제1교차로의 이미지에 기초하여 신호패턴을 산출하는 단계를 더 포함하는, 신호 제어 방법.
KR1020210041123A 2020-03-30 2021-03-30 강화학습 기반 신호 제어 장치 및 신호 제어 방법 KR102493930B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2021/003938 WO2021201569A1 (ko) 2020-03-30 2021-03-30 강화학습 기반 신호 제어 장치 및 신호 제어 방법
US17/422,779 US20220270480A1 (en) 2020-03-30 2021-03-30 Signal control apparatus and method based on reinforcement learning

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200038586 2020-03-30
KR20200038586 2020-03-30

Publications (2)

Publication Number Publication Date
KR20210122181A KR20210122181A (ko) 2021-10-08
KR102493930B1 true KR102493930B1 (ko) 2023-01-31

Family

ID=78610004

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210041123A KR102493930B1 (ko) 2020-03-30 2021-03-30 강화학습 기반 신호 제어 장치 및 신호 제어 방법

Country Status (2)

Country Link
KR (1) KR102493930B1 (ko)
CN (1) CN113767427A (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230120560A (ko) 2022-02-09 2023-08-17 주식회사 케이티 교통 흐름을 개선하기 위해 교차로의 신호를 제어하는 서버, 방법 및 컴퓨터 프로그램
KR102573526B1 (ko) * 2022-07-08 2023-09-06 주식회사 노타 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법
KR102526583B1 (ko) 2022-11-22 2023-04-27 주식회사 에이엔비 딥러닝 기반 교차로 객체검지 및 자동 알람 시스템
KR102590525B1 (ko) * 2023-04-06 2023-10-19 주식회사 노타 교차로의 현시와 관련된 제어신호를 생성하는 방법 및 장치
KR102645077B1 (ko) 2023-08-24 2024-03-08 (주)소프트윙스 딥러닝 기반 교차로 객체검지 및 자동 알람 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100876094B1 (ko) * 2008-06-03 2008-12-26 김영길 교통 정체 해소를 위한 교통신호 제어 시스템의 제어 방법
KR101821494B1 (ko) * 2016-08-10 2018-01-24 중앙대학교 산학협력단 감응식 교통 신호 제어 방법 및 그 장치
JP2019079199A (ja) 2017-10-23 2019-05-23 株式会社豊田中央研究所 信号機切替制御装置、信号機切替制御方法及び信号機切替制御プログラム
KR102021992B1 (ko) * 2018-08-21 2019-09-18 한국과학기술정보연구원 교통신호 제어 장치, 교통신호 제어 방법 및 교통신호 제어 프로그램을 저장하는 저장매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101837256B1 (ko) * 2015-12-21 2018-03-12 동국대학교 산학협력단 능동형 교통 신호 제어 방법 및 그 시스템
CN110428615B (zh) * 2019-07-12 2021-06-22 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100876094B1 (ko) * 2008-06-03 2008-12-26 김영길 교통 정체 해소를 위한 교통신호 제어 시스템의 제어 방법
KR101821494B1 (ko) * 2016-08-10 2018-01-24 중앙대학교 산학협력단 감응식 교통 신호 제어 방법 및 그 장치
JP2019079199A (ja) 2017-10-23 2019-05-23 株式会社豊田中央研究所 信号機切替制御装置、信号機切替制御方法及び信号機切替制御プログラム
KR102021992B1 (ko) * 2018-08-21 2019-09-18 한국과학기술정보연구원 교통신호 제어 장치, 교통신호 제어 방법 및 교통신호 제어 프로그램을 저장하는 저장매체

Also Published As

Publication number Publication date
CN113767427A (zh) 2021-12-07
KR20210122181A (ko) 2021-10-08

Similar Documents

Publication Publication Date Title
KR102155055B1 (ko) 강화학습 기반 신호 제어 장치 및 신호 제어 방법
KR102493930B1 (ko) 강화학습 기반 신호 제어 장치 및 신호 제어 방법
US11093801B2 (en) Object detection device and object detection method
Prioletti et al. Part-based pedestrian detection and feature-based tracking for driver assistance: real-time, robust algorithms, and evaluation
CN103366569B (zh) 实时抓拍交通违章车辆的方法及系统
US20220270480A1 (en) Signal control apparatus and method based on reinforcement learning
Kim et al. Deep traffic light detection for self-driving cars from a large-scale dataset
US11842634B2 (en) Image detection device, signal control system compromising same and signal control method
CN111178286B (zh) 姿态轨迹预测方法、装置及电子设备
KR20200071656A (ko) 교통신호 제어 장치 및 방법
JP2020052647A (ja) 物体検出装置、物体検出方法、物体検出用コンピュータプログラム及び車両制御システム
KR20220032681A (ko) 노상 주차장의 주차 관리 방법
KR102306789B1 (ko) 교행 다차로에서의 이상차량 인식방법 및 장치
US11120292B2 (en) Distance estimation device, distance estimation method, and distance estimation computer program
KR20220101535A (ko) 딥러닝 기반 온-디바이스 실시간 교통제어 시스템
KR20180068462A (ko) 신호등 제어 시스템 및 방법
Ng et al. Traffic Impact Assessment System using Yolov5 and ByteTrack
JP2023116424A (ja) 歩行者の位置を決定する方法及び装置
KR102369824B1 (ko) 교행 다차로를 위한 차량번호 인식방법 및 장치
CN112686136A (zh) 一种对象检测方法、装置及系统
JP5487648B2 (ja) 移動物体計測システム、移動物体計測装置、移動物体計測方法及びプログラム
CN111077893A (zh) 一种基于多灭点的导航方法、电子设备和存储介质
KR102499023B1 (ko) 차로 별 트래픽 흐름을 결정하는 장치 및 방법
US11693421B2 (en) Enhanced remote control of autonomous vehicles
US20220012506A1 (en) System and method of segmenting free space based on electromagnetic waves

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant