KR102573526B1 - 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법 - Google Patents

강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법 Download PDF

Info

Publication number
KR102573526B1
KR102573526B1 KR1020220084607A KR20220084607A KR102573526B1 KR 102573526 B1 KR102573526 B1 KR 102573526B1 KR 1020220084607 A KR1020220084607 A KR 1020220084607A KR 20220084607 A KR20220084607 A KR 20220084607A KR 102573526 B1 KR102573526 B1 KR 102573526B1
Authority
KR
South Korea
Prior art keywords
information
interlocking
traffic
group
signal
Prior art date
Application number
KR1020220084607A
Other languages
English (en)
Inventor
윤진원
백승언
이성진
Original Assignee
주식회사 노타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 노타 filed Critical 주식회사 노타
Priority to KR1020220084607A priority Critical patent/KR102573526B1/ko
Priority to US17/870,138 priority patent/US20240013654A1/en
Application granted granted Critical
Publication of KR102573526B1 publication Critical patent/KR102573526B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/075Ramp control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • G08G1/083Controlling the allocation of time between phases of a cycle

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

본 개시는 뉴럴 네트워크 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 방법 및 장치에 관한 것이다. 본 개시의 일 실시 예에 따른 방법은, 연동 그룹에 포함되는 복수의 교차로 각각에 대한, 현재 신호 주기의 하류부 정보를 이용하여, 연동 그룹의 상태 정보를 설정할 수 있다. 또한, 방법은, 상태 정보를 학습된 강화학습 모델에 입력하고, 학습된 강화학습 모델의 출력으로 녹색 신호 시간 및 오프셋으로 구성된 연동 그룹의 행동 정보를 획득할 수 있다. 또한, 방법은, 다음 신호 주기에 행동을 연동 그룹 내 신호기에 적용하기 위한 연동 신호값을 생성할 수 있다.
본 발명은 Seoul R&BD Program(CY210009)와 관련이 있다.

Description

강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법{APPARATUS AND METHOD FOR CONTROLLING TRAFFIC SIGNALS OF TRAFFIC LIGHTS IN SUB-AREA USING REINFORCEMENT LEARNING MODEL}
본 발명은 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법에 관한 것이다.
도시의 교통량 증가에 따른 교통 정체 심화에 대해 최근 교통 신호 최적화를 통한 문제 해결 방식이 주목받고 있다.
교통 검지기 (Vehicle Detection System, VDS)의 개발에 따라 도로의 정보를 수집하고 이에 대응한 교통 신호 운영 체계를 도입하였으나, 수집 가능한 교통 데이터의 범위 제약, 다중 신호 최적화의 어려움 등의 문제로 현재에는 미리 정의된 TOD (Time of Day)를 통해 고정식으로 신호 운영 중인 상황이다.
최근 AI 영상 분석 기술의 도입으로 도심 교차로 구간에 스마트 카메라를 통해 종래의 VDS보다 양질의 데이터를 확보하는 것이 가능해졌으나, 실시간 최적 신호 제어를 위한 방법은 여전히 한계가 있다.
이에 대해 최근 인공지능 기술을 통해 데이터 기반의 실시간 최적 교통 신호를 위한 다양한 방법들이 제시되고 있으나, 현재의 기술은 여전히 토이 환경 (Toy environment)에서만 실험적으로 구동이 가능한 수준으로 현장 신호 제어에 적용하기 어려운 상황이다.
전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
본 발명은 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법을 제공하는데 있다. 본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 과제 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해보다 분명하게 이해될 것이다. 또한, 본 발명이 해결하고자 하는 과제 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 뉴럴 네트워크 모델을 이용하여 연동 그룹(sub-area) 내 신호기의 교통신호를 제어하는 방법에 있어서, 연동 그룹에 포함되는 복수의 교차로 각각에 대한, 현재 신호 주기(cycle time)의 하류부(downstream) 정보를 이용하여, 상기 연동 그룹의 상태(state) 정보 를 설정하는 단계; 상기 상태 정보를 학습된 뉴럴 네트워크 모델에 입력하고, 상기 학습된 뉴럴 네트워크 모델의 출력으로 녹색 신호 시간 및 오프셋으로 구성된 상기 연동 그룹의 행동(action) 정보를 획득하는 단계; 및 다음 신호 주기에 상기 행동을 상기 연동 그룹 내 신호기에 적용하기 위한 연동 신호값을 생성하는 단계;를 포함하는, 방법을 제공할 수 있다.
본 개시의 제 2 측면은, 뉴럴 네트워크 모델을 이용하여 연동 그룹(sub-area) 내 신호기의 교통신호를 제어하는 장치에 있어서, 적어도 하나의 프로그램이 저장된 메모리; 및 상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크 모델을 구동하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 연동 그룹에 포함되는 복수의 교차로 각각에 대한, 현재 신호 주기(cycle time)의 하류부(downstream) 정보를 이용하여, 상기 연동 그룹의 상태(state) 를 설정하고, 상기 상태를 학습된 뉴럴 네트워크 모델에 입력하고, 상기 학습된 뉴럴 네트워크 모델의 출력으로 녹색 신호 시간 및 오프셋으로 구성된 상기 연동 그룹의 행동(action) 을 획득하며, 다음 신호 주기에 상기 행동을 상기 연동 그룹 내 신호기에 적용하기 위한 연동 신호값을 생성하는 것인, 장치를 제공할 수 있다.
본 개시의 제 3 측면은, 제 1 측면에 따른 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체가 더 제공될 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
전술한 본 개시의 과제 해결 수단에 의하면, 본 개시에서는 교통 정보 수집 장치로부터 수집된 실시간 교통 데이터를 기반으로 강화학습 알고리즘을 통해 연동 그룹 내 각 신호기에 대한 적합 녹색 신호시간을 산출하고 교차로 간 연동 최적화를 위한 적합 오프셋을 실시간으로 산출할 수 있다. 이를 통해, 본 개시에서는 연동 그룹에 진입한 차량이 최소한의 정차 횟수로 구간을 통과하도록 할 수 있다.
또한, 본 개시에서는 단일 교차로 또는 연동 그룹에 포함된 일부 교차로(예를 들어, 중요교차로, 준중요교차로)가 아닌, 연동 그룹에 포함된 모든 교차로에 대한 상태 정보를 강화학습 모델에 적용함으로써, 실시간으로 최적 의사 결정이 가능하여, 실시간 신호 제어에 적합하다.
도 1은 일 실시예에 따른 교통신호 제어 시스템의 개략적인 구성도이다.
도 2a 내지 도 2b는 일 실시예에 따른 강화학습 모델을 설명하기 위한 예시적인 도면이다.
도 3은 일 실시예에 따른 강화학습 모델의 입력변수로 이용되는 교통량 및 대기열을 설명하기 위한 예시적인 도면이다.
도 4는 일 실시예에 따른 연동 그룹을 설명하기 위한 예시적인 도면이다.
도 5는 일 실시예에 따른 강화학습 모델의 상태 정보를 설명하기 위한 예시적인 도면이다.
도 6은 일 실시예에 따른 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 연동 신호값을 생성하여 신호기의 구동을 제어하는 방법을 설명하기 위한 예시적인 도면이다.
도 8은 일 실시예에 따른 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 방법을 설명하기 위한 흐름도이다.
도 9는 일 실시예에 따른 교통신호 제어 장치의 블록도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
삭제
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단" 및 "구성" 등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 교통신호 제어 시스템의 개략적인 구성도이다.
교통신호 제어 시스템(100)은 촬영 장치(110), 신호기(120) 및 교통신호 제어 장치(130)를 포함한다.
촬영 장치(110)는 교차로 이미지를 촬영하기 위한 카메라를 포함할 수 있는데, 가시광선이나 적외선 등 일정범위의 파장의 영상을 촬영할 수 있는 카메라를 포함할 수 있다. 그에 따라 촬영 장치(110)는 주간이나 야간, 또는 현재의 상황에 따라 서로 다른 파장 영역의 영상을 촬영하여 교차로 이미지를 획득할 수도 있다. 이때 촬영 장치(110)는 미리 설정한 주기로 교차로 이미지를 획득할 수 있다.
촬영 장치(110)는 교차로에 설치되되, 설치 높이나 위치에 따라 하나의 교차로에 하나만이 구비되거나, 또는 교차로의 진출입로 수에 대응하는 수만큼 구비될 수 있다. 예를 들어 4지(leg) 교차로의 경우, 4개의 진출입로 각각을 구분하여 촬영하여 교차로 이미지를 획득하는 4개의 촬영 장치(110)가 설치될 수 있다. 또한 예를 들어 4개의 진출입로 각각의 교차로 이미지를 4개의 촬영 장치(110)가 획득하면 4개의 교차로 이미지를 조합하여 1개의 교차로 이미지를 생성할 수도 있다.
교통신호 제어 장치(130)는 교차로에 설치되어 교차로로의 진입차로 또는 교차로로부터의 진출차로 등의 이미지를 촬영하고 분석하는 장치이다. 교통신호 제어 장치(130)는 촬영 장치(110)에 의해 획득된 교차로 이미지를 분석하여 교통량, 대기열 등을 산출할 수 있다. 이와 같이 산출된 정보는 후술되는 강화학습 모델에서 이용될 수 있다.
교통신호 제어 장치(130)는 교차로 이미지를 분석 가능하게 가공하고, 가공된 교차로 이미지에서 차량에 대응하는 객체나 픽셀을 식별할 수 있다. 그리고 이를 위하여 교통신호 제어 장치(130)는 인공신경망을 이용하여 교차로 이미지에서 차량에 대응하는 객체를 식별하거나 각 픽셀이 차량에 대응하는 위치인지를 식별할 수 있다.
또한, 교통신호 제어 장치(130)는 교차로 이미지의 촬영이나 분석을 위해 필요한 프로그램이나 데이터, 파일, 운영체제 등을 저장하고, 교차로 이미지나 교차로 이미지의 분석 결과를 적어도 일시적으로 저장할 수 있다.
또한, 교통신호 제어 장치(130)는 신호기(120)에 구동신호를 인가함으로써, 교차로에 설치된 신호기(120)가 교통신호 제어 장치(130)에서 산출된 제어신호에 따라 구동되도록 할 수 있다. 그에 따라 환경 정보가 업데이트될 수 있고 환경을 관찰하여 획득되는 상태 정보가 업데이트될 수 있다.
한편, 교통신호 제어 장치(130)에 복수개의 신호기(120)가 연결된 경우, 교통신호 제어 장치(130)는 각 신호기(120) 별 녹색 신호 시간과 오프셋을 결정하고, 결정된 녹색 신호 시간과 오프셋에 따라 신호기(120)가 작동하도록 구동신호를 인가할 수 있다.
도 2a 내지 도 2b는 일 실시예에 따른 강화학습 모델을 설명하기 위한 예시적인 도면이다.
도 2a를 참조하면, 강화학습 모델(210)은 에이전트(agent), 상태(state), 환경(environment), 행동(action), 보상(reward) 등의 요소들을 포함할 수 있다.
에이전트는 행동을 수행하는 주체를 의미한다. 행동은 에이전트가 수행할 수 있는 모든 행동을 의미한다. 상태는 에이전트가 인식하는 구체적이고 즉각적인 자신의 상황이다. 환경은 에이전트의 현재 상태 및 행동을 입력 받아, 보상과 다음 상태를 출력한다. 보상은 에이전트의 행동에 대한 성공이나 실패를 측정하는 피드백이다.
본 개시에서, 에이전트는 신호기, 상태는 교차로의 하류부에 관한 교통량 및 대기열, 액션은 신호기의 녹색 신호 시간 및 오프셋, 보상은 교차로의 정지율을 의미할 수 있다.
도 2b를 참조하면, 강화학습 알고리즘(220)은 정책 그래디언트(policy gradient) 알고리즘으로 구현될 수 있다. 예를 들어, 강화학습 알고리즘(220)은 DDPG(Deep Deterministic Policy Gradient) 알고리즘으로 구현될 수 있다.
강화학습 모델의 학습을 위한 강화학습 알고리즘(220)은, 액터(actor) 네트워크 및 크리틱(critic) 네트워크로 구성될 수 있다.
액터 네트워크는 교차로(i)의 상태 에 대해 최적의 행동 을 산출하는 인공신경망, 그리고 크리틱 네트워크는 주어진 상태 에 대해 액터 네트워크에 의해 선택된 행동의 적절성을 평가하기 위해 -값 (-value)을 산출하는 인공신경망으로, 액터 네트워크와 크리틱 네트워크는 상보적으로 작용하며 최적 의사 결정을 도출할 수 있다.
구체적으로, 액터 네트워크는 정책(policy) 함수를 표현하는 인공신경망이며, 정책이란 교차로(i)의 상태 에 대해 행동 을 결정해주는 함수 이며, 강화학습은 최적정책 를 찾는 것을 목표로 한다. 액터 네트워크는 상태변수 를 입력변수로 하여 행동변수 를 출력하는 인공신경망 (trainable parameters)으로써, 와 같이 정의될 수 있다.
또한, 크리틱 네트워크는 -함수를 표현하는 인공신경망이며, -함수란 주어진 상태 에 작용한 행동 의 적절성을 보상 를 통해 수치화한 것으로, 로 정의된다. 크리틱 네트워크는 상태변수 와 이에 대해 액터 네트워크에서 산출된 를 입력변수로 하여 -값을 산출하는 인공신경망 (trainable parameters)으로써, 아래의 수학식 1과 같이 정의될 수 있다.
크리틱 네트워크는 -값에 대한 MSE(mean-squared error)로 정의된 손실함수를 최소화하도록 인공신경망 를 학습시킬 수 있다. 이후 액터 네트워크는 크리틱 네트워크로부터 산출되는 -값들의 총합을 최소화하도록 인공신경망 를 학습시킬 수 있다. 이 과정의 반복을 통해 크리틱 네트워크는 -함수를 근사하고, 액터 네트워크는 정책 함수를 근사할 수 있다.
한편, 강화학습 모델의 학습이 완료된 후, 교통신호 제어 장치는 액터 네트워크만을 이용하여 추론을 수행할 수 있다. 교통신호 제어 장치는 연동 그룹의 상태 정보를 학습이 완료된 액터 네트워크에 입력하고, 학습이 완료된 액터 네트워크의 출력으로 녹색 신호 시간 및 오프셋으로 구성된 연동 그룹의 행동 정보를 획득할 수 있다. 이에 대해서는 도 6에서 후술하기로 한다.
도 3은 일 실시예에 따른 강화학습 모델의 입력변수로 이용되는 교통량 및 대기열을 설명하기 위한 예시적인 도면이다.
교차로(300)는 복수개의 접속 링크가 연결될 수 있다. 교차로(300)에 포함되는 접속 링크의 개수는 교차로(300)의 지(leg) 개수에 대응된다. 예를 들어, 도 3을 참조하면, 교차로(300)는 4지 교차로에 해당되며 따라서 4개의 접속 링크(310, 320, 330, 340)가 연결된다.
또한, 교차로(300)의 각 접속 링크는 상류부와 하류부로 구성된다. 접속 링크의 상류부는 교차로(300)에서는 진출하는 도로이고, 접속 링크의 하류부는 교차로(300)로 진입하는 도로를 나타낸다. 도 3을 참조하면, 4개의 접속 링크(310, 320, 330, 340)에 포함되는 도로들 중에, 교차로(300)로 진입하는 도로(311, 321, 331, 341)가 접속 링크의 하류부에 해당된다.
한편, 교차로(300)의 하류부에서 획득되는 하류부 정보에는 교통량 및 대기열이 포함될 수 있다.
교통량은 특정 접속 링크를 통해 교차로(300)를 통과하기 위한 교통 수요를 나타낸다. 교통량은 1시간 동안 특정 지점을 통과한 차량의 수로 정의되며 단위는 veh/hour 로써 표현될 수 있다. 교통신호 제어 장치는 교차로(330) 접속 링크의 하류부 정지선 부근에 설치된 루프검지기 등의 VDS를 통해, 특정 접속 링크를 통과한 차량의 수를 카운팅할 수 있다.
대기열은 교차로(300) 접속 링크의 하류부에서 교통 신호에 의한 서비스를 받기 위해 정지하고 있는 차량에 의해 발생하는 대기행렬(queue)의 최대값을 의미한다. 대기열은 대기행렬의 길이(단위는 m)로써 표현될 수 있다. 또는, 교통신호 제어 장치는 촬영 장치에서 획득된 교차로 이미지를 분석하여 정확한 대기차량 수를 카운팅함으로써 '대기차량 수(veh)'를 대기열 정보로 사용할 수 있다.
일 실시예에서, 교통신호 제어 장치는 교통량 및 대기열을 가공하여 강화학습 모델의 입력변수로 이용할 수 있다.
교통량의 경우, 도로의 폭, 제한속도 등 도로의 기하구조적 특성에 의한 영향을 받을 수 있다. 즉, 교통량은 교통 정보가 수집된 도로의 기하구조적 특성을 내포한 값이므로, 일반화를 위해 기하구조에 관계되지 않은 값으로 변환하는 과정이 필요하다. 교통신호 제어 장치는 교통량을 최대교통량으로 나눈 값인 '교통량 수준'을 가공 교통량으로 산출할 수 있다. 이하에서 가공 교통량은 로 표현하기로 한다.
또한, 대기열은, 도로에 포함되는 복수의 차로 각각에서 취득되는 데이터이며, 대기열의 수치 자체로는 전체 접속 링크의 혼잡도를 반영하기 어려울 수 있다. 교통신호 제어 장치는 대기열을 접속 링크 하류부의 길이로 나누어 밀도를 추정한 값인 '대기열의 점유도'를 가공 대기열로 산출할 수 있다. 이하에서 가공 대기열은 로 표현하기로 한다.
도 4는 일 실시예에 따른 연동 그룹을 설명하기 위한 예시적인 도면이다.
신호교차로(이하, 교차로)로 구성된 도로체계에서는 인접한 교차로들이 영향을 주고받으므로, 원활한 교통소통을 위해 각 교차로의 효율적인 신호운영과 교차로 간의 연동제어가 수행되어야 한다.
연동 그룹(Sub-Area, SA)은 연동제어가 수행되는 최소제어단위로써, 서로 인접한 적어도 하나의 교차로를 그룹핑한 것이다. 유사한 교통 패턴을 갖는 교차로들은 하나의 연동 그룹으로 그룹핑될 수 있다.
도 4를 참조하면, 도로체계(400)는 4개의 연동 그룹(410, 420, 430, 440)으로 구분되고, 각 연동 그룹(410, 420, 430, 440)에는 적어도 하나 이상의 중요교차로가 포함될 수 있다.
도로체계의 교통신호 제어는, 각 연동 그룹 내에서 주축 교통류의 정지 횟수를 최소화하도록 설계된 연동 신호를 구현하는 방식으로 수행될 수 있다. 교통신호를 제어하기 위한 변수에는, 최초 교차로 설계 시 결정되는 현시 설계(phase design), 현시 순서(phase order) 및 링 설계(ring design) 변수가 포함된다. 도 4를 참조하면, 소정의 교통신호는 5개의 현시를 갖고, Ph1에서 Ph5 순의 순서를 가지며, 단일 링으로 구성된다.
또한, 교통신호를 제어하기 위한 변수에는, 교통 데이터에 따라 동적으로 변경이 가능한 주기 시간(cycle time), 녹색 신호 시간(greenlight time), 오프셋(offset) 변수가 포함된다.
본 개시에서는 촬영 장치, 루프검지기 등의 교통 정보 수집 장치로부터 수집된 실시간 교통 데이터를 기반으로 강화학습 알고리즘을 통해 연동 그룹 내 각 신호기에 대한 적합 녹색 신호시간을 산출하고 교차로 간 연동 최적화를 위한 적합 오프셋을 산출할 수 있다. 이를 통해, 본 개시에서는 연동 그룹에 진입한 차량이 최소한의 정차 횟수로 구간을 통과하도록 할 수 있다.
도 5는 일 실시예에 따른 강화학습 모델의 상태 정보를 설명하기 위한 예시적인 도면이다.
설명의 편의를 위해 연동 그룹(500)에는 두 개의 교차로(i) 즉, 교차로 1(510) 및 교차로 2(520)가 포함되는 것으로 한다.
교차로 1(510) 및 교차로 2(520) 각각에는 4개의 접속 링크(j)가 연결되며, 교통신호 제어 장치는 각 교차로(i) 별 접속 링크(j)의 하류부 정보를 획득하고, 하류부 정보를 강화학습 모델에 이용할 연동 그룹(500)의 상태 정보로 설정할 수 있다.
구체적으로, 상태 정보는 연동 그룹(500) 내의 각 교차로(i)의 현재 교통 상황을 표현하기 위한 것으로, 교차로 접속 링크(j)의 상태를 집합적으로 표현하여 교차로의 상태로 표현한 것이다.
일 실시예에서, 각 교차로(i) 별 접속 링크(j)의 하류부 정보 가공 교통량 및 가공 대기열로 구성될 수 있다. 도 3에서 상술한 바와 같이, 가공 교통량은 는 교통량을 최대교통량으로 나눈 값이며, 가공 대기열은 는 대기열을 접속 링크 하류부의 길이로 나누어 밀도를 추정한 값일 수 있다.
접속 링크(j)의 하류부 정보 는 가공 교통량과 가공 대기열에 대한 표준화된 값으로 구성된 벡터인 로 표현될 수 있다.
또한, 교차로(i)의 상태 정보 는 해당 교차로 접속 링크(j)의 하류부 정보들을 결합(concatenate)하여 구성된 벡터인 로 표현될 수 있다. 여기서, 는 교차로(i)에 결합되는 접속 링크의 인덱스 집합을 의미한다.
교통신호 제어 장치는 상술한 방법을 통해, 연동 그룹에 포함되는 복수의 교차로 각각에 대한, 현재 신호 주기(cycle time)의 하류부 정보를 이용하여, 연동 그룹의 상태 정보를 설정할 수 있다. 본 개시에서는 단일 교차로 또는 연동 그룹에 포함된 일부 교차로(예를 들어, 중요교차로, 준중요교차로)가 아닌, 연동 그룹에 포함된 모든 교차로에 대한 상태 정보를 강화학습 모델에 적용할 수 있다.
도 6은 일 실시예에 따른 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 방법을 설명하기 위한 도면이다.
도 6을 참조하면, 강화학습 모델(600)의 에이전트는 연동 그룹 내 신호기, 상태는 연동 그룹 내 교차로의 하류부에 관한 가공 교통량 및 가공 대기열, 액션은 신호기의 녹색 신호 시간 및 오프셋, 보상은 교차로의 정지율을 의미할 수 있다.
교통신호 제어 장치는 연동 그룹에 포함되는 복수의 교차로 각각의 상태를 나타내는 상태 정보를 설정할 수 있다. 교통신호 제어 장치는 복수의 교차로 각각에 연결된 복수의 접속 링크에 대한 하류부 정보를 이용하여 상태 정보를 설정할 수 있다.
구체적으로, 도 5에서 상술한 바와 같이, 교차로(i)의 상태 정보 는 해당 교차로 접속 링크(j)의 하류부 정보들을 결합(concatenate)하여 구성된 벡터인 로 표현될 수 있다.
또한, 교통신호 제어 장치는 상태 정보를 학습된 강화학습 모델에 입력하고, 학습된 강화학습 모델의 출력으로 녹색 신호 시간 및 오프셋으로 구성된 상기 연동 그룹의 행동 정보를 획득할 수 있다.
행동 정보는 최적화 문제의 제어 변수로써, 연동 그룹 내 각 교차로 별 복수의 신호기들의 구동 방식을 결정하기 위한 연동 신호값으로 이용될 수 있다. 행동 정보를 이용하여 연동 그룹 내 복수의 신호기들의 신호 연동을 최적화 하기 위해, 교통신호 제어 장치는 공통된 신호 주기에 대해 녹색 신호 시간과 오프셋을 결정할 수 있다.
구체적으로, 녹색 신호 시간의 경우, 연동 그룹 내에서 고정된 신호 주기(c)에 대해 각 교차로의 현시 집합을 라 할 때, 녹색 신호 시간은 아래의 수학식 2로 정의될 수 있다. 아래 수학식 2에서 신호 교차로(i)의 현시 에 부여된 녹색 신호 시간 은, 최소녹색신호시간 와 최대녹색신호시간 사이의 정수로 정의될 수 있다.
오프셋의 경우, 연동 그룹 내 기준 교차로의 신호 주기에 대해 대상 교차로의 신호 주기가 시작되는 시간차를 의미하며, 오프셋은 라 표현되고, 의 범위의 음이 아닌 정수로 정의될 수 있다.
녹색 신호 시간 및 오프셋으로 구성된 연동 그룹 내 각 교차로 별 행동 정보 는 아래의 수학식 3으로 정의될 수 있다.
한편, 교통신호 제어 장치는 가공 교통량 및 가공 대기열에 기초하여 산출된 정지율을 보상 정보로 설정할 수 있다. 보상 정보는 도 2b에서 상술한 강화학습 모델의 학습 단계에서 크리틱 네트워크의 입력 데이터로 사용되는 정보일 수 있다.
보상 정보는 최적화 문제의 목적함수로 기능하며, 교통신호 제어 장치는 연동 그룹의 연동 최적화를 목표로 하므로, 연동 그룹을 통과하는 차량들의 총 정지횟수를 최소화를 목적함수로써 보상 정보를 설정할 수 있다.
교차로 내 촬영 장치의 설치 영역이 교통신호 제어 구간의 전 영역을 포함하지 못하여 전 구간에서의 정지 횟수를 직접적으로 측정하는 것이 어려울 수 있다. 이를 위해, 교통신호 제어 장치는 보상 변수를 각 교차로 접속 링크의 하류부에서 관측할 수 있는 정지율로 정의할 수 있다.
구체적으로, 교차로(i)의 각 접속 링크(j)의 정지율은 로 정의될 수 있다. 정지율 는 각 접속 링크(j) 하류부에서 소정의 신호 주기에 관측되는 대기열을 교통량으로 나눈 값으로, 소정의 신호 주기 당 통과한 차량들 중 정지를 경험한 차량의 비율을 의미할 수 있다. 교통신호 제어 장치는 각 링크 하류부에서 얻어지는 정지율을 산술 평균하여 교차로(i)의 보상 변수로 정의하며, 아래 수학식 4로 정의될 수 있다.
교통신호 제어 장치는 연동 그룹에 포함되는 복수의 교차로 각각에 대한 상태 정보, 행동 정보 및 보상 정보에 기초하여, 강화학습 모델을 학습시킬 수 있다. 즉, 교통신호 제어 장치는 연동 그룹에 포함되는 복수의 교차로와 관련된 모든 접속 링크 각각에 대한 상태 정보의 집합인 상태 정보 세트가 학습된 강화학습 모델(600)에 입력되어 기결정된 최적의 정책(policy)을 기반으로 하나의 행동 정보 세트가 강화학습 모델(600)에서 출력될 수 있다. 여기서, 행동 정보 세트는, 연동 그룹에 포함되는 복수의 교차로와 관련된 모든 접속 링크의 신호기에 대한 행동 정보를 나타낸다. 또한, 교통신호 제어 장치는 강화학습 모델(600)에서 출력된 하나의 행동 정보 세트를 기초로 연동 신호값을 생성하고, 연동 신호값을 상태 정보를 수집한 연동 그룹 내의 교차로에 일괄 적용할 수 있다.
도 7은 일 실시예에 따른 연동 신호값을 생성하여 신호기의 구동을 제어하는 방법을 설명하기 위한 예시적인 도면이다.
교통신호 제어 장치는 현재 신호 주기의 연동 그룹의 상태 정보를 학습이 완료된 액터 네트워크에 입력하고, 학습이 완료된 액터 네트워크의 출력으로 녹색 신호 시간 및 오프셋으로 구성된 연동 그룹의 행동 정보를 획득할 수 있다.
또한, 교통신호 제어 장치는 학습이 완료된 액터 네트워크로부터 획득된 행동 정보를 다음 신호 주기에 연동 그룹 내 신호기에 적용하기 위한, 연동 신호값을 생성할 수 있다.
일 실시예에서, 교통신호 제어 장치는 행동 정보에 포함된 오프셋이 기설정된 절대값 범위 안의 값인지 결정할 수 있다.
교통신호 제어 장치는 오프셋이 기설정된 절대값 범위 안의 값으로 설정된 것에 응답하여, 오프셋을 다음 신호 주기에 연동 그룹 내 신호기에 적용하도록 연동 신호값을 생성할 수 있다. 기설정된 절대값 범위는, 현재 신호 주기 기준으로 음의 방향으로 -17%, 또는 양의 방향으로 +33%의 범위 안의 값일 수 있으나, 이에 제한되지 않는다. 예를 들어, 현재 신호 주기(t)가 150초이고, 액터 네트워크로부터 획득된 행동 정보의 오프셋이 30초인 경우, 이는 양의 방향으로 20% 범위 안의 값이므로, 교통신호 제어 장치는 다음 신호 주기(t+1)에 오프셋을 연동 그룹 내 신호기에 즉시 적용할 수 있다.
반면, 교통신호 제어 장치는 오프셋이 기설정된 절대값 범위 밖의 값으로 설정된 것에 응답하여, 복수의 다음 신호 주기로 구성된 전이(transition) 과정 동안 오프셋을 연동 그룹 내 신호기에 적용하도록 연동 신호값을 생성할 수 있다. 오프셋이 기설정된 절대값 범위 밖으로 설정된 경우, 오프셋을 다음 신호 주기에 즉시 적용할 경우 교통류의 급격한 변화가 발생할 수 있으므로, 이를 방지하기 위해 본 개시에서는 전이 과정을 통해 새로운 오프셋 설정을 몇 주기 동안 서서히 변화시켜 발생하게 할 수 있다. 예를 들어, 오프셋이 기설정된 절대값 범위 밖을 얼마나 벗어나는지에 따라, 교통신호 제어 장치는 1주기 내지 3주기 동안 서서히 오프셋을 변화시킬 수 있다.
도 7을 참조하면, 전이 과정을 고려하여 설정된 단위 시간이 도시된다. 오프셋이 기설정된 절대값 범위 밖의 값으로 설정된 경우, 교통신호 제어 장치는 복수의 다음 신호 주기로 구성된 전이 과정 동안 오프셋을 연동 그룹 내 신호기에 적용하도록 연동 신호값을 생성하는데, 전이 과정 동안에는 신호기의 구동 환경이 안정적이지 않을 수 있다.
이에 따라, 액터 네트워크로부터 행동 정보를 획득하고, 획득된 행동 정보를 다음 신호 주기에 적용하는 것을 매 신호 주기마다 수행하는 대신, 교통신호 제어 장치는 전이 과정 동안에는 행동 정보를 획득하는 것을 생략하고, 전이 과정 이후 다음 신호 주기(즉, 관측 과정)의 하류부 정보를 이용하여 연동 그룹의 상태 정보를 설정할 수 있다.
이를 통해, 본 개시에서는 보다 안정적인 액터 네트워크의 출력값(즉, 행동 정보)을 획득함으로써 교통신호 최적화를 달성할 수 있다.
도 8은 일 실시예에 따른 뉴럴 네트워크 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 방법을 설명하기 위한 흐름도이다.
도 8를 참조하면, 단계 810에서, 프로세서는 연동 그룹에 포함되는 복수의 교차로 각각에 대한, 현재 신호 주기의 하류부 정보를 이용하여, 연동 그룹의 상태 정보를 설정할 수 있다.
일 실시예에서, 하류부 정보는 가공 교통량 및 가공 대기열을 포함하고, 가공 교통량은, 소정의 시간당 특정 지점을 통과한 차량의 수로 정의되는 교통량 및 도로의 기하구조에 관계되지 않은 최대교통량에 기초하여 산출되고, 가공 대기열은, 대기차량 수 및 하류부 길이에 기초하여 산출되는 것일 수 있다.
단계 820에서, 프로세서는 상태 정보를 학습된 뉴럴 네트워크 모델에 입력하고, 학습된 뉴럴 네트워크 모델의 출력으로 녹색 신호 시간 및 오프셋으로 구성된 연동 그룹의 행동 정보를 획득할 수 있다.
학습된 뉴럴 네트워크 모델은 액터 네트워크로서, 뉴럴 네트워크 모델은 학습 단계에서 액터 네트워크 및 크리틱 네트워크를 포함한 강화학습으로 학습될 수 있다.
일 실시예에서, 녹색 신호 시간은 최소녹색신호시간 및 최대녹색신호시간 사이의 값으로 설정되고, 오프셋은 고정 신호 주기의 절대값 내의 값으로 설정될 수 있다.
단계 830에서, 프로세서는 다음 신호 주기에 상기 행동을 연동 그룹 내 신호기에 적용하기 위한 연동 신호값을 생성할 수 있다.
상태 정보는 연동 그룹에 포함되는 복수의 교차로 각각에 대한 상태 정보의 집합인 상태 정보 세트로 설정되고, 행동 정보는 상기 연동 그룹 내 복수의 신호기 각각에 대한 행동 정보의 집합인 행동 정보 세트로 설정되며, 연동 신호값은 상기 연동 그룹 내 복수의 신호기 각각에 일괄 적용될 수 있다.
프로세서는 오프셋이 기설정된 절대값 범위 안의 값으로 설정된 것에 응답하여, 오프셋을 다음 신호 주기에 연동 그룹 내 신호기에 적용하도록 연동 신호값을 생성할 수 있다.
프로세서는 오프셋이 기설정된 절대값 범위 밖의 값으로 설정된 것에 응답하여, 복수의 다음 신호 주기로 구성된 전이(transition) 과정 동안 오프셋을 연동 그룹 내 신호기에 적용하도록 연동 신호값을 생성할 수 있다.
일 실시예에서, 프로세서는 전이 과정 이후 다음 신호 주기의 하류부 정보를 이용하여, 연동 그룹의 상태 정보를 설정할 수 있다.
프로세서는 가공 교통량 및 가공 대기열에 기초하여 산출된 정지율을 보상정보로 설정하고, 상태 정보, 행동 정보 및 보상 정보에 기초하여, 강화학습 모델을 학습시킬 수 있다.
일 실시예에서, 뉴럴 네트워크 모델은 액터 네트워크로서, 크리틱 네트워크를 포함한 강화학습으로 학습될 수 있다. 액터 네트워크는 입력 데이터로 상태 정보를 이용하고 출력 데이터로 행동 정보를 이용함으로써 학습되고, 크리틱 네트워크는 입력 데이터로 액터 네트워크에서 출력된 행동 정보를 이용하고 출력 데이터로 보상 정보를 이용함으로써 학습될 수 있다.
도 9는 일 실시예에 따른 교통신호 제어 장치의 블록도이다.
도 9를 참조하면, 교통신호 제어 장치(900)는 통신부(910), 프로세서(920) 및 DB(930)를 포함할 수 있다. 도 9의 교통신호 제어 장치(900)에는 실시예와 관련된 구성요소들만이 도시되어 있다. 따라서, 도 9에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.
통신부(910)는 외부 서버 또는 외부 장치와 유선/무선 통신을 하게 하는 하나 이상의 구성 요소를 포함할 수 있다. 예를 들어, 통신부(910)는, 근거리 통신부(미도시), 이동 통신부(미도시) 및 방송 수신부(미도시) 중 적어도 하나를 포함할 수 있다.
DB(930)는 교통신호 제어 장치(900) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 프로세서(920)의 처리 및 제어를 위한 프로그램을 저장할 수 있다.
DB(930)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM, 블루레이 또는 다른 광학 디스크 스토리지, HDD(hard disk drive), SSD(solid state drive), 또는 플래시 메모리를 포함할 수 있다.
프로세서(920)는 교통신호 제어 장치(900)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(920)는 DB(930)에 저장된 프로그램들을 실행함으로써, 입력부(미도시), 디스플레이(미도시), 통신부(910), DB(930) 등을 전반적으로 제어할 수 있다. 프로세서(920)는, DB(930)에 저장된 프로그램들을 실행함으로써, 교통신호 제어 장치(900)의 동작을 제어할 수 있다.
프로세서(920)는 도 1 내지 도 8에서 상술한 교통신호 제어 장치(900)의 동작 중 적어도 일부를 제어할 수 있다. 교통신호 제어 장치(900)는 도 1의 시스템(100)과 동일하거나, 시스템(100)의 동작 중 일부를 수행하는 장치로 구현될 수 있다.
프로세서(920)는 ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적 유닛 중 적어도 하나를 이용하여 구현될 수 있다.
일 실시예로, 교통신호 제어 장치(900)는 이동성을 가지는 전자 장치일 수 있다. 예를 들어, 교통신호 제어 장치(900)는 스마트폰, 태블릿 PC, PC, 스마트 TV, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 내비게이션, 카메라가 탑재된 디바이스 및 기타 모바일 전자 장치로 구현될 수 있다. 또한, 교통신호 제어 장치(900)는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 장치로 구현될 수 있다.
다른 실시예로, 교통신호 제어 장치(900)는 차량 외부에 위치하는 서버일 수 있다. 서버는 네트워크를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 서버는 차량에 탑재된 장치들로부터 이미지의 이벤트를 분류하기 위해 필요한 데이터를 수신하고, 수신한 데이터에 기초하여 이미지의 이벤트를 분류할 수 있다.
또 다른 실시예로, 교통신호 제어 장치(900)에서 수행되는 프로세스는 이동성을 가지는 전자 장치, 차량 내에 임베디드 되는 전자 장치 및 차량 외부에 위치하는 서버 중 적어도 일부에 의해 수행될 수 있다.
본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
일 실시예에 따르면, 본 개시의 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (10)

  1. 뉴럴 네트워크 모델을 이용하여 연동 그룹(sub-area) 내 복수의 신호기의 교통신호를 제어하는 방법에 있어서,
    연동 그룹에 포함되는 복수의 교차로 각각에 대한, 현재 신호 주기(cycle time)의 하류부(downstream) 정보를 이용하여, 상기 연동 그룹의 상태(state) 정보를 설정하는 단계;
    상기 상태 정보를 학습된 뉴럴 네트워크 모델에 입력하고, 상기 학습된 뉴럴 네트워크 모델의 출력으로 녹색 신호 시간 및 오프셋으로 구성된 상기 연동 그룹의 행동(action) 정보를 획득하는 단계;
    상기 오프셋이 기설정된 제1 절대값 범위 안의 값인지 여부를 결정하는 단계; 및
    상기 오프셋이 상기 제1 절대값 범위 밖의 값으로 결정된 경우, 복수의 다음 신호 주기로 구성된 전이(transition) 과정 동안 상기 행동 정보를 상기 연동 그룹 내 신호기에 적용하도록 연동 신호값을 생성하는 단계;
    를 포함하는, 방법.
  2. 제 1 항에 있어서,
    상기 하류부 정보는 가공 교통량 및 가공 대기열을 포함하고,
    상기 가공 교통량은, 소정의 시간당 특정 지점을 통과한 차량의 수로 정의되는 교통량 및 도로의 기하구조에 관계되지 않은 최대교통량에 기초하여 산출되고,
    상기 가공 대기열은, 대기차량 수 및 하류부 길이에 기초하여 산출되는 것인, 방법.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 방법은,
    상기 오프셋이 상기 제1 절대값 범위 안의 값으로 결정된 경우, 상기 행동 정보를 다음 신호 주기에 상기 연동 그룹 내 신호기에 적용하도록 연동 신호값을 생성하는 단계;
    를 더 포함하는, 방법.
  5. 삭제
  6. 제 1 항에 있어서,
    상기 방법은,
    상기 오프셋이 상기 제1 절대값 범위 밖의 값으로 결정된 경우, 상기 전이 과정 이후 다음 신호 주기의 하류부 정보를 이용하여, 상기 연동 그룹의 상태 정보를 설정하는 단계;
    를 더 포함하는, 방법.
  7. 제 2 항에 있어서,
    상기 방법은,
    상기 가공 교통량 및 상기 가공 대기열에 기초하여 산출된 정지율을 보상(reward) 정보로 설정하는 단계; 및
    상기 상태 정보, 상기 행동 정보 및 상기 보상 정보에 기초하여, 상기 뉴럴 네트워크 모델을 학습시키는 단계;
    를 포함하는, 방법.
  8. 제 7 항에 있어서,
    상기 뉴럴 네트워크 모델은 액터(actor) 네트워크로서, 크리틱(critic) 네트워크를 포함한 강화학습으로 학습되되,
    상기 액터 네트워크는, 상기 연동 그룹 내 신호기의 교통신호를 제어하기 위한 최적의 정책을 결정하기 위해, 입력 데이터로 상기 상태 정보를 이용하고 출력 데이터로 상기 행동 정보를 이용함으로써 학습되고,
    상기 크리틱 네트워크는, 입력 데이터로 상기 액터 네트워크에서 출력된 행동 정보를 이용하고 출력 데이터로 상기 액터 네트워크에서 출력된 상기 행동의 적절성을 평가하기 위한 보상 정보를 이용함으로써 학습되는 것인, 방법.
  9. 뉴럴 네트워크 모델을 이용하여 연동 그룹(sub-area) 내 신호기의 교통신호를 제어하는 장치에 있어서,
    적어도 하나의 프로그램이 저장된 메모리; 및
    상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크 모델을 구동하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    연동 그룹에 포함되는 복수의 교차로 각각에 대한, 현재 신호 주기(cycle time)의 하류부(downstream) 정보를 이용하여, 상기 연동 그룹의 상태(state)를 설정하고,
    상기 상태를 학습된 뉴럴 네트워크 모델에 입력하고, 상기 학습된 뉴럴 네트워크 모델의 출력으로 녹색 신호 시간 및 오프셋으로 구성된 상기 연동 그룹의 행동(action)을 획득하며,
    상기 오프셋이 기설정된 제1 절대값 범위 안의 값인지 여부를 결정하고,
    상기 오프셋이 상기 제1 절대값 범위 밖의 값으로 결정된 경우, 복수의 다음 신호 주기로 구성된 전이(transition) 과정 동안 상기 행동을 상기 연동 그룹 내 신호기에 적용하도록 연동 신호값을 생성하는 것인, 장치.
  10. 제 1 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020220084607A 2022-07-08 2022-07-08 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법 KR102573526B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220084607A KR102573526B1 (ko) 2022-07-08 2022-07-08 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법
US17/870,138 US20240013654A1 (en) 2022-07-08 2022-07-21 Apparatus and method for controlling traffic signals of traffic lights in sub-area by using reinforcement learning model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220084607A KR102573526B1 (ko) 2022-07-08 2022-07-08 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102573526B1 true KR102573526B1 (ko) 2023-09-06

Family

ID=87973819

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220084607A KR102573526B1 (ko) 2022-07-08 2022-07-08 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법

Country Status (2)

Country Link
US (1) US20240013654A1 (ko)
KR (1) KR102573526B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210122181A (ko) * 2020-03-30 2021-10-08 라온피플 주식회사 강화학습 기반 신호 제어 장치 및 신호 제어 방법
KR102400833B1 (ko) * 2020-12-29 2022-05-20 서울시립대학교 산학협력단 Ai 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210122181A (ko) * 2020-03-30 2021-10-08 라온피플 주식회사 강화학습 기반 신호 제어 장치 및 신호 제어 방법
KR102400833B1 (ko) * 2020-12-29 2022-05-20 서울시립대학교 산학협력단 Ai 강화학습 기반의 교통 신호 제어 장치 및 이를 수행하는 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
심층 강화학습 기술 동향. 장수영외 3. 전자통신동향분석, 제34권, 제4호, 2019년 8월. pp. 1-14. 1부.* *
현실 제약 조건을 반영한 강화학습 기반 교통 신호 제어. 피민규외 2. 정보과학회논문지, 제48권, 제8호, 2021년 8월. pp.871-877. 1부.* *

Also Published As

Publication number Publication date
US20240013654A1 (en) 2024-01-11

Similar Documents

Publication Publication Date Title
Luo et al. A multisource data approach for estimating vehicle queue length at metered on-ramps
EP3035314B1 (en) A traffic data fusion system and the related method for providing a traffic state for a network of roads
CN112470199A (zh) 用于点对点流量预测的系统和方法
CN113223293B (zh) 路网仿真模型的构建方法、装置及电子设备
CN116029395B (zh) 商业区域的人流预警方法、装置、电子设备及存储介质
CN111429737A (zh) 一种基于agent的城市区域边界控制方法及系统
Mihaita et al. Traffic congestion anomaly detection and prediction using deep learning
US11361127B2 (en) Simulation device, simulation method, and storage medium
CN108537195A (zh) 一种基于单帧表示模型的人类活动识别方法
KR102573526B1 (ko) 강화학습 모델을 이용하여 연동 그룹 내 신호기의 교통신호를 제어하는 장치 및 방법
Rong et al. Big data intelligent tourism management platform design based on abnormal behavior identification
KR102463875B1 (ko) 빅데이터를 활용한 사용자 맞춤 심리 치료 콘텐츠 제공 방법, 장치 및 시스템
KR102590525B1 (ko) 교차로의 현시와 관련된 제어신호를 생성하는 방법 및 장치
CN114781696B (zh) 一种面向城市路网的无模型事故影响范围预测方法
CN115440063A (zh) 交通信号灯的控制方法、装置、计算机设备和存储介质
CN115908593A (zh) 一种编码解码方法、装置及相关设备
CN113457167A (zh) 用户分类网络的训练方法、用户分类方法及装置
KR102629051B1 (ko) 선형계획법에 기반한 오프셋 제어 방법 및 장치
CN113538895A (zh) 车辆调控方法、装置、系统及计算机存储介质
Liu Refined judgment of urban traffic state based on machine learning and edge computing
CN117975736B (zh) 一种无人驾驶车辆车路协同应用场景测试方法及系统
Hua et al. Safety-oriented dynamic speed harmonization of mixed traffic flow in nonrecurrent congestion
Shabestary Deep Reinforcement Learning Approach to Multimodal Adaptive Traffic Signal Control
CN109829378A (zh) 道路抛撒行为的识别方法、装置及电子设备
CN117208019B (zh) 基于值分布强化学习的感知遮挡下纵向决策方法及系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant