KR102346506B1

KR102346506B1 - 강화학습 기반의 교통 신호 시간 제어 방법 및 장치

Info

Publication number: KR102346506B1
Application number: KR1020200012103A
Authority: KR
Inventors: 임유진; 주현진
Original assignee: 숙명여자대학교산학협력단
Priority date: 2020-01-03
Filing date: 2020-01-31
Publication date: 2022-01-03
Also published as: KR20210087856A

Abstract

본 발명은 교차로에서 복수의 통행 방향 및 통행 방향별 대기 차량 수에 따라 구분되는 상태, 특정 상태에 대해 소정 범위 내의 통행 신호 시간을 설정하는 행동 및 상기 교차로의 차량 통행량 및 차량 평균 대기시간에 따라 결정되는 보상을 결정하는 단계; 상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 단계; 및 상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호 시간을 설정하는 단계를 포함하는 것을 특징으로 하는 하는 강화학습 기반의 교통 신호 시간 제어 방법을 제공한다.

Description

강화학습 기반의 교통 신호 시간 제어 방법 및 장치{METHOD AND APPARATUS FOR CONTROLLING TRAFFIC SIGNAL TIMING BASED ON REINFORCEMENT LEARNING}

본 발명은 강화학습에 기반하는 교통 신호 시간의 제어 방법 및 장치를 제공한다.

스마트시티는 최근 도시 발전의 미래 트렌드로, 우리가 생활에서 사용하는 거의 모든 것을 효율적이고 편리하게 삶의 질을 향상시키고자 한다. 스마트 교통 관리 시스템(smart traffic management system)은 교통 체증을 줄이기 위한, 스마트 시티의 중요한 측면 중 하나이다. 교통 혼잡(traffic congestion)은 매일 도시지역에서 발생한다. 교통 혼잡은 연료 소비량, 운영비 그리고 이동시간 등을 증가 시키기 때문에 비용이 많이 발생한다. 또한, 이에 따라 환경오염을 유발한다.

따라서, 교통 혼잡은 교통 시스템에서 해결해야 할 주요 과제이다. 교통 혼잡을 해결하기 위해, 교통 관리 시스템에 대해 다양한 연구가 수행되었다. 최근에는 효율적이고 안전하며 친환경적인 지능형 교통 시스템(intelligent transportation systems)에 대한 연구가 실시되었다. 교통 관리 시스템 중 교통 신호 제어(traffic signal control)은 지금도 사용하고 있는 가장 효과적이고 중요한 수단이다. 현재 이용되고 있는 일반 교통 신호 제어는 고정 시간(fixed signal) 메커니즘을 사용한다.

하지만 스마트시티의 발전에 발맞춰 스마트 교통 신호 제어 시스템은 대량의 데이터를 처리해야 하며 또한, 지속적으로 변화하는 교통 환경을 적용해야 한다. 따라서 많은 연구자들이 지능형 기법(artificial intelligent)을 사용하여 교통 신호 제어 문제를 해결하고자 하였으며, 본 발명은 지능형 기법 중에서도 강화학습을 사용하여 최적화된 교통 신호 시간 제어 방법 및 장치를 제공하고자 한다.

본 발명은 강화학습을 이용하여 교통 신호 시간 제어를 최적화하는 방법 및 장치를 제공한다.

또한, 본 발명은 교통 신호에서 녹색 신호 시간을 조절하여 차량의 대기시간을 최소화하고 최대한 많은 차량이 교차로를 통과하는 알고리즘을 제공한다.

본 발명은 교차로에서 복수의 통행 방향 및 통행 방향별 대기 차량 수에 따라 구분되는 상태, 특정 상태에 대해 소정 범위 내의 통행 신호 시간을 설정하는 행동 및 상기 교차로의 차량 통행량 및 차량 평균 대기시간에 따라 결정되는 보상을 설정하는 단계; 상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 단계; 및 상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호 시간을 설정하는 단계를 포함하는 강화학습 기반의 교통 신호 시간 제어 방법을 제공한다.

일 실시예에 따르면, 상기 특정 상태가 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때, 상기 강화학습을 수행하는 단계는 상기 현재 상태에 상기 행동이 적용될 때마다, 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정할 수 있다.

일 실시예에 따르면, 상기 강화학습은 Q-러닝(Q-learning)일 수 있다.

일 실시예에 따르면, 상기 통행 신호 시간을 설정하는 단계는 상기 대상교차로의 교통정보를 이용하여, 상기 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하는 단계; 상기 대기 차량 수가 최대인 통행 방향과 상기 강화학습의 결과인 Q함수를 이용하여, 상기 소정 범위 내의 통행 신호 시간 중 상기 Q함수의 값을 최대로 하는 통행 신호 시간인 최대통행신호시간을 산출하는 단계; 및 상기 대기 차량 수가 최대인 통행 방향에 대하여 상기 최대통행신호시간으로 통행 신호 시간을 설정하는 단계를 포함할 수 있다.

일 실시예에 따르면, 상기 보상은 단위 시간당 상기 교차로의 차량 통행량에 비례하고, 상기 교차로의 차량 평균 대기시간에 반비례할 수 있다.

일 실시예에 따르면, 상기 보상은 수학식 1에 의해 정의될 수 있다.

[수학식 1]

여기서, r_t는 보상이고, α는 가중치이고, p는 1을 초과하는 값이고, tp는 단위시간당 차량 통행량이고, q는 0에서 1사이의 값이고, wt는 차량 평균 대기시간이다.

또한, 본 발명은 교차로에서 복수의 통행 방향 및 통행 방향별 대기 차량 수에 따라 구분되는 상태, 특정 상태에 대해 소정 범위 내의 통행 신호 시간을 설정하는 행동 및 상기 교차로의 차량 통행량 및 차량 평균 대기시간에 따라 결정되는 보상을 설정하는 준비부; 상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 학습부; 및 상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호 시간을 설정하는 설정부를 포함하는 강화학습 기반의 교통 신호 시간 제어 장치를 제공한다.

일 실시예에 따르면, 상기 특정 상태가 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때, 상기 학습부는 상기 현재 상태에 상기 행동이 적용될 때마다, 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정할 수 있다.

일 실시예에 따르면, 상기 설정부는 상기 대상교차로의 교통정보를 이용하여, 상기 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하고, 상기 대기 차량 수가 최대인 통행 방향과 상기 강화학습의 결과인 Q함수를 이용하여, 상기 소정 범위 내의 통행 신호 시간 중 상기 Q함수의 값을 최대로 하는 통행 신호 시간인 최대통행신호시간을 산출하고, 상기 대기 차량 수가 최대인 통행 방향에 대하여 상기 최대통행신호시간으로 통행 신호 시간을 설정할 수 있다.

본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 시간 제어 방법 및 장치는 녹색신호의 시간을 조절하여 단위 시간에 최대한 많은 차량이 교차로를 통과하도록 하며, 교차로를 지나는 차량의 대기시간을 최소화하는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 시간 제어 방법에 대한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 강화학습 결과를 이용한 통행 신호 시간 설정 방법에 대한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 시간 제어 장치에 대한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 교차로를 나타내는 도면이다.
도 5a 및 5b는 본 발명의 일 실시예를 종래의 기술과 비교한 결과를 나타내는 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 시간 제어 방법에 대한 흐름도이다.

강화학습은 과거의 학습과정을 통해 스스로 학습하는 알고리즘이다. 강화학습의 일종인 Q-러닝은 trial-and-error 접근법을 사용하여 환경을 탐구하고 경험에 기반하여 현재 상태(state)에서 최선의 행동(action)을 선택한다. 즉, Q-러닝은 상태(state), 행동(action)과 보상(reward)라는 개념을 가지고 있으며, 특정한 상태에서 액션은 보상을 극대화하는 방향으로 결정될 수 있다. 상태(s_t)에서 행동(a_t)을 취하면 다음 상태(s_t+1)로 이동한다. 이와 관련된 공식은 다음 수학식 1과 같다.

[수학식 1]

또한, Q-러닝에서 경험을 저장하는 Q-table은 현재 상태(s_t), 행동(a_t), 보상(r_t) 및 다음 상태의 최대값(max_aQ(s_t+1,a_t+1))을 학습율(

)을 적용하여 새로운 상태로 업데이트 된다. 이와 관련 공식은 다음 수학식 2와 같다.

[수학식 2]

여기서,

은 기존의 상태값이고,

는 학습률(learning rate)이고,

는 할인팩터(discount factor)이다.

단계 S110에서는, 교통 신호 시간 제어 장치가 교차로에서 복수의 통행 방향 및 통행 방향별 대기 차량 수에 따라 구분되는 상태, 특정 상태에 대해 소정 범위 내의 통행 신호 시간을 설정하는 행동 및 그 교차로의 차량 통행량 및 차량 평균 대기시간에 따라 결정되는 보상을 설정한다.

여기서, 상태(state)는 교차로를 구성하는 복수의 통행 방향 및 통행 방향별 대기 차량 수에 따라 구분될 수 있다. 예컨대, 도 4를 참조하면, 교차로가 사거리이고, 각 통행 방향에서 직진(401, 403, 405, 407)과 좌회전(402, 404, 406, 408)이 가능하다고 가정하면, 총 8개의 통행 방향이 존재할 수 있다. 또한, 통행 방향별 대기 차량 수는 3단계의 레벨로 구분되어, 도로 수용량(capacity)의 0.4미만인 경우(레벨1), 0.4이상 0.9미만인 경우(레벨2), 0.9이상인 경우(레벨3)로 존재할 수 있다. 따라서, 최종적으로 상태는 24개(8*3)로 정의될 수 있다. 마찬가지로 오거리 교차로인 경우에는 30개(10*3)의 상태가 정의되고, 육거리 교차로인 경우에는 36개(12*3)의 상태가 정의될 수 있다. 하지만 본 발명에서 차량의 통행 방향은 직진과 좌회전으로 한정되는 것은 아니며, 유턴, 우회전 등과 같은 다양한 방향이 적용될 수 있음은 물론이다.

또한, 행동(action)은 특정 시점(t)에서 앞서 언급한 상태 중에서 하나인 특정 상태에 적용되는 것으로, 그 특정 상태에 대하여 통행 신호 시간(예, 녹색 신호 시간)을 소정 범위 내에서 설정하는 것이다. 예컨대, 녹색 신호 시간은 보통 120초에서 180초로 할당되기 때문에, 본 발명에서 행동은 그 특정 상태에 대하여 1분부터 5분까지의 범위에서 1분 단위로 녹색 신호 시간을 설정할 수 있다.

한편, 그 특정 상태에 대하여 통행 신호 시간을 설정할 때, 그 특정 상태뿐만 아니라, 그 특정 상태와 같이 녹색 신호를 할당 받을 수 있는 통행 방향 중 가장 많은 대기 차량이 위치한 통행 방향도 함께 녹색 신호를 할당 받을 수 있다. 예컨대, 도 4를 참조하면, 직진(407)이 특정 상태인 경우에 직진(403)이나 좌회전(408)의 통행 방향도 함께 녹색 신호를 할당 받을 수 있다. 이때, 직진(403)이나 좌회전(408)의 통행 방향 중 더 많은 대기 차량이 위치한 통행 방향이 녹색 신호를 할당 받음으로써 교차로의 차량 통행량을 증가시키고, 차량 평균 대기시간을 감소시킬 수 있다.

또한, 보상(reward)은 교차로에서의 지연을 최소화하기 위하여 단위시간당 차량 통행량(tp)과 차량 평균 대기시간(wt)를 매개변수로 하여 결정될 수 있다. 이때, 차량 통행량(tp)은 단위 시간 동안 교차로를 지나간 차량의 수를 의미하고, 차량 평균 대기시간(wt)은 차량이 교차로를 지나갈 때까지 걸린 시간의 평균값을 의미한다.

다른 실시예에서는, 보상은 단위 시간당 교차로의 차량 통행량에 비례하고, 교차로의 차량 평균 대기시간에 반비례할 수 있다.

본 발명이 차량의 대기시간을 최소화하고 최대한 많은 차량이 교차로를 통과하도록 하는 것을 목적으로 하는 점을 고려할 때, 보상이 교차로의 차량 통행량에 비례하여 증가 또는 감소하고, 차량 평균 대기시간에 반비례하여 증가 또는 감소하는 것은 자명할 것이다.

또 다른 실시예에서는, 보상은 수학식 3에 의해 정의될 수 있다.

[수학식 3]

즉, 수학식 3을 참조하면 보상(r_t)은 p > 1이므로 차량 통행량에 비례하고, 0 < q < 1이므로, 차량 평균 대기시간에 반비례한다.

단계 S120에서는, 교통 신호 시간 제어 장치가 그 상태, 행동 및 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행한다.

즉, 교통 신호 시간 제어 장치는 앞서 결정된 그 상태, 행동 및 보상을 이용하고, 소정의 교통 데이터를 적용함으로써, 강화학습을 수행할 수 있다. 이때, 교통 데이터는 해당 교차로에서 수집된 실제 데이터이거나, 유사한 구조의 다른 교차로에서 수집된 데이터일 수 있다.

예컨대, 교통 신호 시간 제어 장치는 교통 데이터를 이용하여 강화학습의 일종인 Q-러닝을 수행하면서, 계속하여 Q-table을 업데이트시킬 수 있다. 이때, 업데이트되는 Q함수값은 경험(교통 데이터)으로부터 발생한 보상이다. 그에 더하여, 새로운 경로를 개척하기 위한 탐색(ε)을 추가할 수 있다. 무작위성을 갖는 탐색(exploration)은 0에서 1사이의 값을 가지고 있으며, 더 나은 길을 찾을 수 있도록 한다.

한편, 수학식 2를 참조하면, 학습율(

)은 0에서 1사이의 값으로, 학습할 새로운 정보의 양을 결정한다. 이 값이 1에 가까울수록, 새롭게 취득된 정보가 더 중요해진다. 또한, 할인팩터(

)는 미래 상태의 중요성을 결정한다. 할인팩터가 1에 가까워짐에 따라, 현재의 경험보다 미래의 보상에 대하여 초점이 맞춰지게 된다.

다른 실시예에서는, 교통 신호 시간 제어 장치가 특정 상태가 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때, 그 현재 상태에 행동이 적용될 때마다, 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정하면서 강화학습을 수행할 수 있다.

즉, 교통 신호 시간 제어 장치는 특정 상태를 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태(current state)로 하여, 현재 상태에 행동(action)을 적용시킬 수 있다. 또한, 교통 신호 시간 제어 장치는 행동이 적용될 때마다, 아래의 수학식 4와 같이 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정할 수 있다.

[수학식 4]

여기서, S_t+1은 새로운 현재 상태이고, qt_i는 i번째 통행 방향의 대기 차량 수이다.

다시 말하면, 교통 신호 시간 제어 장치는 특정 시점(t)에서 현재 상태(s_t)에 행동(a_t)을 적용한 후에, 그 다음 시점(t+1)에서 대기 차량 수가 최대인 통행 방향으로 새로운 현재 상태(s_t+1)를 재설정할 수 있다.

마지막으로 단계 S130에서는, 교통 신호 시간 제어 장치가 그 강화학습의 결과 및 그 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 대상교차로의 복수의 통행 방향에 대한 통행 신호 시간을 설정한다.

즉, 교통 신호 시간 제어 장치는 소정의 교통 데이터를 이용하여 강화학습이 완료된 결과와 대상교차로의 교통정보를 이용하여, 그 대상교차로의 복수의 통행 방향에 대한 통행 신호 시간(즉, 녹색 신호 시간)을 설정할 수 있다.

예컨대, 교통 신호 시간 제어 장치는 Q-러닝을 이용하는 경우에, Q함수의 값이 최대가 되도록 하는 행동을 결정하고, 그 결정된 행동에 대응되는 통행 신호 시간을 설정할 수 있다.

이때, 대상교차로는 그 교차로와 동일한 교차로이거나, 그 교차로와 동일 또는 유사한 구조(예, 차선 수, 통행 방향)를 가지고 있는 다른 교차로일 수 있다.

다른 실시예에서는, 강화학습은 Q-러닝(Q-learning)일 수 있다.

한편, 본 발명을 이용하여 다양한 교통 부하가 혼합된 24시간 데이터를 사용한 실험을 진행하였다. 본 발명에서 제안하는 모델인 통행량과 대기시간을 파라미터로 적용하여 녹색 신호 시간과 녹색 신호를 할당 받는 순서가 정해져 있지 않는 proposed model, 녹색 시간은 조절하지만 할당 받는 순서가 고정된 E-TS(extension)와 녹색 신호를 받는 동안 클러스터로 차량의 단위를 처리하는 C-TS(cloud)로 이름을 명시하여 실험을 진행하였다. 실험은 일반적인 4거리(4way) 교차로에서 진행하였다.

도 5a 및 5b는 교차로에서 교통량에 따라 성능을 측정한 결과로, 도 5a는 통행량을 측정하였고, 5b는 대기 시간을 측정하였다. 교통량이 110%일때, 제안하는 모델은 E-TS와 C-TS보다 각각 15%, 35% 더 많은 차량을 처리하였다. 대기시간 측면으로 봤을 때, 교통량이 120%일 때, 제안하는 모델은 E-TS와 C-TS보다 각각 48%, 45% 더 좋은 성능을 보였다. 이는 효율적으로 필요한 상태에 녹색 신호를 할당하였고, 이에 맞게 녹색 신호의 시간을 부여했기 때문이다.

도 2는 본 발명의 일 실시예에 따른 강화학습 결과를 이용한 통행 신호 시간 설정 방법에 대한 흐름도이다.

단계 S210에서는, 교통 신호 시간 제어 장치가 대상교차로의 교통정보를 이용하여, 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정한다.

즉, 교통 신호 시간 제어 장치는 대상교차로에 존재하는 복수의 통행 방향에 대하여, 대기 차량 수가 최대인 통행 방향을 결정할 수 있다.

단계 S220에서는, 교통 신호 시간 제어 장치가 그 대기 차량 수가 최대인 통행 방향과 강화학습의 결과인 Q함수을 이용하여, 소정 범위 내의 통행 신호 시간 중 Q함수의 값을 최대로 하는 통행 신호 시간인 최대통행신호시간을 산출한다.

이때, 교통 신호 시간 제어 장치는 그 대기 차량 수가 최대인 통행 방향과 그 통행 방향에 적용가능한 모든 행동들을 Q함수에 입력하여, Q함수의 값을 최대로하는 행동, 즉, 최대통행신호시간을 산출할 수 있다.

마지막으로 단계 S230에서는, 교통 신호 시간 제어 장치가 그 대기 차량 수가 최대인 통행 방향에 대하여 최대통행신호시간으로 통행 신호 시간을 설정한다.

즉, 교통 신호 시간 제어 장치는 그 대기 차량 수가 최대인 통행 방향에 대하여 최대통행신호시간으로 녹색 신호를 설정함으로써, 대상교차로의 차량 통행량을 증가시키면서, 차량 평균 대기시간을 감소시킬 수 있다.

도 3은 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 시간 제어 장치에 대한 블록도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 시간 제어 장치(300)는 준비부(310), 학습부(320) 및 설정부(330)를 포함한다.

준비부(310)는 교차로에서 복수의 통행 방향 및 통행 방향별 대기 차량 수에 따라 구분되는 상태, 특정 상태에 대해 소정 범위 내의 통행 신호 시간을 설정하는 행동 및 그 교차로의 차량 통행량 및 차량 평균 대기시간에 따라 결정되는 보상을 설정한다.

학습부(320)는 그 상태, 행동 및 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행한다.

다른 실시예에서는, 특정 상태가 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때, 학습부(320)는 그 현재 상태에 행동이 적용될 때마다, 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정할 수 있다.

마지막으로 설정부(330)는 그 강화학습의 결과 및 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 대상교차로의 복수의 통행 방향에 대한 통행 신호 시간을 설정한다.

다른 실시예에서는, 강화학습은 Q-러닝(Q-learning)일 수 있다.

또 다른 실시예에서는, 설정부(330)는 대상교차로의 교통정보를 이용하여, 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하고, 그 대기 차량 수가 최대인 통행 방향과 강화학습의 결과인 Q함수를 이용하여, 소정 범위 내의 통행 신호 시간 중 Q함수의 값을 최대로 하는 통행 신호 시간인 최대통행신호시간을 산출하고, 그 대기 차량 수가 최대인 통행 방향에 대하여 최대통행신호시간으로 통행 신호 시간을 설정할 수 있다.

또 다른 실시예에서는, 보상은 단위 시간당 교차로의 차량 통행량에 비례하고, 교차로의 차량 평균 대기시간에 반비례할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 사람이라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 실행된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

교차로에서 복수의 통행 방향 및 통행 방향별 대기 차량 수에 따라 구분되는 상태, 특정 상태에 대해 소정 범위 내의 통행 신호 시간을 설정하는 행동 및 상기 교차로의 차량 통행량 및 차량 평균 대기시간에 따라 결정되는 보상을 설정하는 단계;
상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 단계; 및
상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호 시간을 설정하는 단계
를 포함하고,
상기 보상은
단위 시간당 상기 교차로의 차량 통행량에 비례하고, 상기 교차로의 차량 평균 대기시간에 반비례하는 것을 특징으로 하는 강화학습 기반의 교통 신호 시간 제어 방법.
제1항에 있어서,
상기 특정 상태가 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때,
상기 강화학습을 수행하는 단계는
상기 현재 상태에 상기 행동이 적용될 때마다, 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정하는 것을 특징으로 하는 강화학습 기반의 교통 신호 시간 제어 방법.
제1항에 있어서,
상기 강화학습은 Q-러닝(Q-learning)인 것을 특징으로 하는 강화학습 기반의 교통 신호 시간 제어 방법.
제3항에 있어서,
상기 통행 신호 시간을 설정하는 단계는
상기 대상교차로의 교통정보를 이용하여, 상기 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하는 단계;
상기 대기 차량 수가 최대인 통행 방향과 상기 강화학습의 결과인 Q함수를 이용하여, 상기 소정 범위 내의 통행 신호 시간 중 상기 Q함수의 값을 최대로 하는 통행 신호 시간인 최대통행신호시간을 산출하는 단계; 및
상기 대기 차량 수가 최대인 통행 방향에 대하여 상기 최대통행신호시간으로 통행 신호 시간을 설정하는 단계
를 포함하는 것을 특징으로 하는 강화학습 기반의 교통 신호 시간 제어 방법.
삭제
제1항에 있어서,
상기 보상은
수학식 1에 의해 정의되는 것을 특징으로 하는 강화학습 기반의 교통 신호 시간 제어 방법.
[수학식 1]

여기서, r_t는 보상이고, α는 가중치이고, p는 1을 초과하는 값이고, tp는 단위시간당 차량 통행량이고, q는 0에서 1사이의 값이고, wt는 차량 평균 대기시간이다.
교차로에서 복수의 통행 방향 및 통행 방향별 대기 차량 수에 따라 구분되는 상태, 특정 상태에 대해 소정 범위 내의 통행 신호 시간을 설정하는 행동 및 상기 교차로의 차량 통행량 및 차량 평균 대기시간에 따라 결정되는 보상을 설정하는 준비부;
상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 학습부; 및
상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호 시간을 설정하는 설정부
를 포함하고,
상기 보상은
단위 시간당 상기 교차로의 차량 통행량에 비례하고, 상기 교차로의 차량 평균 대기시간에 반비례하는 것을 특징으로 하는 강화학습 기반의 교통 신호 시간 제어 장치.
제7항에 있어서,
상기 특정 상태가 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때,
상기 학습부는
상기 현재 상태에 상기 행동이 적용될 때마다, 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정하는 것을 특징으로 하는 강화학습 기반의 교통 신호 시간 제어 장치.
제7항에 있어서,
상기 강화학습은 Q-러닝(Q-learning)인 것을 특징으로 하는 강화학습 기반의 교통 신호 시간 제어 장치.
제9항에 있어서,
상기 설정부는
상기 대상교차로의 교통정보를 이용하여, 상기 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하고,
상기 대기 차량 수가 최대인 통행 방향과 상기 강화학습의 결과인 Q함수를 이용하여, 상기 소정 범위 내의 통행 신호 시간 중 상기 Q함수의 값을 최대로 하는 통행 신호 시간인 최대통행신호시간을 산출하고,
상기 대기 차량 수가 최대인 통행 방향에 대하여 상기 최대통행신호시간으로 통행 신호 시간을 설정하는 것을 특징으로 하는 강화학습 기반의 교통 신호 시간 제어 장치.
삭제