KR102336052B1

KR102336052B1 - 강화학습 기반의 교통 신호 제어 방법 및 장치

Info

Publication number: KR102336052B1
Application number: KR1020200012102A
Authority: KR
Inventors: 임유진; 주현진
Original assignee: 숙명여자대학교산학협력단
Priority date: 2020-01-31
Filing date: 2020-01-31
Publication date: 2021-12-06
Also published as: KR20210098209A

Abstract

본 발명은 교차로에서 복수의 통행 방향에 따라 구분되는 상태, 특정 상태에 대해 복수의 신호 조합 중 하나로 통행 신호를 설정하는 행동 및 상기 교차로의 차량 통행량 및 상기 복수의 통행 방향별 큐 길이의 표준편차에 따라 결정되는 보상을 설정하는 단계; 상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 단계; 및 상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호를 설정하는 단계를 포함하는 것을 특징으로 하는 강화학습 기반의 교통 신호 제어 방법을 제공한다.

Description

강화학습 기반의 교통 신호 제어 방법 및 장치{METHOD AND APPARATUS FOR CONTROLLING TRAFFIC SIGNAL BASED ON REINFORCEMENT LEARNING}

본 발명은 강화학습에 기반하는 교통 신호의 제어 방법 및 장치를 제공한다.

교통 혼잡(traffic congestion)은 매일 도시지역에서 발생한다. 교통 혼잡은 연료 소비량, 운영비 그리고 이동시간 등을 증가 시키기 때문에 비용이 많이 발생한다. 또한, 이에 따라 환경오염을 유발한다. 따라서, 교통 혼잡은 교통 시스템에서 해결해야 할 주요 과제이다. 교통 혼잡을 해결하기 위해, 교통 관리 시스템에 대해 다양한 연구가 수행되었다. 최근에는 효율적이고 안전하며 친환경적인 지능형 교통 시스템(intelligent transportation systems)에 대한 연구가 실시되었다.

스마트시티는 최근 도시 발전의 미래 트렌드로, 우리가 생활에서 사용하는 거의 모든 것을 효율적이고 편리하게 삶의 질을 향상시키고자 한다. 스마트 교통 관리 시스템(smart traffic management system)은 교통 체증을 줄이기 위한, 스마트 시티의 중요한 측면 중 하나이다. 관리 시스템 중 교통 신호 제어(traffic signal control)은 지금도 사용하고 있는 가장 효과적이고 중요한 수단이다. 현재 이용되고 있는 일반 교통 신호 제어는 고정 시간(fixed signal) 메커니즘을 사용한다.

하지만 스마트시티의 발전에 발맞춰 스마트 교통 신호 제어 시스템은 대량의 데이터를 처리해야 하며 또한, 지속적으로 변화하는 교통 환경을 적용해야 한다. 따라서 많은 연구자들이 지능형 기법(artificial intelligent)을 사용하여 교통 신호 제어 문제를 해결하고자 하였으며, 본 발명은 지능형 기법 중에서도 강화학습을 사용하여 최적화된 교통 신호 제어 방법 및 장치를 제공하고자 한다.

본 발명은 강화학습을 이용하여 교통 신호 제어를 최적화하는 방법 및 장치를 제공한다.

또한, 본 발명은 적절한 신호를 분배하여 최대한 많은 차량이 교차로를 통과하도록 하며, 대기 차량의 큐 길이를 고려하여 교통 신호 순서를 조정함으로써 도로 간의 균형을 유지하는 알고리즘을 제공한다.

본 발명은 교차로에서 복수의 통행 방향에 따라 구분되는 상태, 특정 상태에 대해 복수의 신호 조합 중 하나로 통행 신호를 설정하는 행동 및 상기 교차로의 차량 통행량 및 상기 복수의 통행 방향별 큐 길이의 표준편차에 따라 결정되는 보상을 설정하는 단계; 상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 단계; 및 상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호를 설정하는 단계를 포함하는 강화학습 기반의 교통 신호 제어 방법을 제공한다.

일 실시예에 따르면, 상기 특정 상태가 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때, 상기 강화학습을 수행하는 단계는 상기 현재 상태에 상기 행동이 적용될 때마다, 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정할 수 있다.

일 실시예에 따르면, 상기 강화학습은 Q-러닝(Q-learning)일 수 있다.

일 실시예에 따르면, 상기 통행 신호를 설정하는 단계는 상기 대상교차로의 교통정보를 이용하여, 상기 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하는 단계; 상기 대기 차량 수가 최대인 통행 방향과 상기 강화학습의 결과인 Q함수를 이용하여, 상기 복수의 신호 조합 중 상기 Q함수의 값을 최대로 하는 통행 신호인 최대통행신호를 산출하는 단계; 및 상기 대기 차량 수가 최대인 통행 방향에 대하여 상기 최대통행신호로 통행 신호를 설정하는 단계를 포함할 수 있다.

일 실시예에 따르면, 상기 보상은 단위 시간당 상기 교차로의 차량 통행량에 비례하고, 상기 교차로의 복수의 통행 방향별 큐 길이의 표준편차에 반비례할 수 있다.

일 실시예에 따르면, 상기 보상은 수학식 1에 의해 정의될 수 있다.

[수학식 1]

여기서, f(t)는 t시점에서의 함수값이고, α는 적응형 가중파라미터(adaptive weighting factor)이고, d_ql은 복수의 통행 방향별 큐 길이의 표준편차이고, τ는 0에서 1사이의 값이고, tp는 단위시간당 차량 통행량이고, r_t는 보상이고, δ는 0에서 1사이의 값이다.

또한, 본 발명은 교차로에서 복수의 통행 방향에 따라 구분되는 상태, 특정 상태에 대해 복수의 신호 조합 중 하나로 통행 신호를 설정하는 행동 및 상기 교차로의 차량 통행량 및 상기 복수의 통행 방향별 큐 길이의 표준편차에 따라 결정되는 보상을 설정하는 준비부; 상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 학습부; 및 상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호를 설정하는 설정부를 포함하는 강화학습 기반의 교통 신호 제어 장치를 제공한다.

일 실시예에 따르면, 상기 특정 상태가 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때, 상기 학습부는 상기 현재 상태에 상기 행동이 적용될 때마다, 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정할 수 있다.

일 실시예에 따르면, 상기 설정부는 상기 대상교차로의 교통정보를 이용하여, 상기 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하고, 상기 대기 차량 수가 최대인 통행 방향과 상기 강화학습의 결과인 Q함수를 이용하여, 상기 복수의 신호 조합 중 상기 Q함수의 값을 최대로 하는 통행 신호인 최대통행신호를 산출하고, 상기 대기 차량 수가 최대인 통행 방향에 대하여 상기 최대통행신호로 통행 신호를 설정할 수 있다.

본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 제어 방법 및 장치는 적절히 신호를 분배하여 최대한 많은 차량이 교차로를 통과하도록 하며, 대기 차량의 큐 길이를 고려하여 교통 신호 순서를 조정함으로써 도로 간의 균형을 유지하는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 제어 방법에 대한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 강화학습 결과를 이용한 통행 신호 설정 방법에 대한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 제어 장치에 대한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 교차로를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 신호 조합을 나타내는 도면이다.
도 6a 내지 6c는 본 발명의 일 실시예를 종래의 기술과 비교한 결과를 나타내는 도면이다.
도 7a 내지 7d는 다양한 구조의 교차로의 나타내는 도면이다.
도 8a 내지 8c는 본 발명의 일 실시예를 다양한 다양한 구조의 교차로에 적용한 결과를 나타내는 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 제어 방법에 대한 흐름도이다.

강화학습은 과거의 학습과정을 통해 스스로 학습하는 알고리즘이다. 강화학습의 일종인 Q-러닝은 trial-and-error 접근법을 사용하여 환경을 탐구하고 경험에 기반하여 현재 상태(state)에서 최선의 행동(action)을 선택한다. 즉, Q-러닝은 상태(state), 행동(action)과 보상(reward)라는 개념을 가지고 있으며, 특정한 상태에서 액션은 보상을 극대화하는 방향으로 결정될 수 있다. 상태(s_t)에서 행동(a_t)을 취하면 다음 상태(s_t+1)로 이동한다. 이와 관련된 공식은 다음 수학식 1과 같다.

[수학식 1]

또한, Q-러닝에서 경험을 저장하는 Q-table은 현재 상태(s_t), 행동(a_t), 보상(r_t) 및 다음 상태의 최대값(max_aQ(s_t+1,a_t+1))을 학습율(

)을 적용하여 새로운 상태로 업데이트 된다. 이와 관련 공식은 다음 수학식 2와 같다.

[수학식 2]

여기서,

은 기존의 상태값이고,

는 학습률(learning rate)이고,

는 할인팩터(discount factor)이다.

단계 S110에서는, 교통 신호 제어 장치가 교차로에서 복수의 통행 방향에 따라 구분되는 상태, 특정 상태에 대해 복수의 신호 조합 중 하나로 통행 신호를 설정하는 행동 및 그 교차로의 차량 통행량 및 복수의 통행 방향별 큐 길이의 표준편차에 따라 결정되는 보상을 설정한다.

여기서, 상태(state)는 교차로를 구성하는 복수의 통행 방향에 따라 구분될 수 있다. 예컨대, 도 4를 참조하면, 교차로가 사거리이고, 각 통행 방향에서 직진(401, 403, 405, 407)과 좌회전(402, 404, 406, 408)이 가능하다고 가정하면, 총 8개의 통행 방향이 존재할 수 있다. 따라서, 최종적으로 상태는 총 8개로 정의될 수 있다. 마찬가지로 오거리 교차로인 경우에는 10개의 상태가 정의되고, 육거리 교차로인 경우에는 12개의 상태가 정의될 수 있다. 하지만 본 발명에서 차량의 통행 방향은 직진과 좌회전으로 한정되는 것은 아니며, 유턴, 우회전 등과 같은 다양한 방향이 적용될 수 있음은 물론이다.

또한, 행동(action)은 특정 시점(t)에서 앞서 언급한 상태 중에서 하나인 특정 상태에 적용되는 것으로, 그 특정 상태에 대하여 복수의 신호 조합 중 하나로 통행 신호를 설정하는 것이다. 예컨대, 도 4를 참조하면 직진(407)이 특정 상태일 때, 본 발명에서 행동은 그 특정 상태에 대하여 도 5에 나타난 3가지 신호 조합(501, 502, 503) 중 하나로 통행 신호를 설정할 수 있다. 하지만 본 발명에서 신호 조합은 도 5에 나타난 신호 조합으로 한정되는 것은 아니며, 교차로의 구성에 따라 다양한 신호 조합이 적용될 수 있음은 물론이다.

또한, 보상(reward)은 교차로에서의 지연을 최소화하기 위하여 단위시간당 차량 통행량(tp)과 복수의 통행 방향별 큐 길이의 표준편차(d_ql)를 매개변수로 하여 결정될 수 있다. 이때, 차량 통행량(tp)은 단위 시간 동안 교차로를 지나간 차량의 수를 의미하고, 큐 길이의 표준편차(d_ql)는 교차로의 복수의 통행 방향별 대기 차량 수의 표준편차를 의미한다.

다른 실시예에서는, 보상은 단위 시간당 교차로의 차량 통행량에 비례하고, 교차로의 복수의 통행 방향별 큐 길이의 표준편차에 반비례할 수 있다.

본 발명이 차량의 대기시간을 최소화하고 최대한 많은 차량이 교차로를 통과하도록 하는 것을 목적으로 하는 점을 고려할 때, 보상이 교차로의 차량 통행량에 비례하여 증가 또는 감소하고, 큐 길이의 표준편차에 반비례하여 증가 또는 감소하는 것은 자명할 것이다.

또 다른 실시예에서는, 보상은 수학식 3에 의해 정의될 수 있다.

[수학식 3]

즉, 수학식 3을 참조하면 0 < δ < 1이므로, f(t)가 최소화될수록 보상(r_t)은 최대화된다. 따라서, 보상(r_t)은 교차로의 차량 통행량에 비례하고, 큐 길이의 표준편차에 반비례한다.

단계 S120에서는, 교통 신호 제어 장치가 그 상태, 행동 및 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행한다.

즉, 교통 신호 제어 장치는 앞서 결정된 그 상태, 행동 및 보상을 이용하고, 소정의 교통 데이터를 적용함으로써, 강화학습을 수행할 수 있다. 이때, 교통 데이터는 해당 교차로에서 수집된 실제 데이터이거나, 유사한 구조의 다른 교차로에서 수집된 데이터일 수 있다.

예컨대, 교통 신호 제어 장치는 교통 데이터를 이용하여 강화학습의 일종인 Q-러닝을 수행하면서, 계속하여 Q-table을 업데이트시킬 수 있다. 이때, 업데이트되는 Q함수값은 경험(교통 데이터)으로부터 발생한 보상이다. 그에 더하여, 새로운 경로를 개척하기 위한 탐색(ε)을 추가할 수 있다. 무작위성을 갖는 탐색(exploration)은 0에서 1사이의 값을 가지고 있으며, 더 나은 길을 찾을 수 있도록 한다.

한편, 수학식 2를 참조하면, 학습율(

)은 0에서 1사이의 값으로, 학습할 새로운 정보의 양을 결정한다. 이 값이 1에 가까울수록, 새롭게 취득된 정보가 더 중요해진다. 또한, 할인팩터(

)는 미래 상태의 중요성을 결정한다. 할인팩터가 1에 가까워짐에 따라, 현재의 경험보다 미래의 보상에 대하여 초점이 맞춰지게 된다.

다른 실시예에서는, 교통 신호 제어 장치가 특정 상태가 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때, 그 현재 상태에 행동이 적용될 때마다, 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정하면서 강화학습을 수행할 수 있다.

즉, 교통 신호 제어 장치는 특정 상태를 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태(current state)로 하여, 현재 상태에 행동(action)을 적용시킬 수 있다. 또한, 교통 신호 제어 장치는 행동이 적용될 때마다, 아래의 수학식 4와 같이 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 갱신할 수 있다.

[수학식 4]

여기서, S_t+1은 새로운 현재 상태이고, qt_i는 i번째 통행 방향의 대기 차량 수이다.

다시 말하면, 교통 신호 제어 장치는 특정 시점(t)에서 현재 상태(s_t)에 행동(a_t)을 적용한 후에, 그 다음 시점(t+1)에서 대기 차량 수가 최대인 통행 방향으로 새로운 현재 상태(s_t+1)를 재설정할 수 있다.

마지막으로 단계 S130에서는, 교통 신호 제어 장치가 그 강화학습의 결과 및 그 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 대상교차로의 복수의 통행 방향에 대한 통행 신호를 설정한다.

즉, 교통 신호 제어 장치는 소정의 교통 데이터를 이용하여 강화학습이 완료된 결과와 대상교차로의 교통정보를 이용하여, 그 대상교차로의 복수의 통행 방향에 대한 통행 신호를 설정할 수 있다.

예컨대, 교통 신호 제어 장치는 Q-러닝을 이용하는 경우에, Q함수의 값이 최대가 되도록 하는 행동을 결정하고, 그 결정된 행동에 대응되는 통행 신호를 설정할 수 있다.

이때, 대상교차로는 그 교차로와 동일한 교차로이거나, 그 교차로와 동일 또는 유사한 구조(예, 차선 수, 통행 방향)를 가지고 있는 다른 교차로일 수 있다.

다른 실시예에서는, 강화학습은 Q-러닝(Q-learning)일 수 있다.

한편, 본 발명에 대하여 총 2가지 측면으로 성능을 측정하였다. 첫번째는 종래의 기술들과 성능을 비교하였고, 두번째는 교차로의 구조에 따른 성능 비교를 하였다. 즉, 3-way(삼거리), 4-way(사거리), 5-way(오거리) 그리고 6-way(육거리) 교차로로 교차로 구조에 변화를 주었다.

먼저 첫번째 성능 비교 실험은 본 발명에서 제안하는 모델인 통행량과 큐 길이의 표준편차를 파라미터로 적용한 proposed model, 교통 신호 길이를 조절한 E-TS(extension-traffic signal) 과 자동차를 클러스터 단위로 처리하여 녹색 시간 동안 하나의 클러스터가 교차로를 통과하는 C-TS(cluster-traffic signal)를 비교하였다. 시뮬레이션은 일반적인 4-way 교차로에서 진행하였다.

도 6a 내지 6c는 교차로에서의 교통량에 따라 성능을 측정한 결과를 나타낸다. 단위 시간당 교차로에서 자동차를 처리할 수 있는 양을 100%라고 했을 때, 유입량이 포화량보다 많은 경우에 교통 신호 분배의 효율성이 나타난다. 따라서 실험 결과는 교통량을 110%부터 150%로 구성하였다. 도 6a는 큐 길이의 평균을 나타내었는데, 150%에서 제안된 알고리즘은 E-TS와 C-TS보다 각각 25%, 63% 더 큐 길이가 짧았다. 도 6b에서는 큐 길이의 표준편차를 나타내었는데, 제안 알고리즘의 평균 표준편차 값이 E-TS와 C-TS보다 각각 50% 그리고 75% 더 좋은 성능을 가졌다. 도 6c에서는 차량당 평균 대기시간을 나타내었다. 제안하는 알고리즘의 평균 대기시간은 E-TS와 C-TS보다 약 15% 그리고 40% 더 좋은 성능을 보였다. 제안된 알고리즘이 차량의 지연을 균등하게 해결한다는 것을 확인하였다.

두번째는 교차로의 구조에 따른 성능을 비교하였다. 우선, 도 7a 내지 7d를 참조하면, 교차로의 종류는 3-way부터 6-way까지 총 4종류이다. 본 실험도 교차로에서의 교통량에 따라 성능을 측정하였다

도 8a에서 3-way부터 6-way까지 교차로의 성능이 비슷하다는 것을 볼 수 있다. 교통량이 110%일 때, 모든 값은 10에서 15사이로 측정되었다. 또한 교통량이 150%일때도 대부분 값이 약18과 20사이로 측정되었다. 도 8b에서는 3-way 교차로일때의 큐 길이의 표준편차가 다른 교차점보다 크게 나온다. 이는 3-way 교차로가 다른 교차로 구조에 비해 도로가 적기 때문에 가능한 행동에 제한이 있기 때문이다. 이는 다양한 신호 조합으로 교통을 제어할 수 없기 때문에 이와 같은 결과가 나온 것으로 해석된다. 도 8c에서는 평균 대기시간을 측정하였는데 모든 교차로에서 방향 별로 비슷한 결과를 보인다. 이는 신호가 공정하게 분포가 되었다는 것을 뜻한다.

도 2는 본 발명의 일 실시예에 따른 강화학습 결과를 이용한 통행 신호 설정 방법에 대한 흐름도이다.

단계 S210에서는, 교통 신호 제어 장치가 대상교차로의 교통정보를 이용하여, 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정한다.

즉, 교통 신호 제어 장치는 대상교차로에 존재하는 복수의 통행 방향에 대하여, 대기 차량 수가 최대인 통행 방향을 결정할 수 있다.

단계 S220에서는, 교통 신호 제어 장치가 그 대기 차량 수가 최대인 통행 방향과 강화학습의 결과인 Q함수을 이용하여, 복수의 신호 조합 중 중 Q함수의 값을 최대로 하는 통행 신호인 최대통행신호를 산출한다.

이때, 교통 신호 제어 장치는 그 대기 차량 수가 최대인 통행 방향과 그 통행 방향에 적용가능한 모든 행동들을 Q함수에 입력하여, Q함수의 값을 최대로하는 행동, 즉, 최대통행신호를 산출할 수 있다.

마지막으로 단계 S230에서는, 교통 신호 제어 장치가 그 대기 차량 수가 최대인 통행 방향에 대하여 최대통행신호로 통행 신호를 설정한다.

즉, 교통 신호 제어 장치는 그 대기 차량 수가 최대인 통행 방향에 대하여 최대통행신호로 통행 신호를 설정함으로써, 대상교차로의 차량 통행량을 증가시키면서, 큐 길이의 표준편차를 감소시킬 수 있다.

도 3은 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 제어 장치에 대한 블록도이다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 강화학습 기반의 교통 신호 제어 장치(300)는 준비부(310), 학습부(320) 및 설정부(330)를 포함한다.

준비부(310)는 교차로에서 복수의 통행 방향에 따라 구분되는 상태, 특정 상태에 대해 복수의 신호 조합 중 하나로 통행 신호를 설정하는 행동 및 그 교차로의 차량 통행량 및 복수의 통행 방향별 큐 길이의 표준편차에 따라 결정되는 보상을 설정한다.

학습부(320)는 그 상태, 행동 및 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행한다.

다른 실시예에서는, 특정 상태가 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때, 학습부(320)는 그 현재 상태에 행동이 적용될 때마다, 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정할 수 있다.

마지막으로 설정부(330)는 그 강화학습의 결과 및 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 대상교차로의 복수의 통행 방향에 대한 통행 신호를 설정한다.

다른 실시예에서는, 강화학습은 Q-러닝(Q-learning)일 수 있다.

또 다른 실시예에서는, 설정부(330)는 대상교차로의 교통정보를 이용하여, 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하고, 그 대기 차량 수가 최대인 통행 방향과 강화학습의 결과인 Q함수를 이용하여, 복수의 신호 조합 중 Q함수의 값을 최대로 하는 통행 신호인 최대통행신호를 산출하고, 그 대기 차량 수가 최대인 통행 방향에 대하여 최대통행신호로 통행 신호를 설정할 수 있다.

또 다른 실시예에서는, 보상은 단위 시간당 교차로의 차량 통행량에 비례하고, 교차로의 복수의 통행 방향별 큐 길이의 표준편차에 반비례할 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 사람이라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 실행된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

교차로에서 복수의 통행 방향에 따라 구분되는 상태, 특정 상태에 대해 복수의 신호 조합 중 하나로 통행 신호를 설정하는 행동 및 상기 교차로의 차량 통행량 및 상기 복수의 통행 방향별 큐 길이의 표준편차에 따라 결정되는 보상을 설정하는 단계;
상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 단계; 및
상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호를 설정하는 단계
를 포함하고,
상기 보상은
단위 시간당 상기 교차로의 차량 통행량에 비례하고, 상기 교차로의 복수의 통행 방향별 큐 길이의 표준편차에 반비례하고, 수학식 1에 의해 정의되는 것을 특징으로 하는 강화학습 기반의 교통 신호 제어 방법.
[수학식 1]

여기서, f(t)는 t시점에서의 함수값이고, α는 적응형 가중파라미터(adaptive weighting factor)이고, d_ql은 복수의 통행 방향별 큐 길이의 표준편차이고, τ는 0에서 1사이의 값이고, tp는 단위시간당 차량 통행량이고, r_t는 보상이고, δ는 0에서 1사이의 값이다.
제1항에 있어서,
상기 특정 상태가 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때,
상기 강화학습을 수행하는 단계는
상기 현재 상태에 상기 행동이 적용될 때마다, 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정하는 것을 특징으로 하는 강화학습 기반의 교통 신호 제어 방법.
제1항에 있어서,
상기 강화학습은 Q-러닝(Q-learning)인 것을 특징으로 하는 강화학습 기반의 교통 신호 제어 방법.
제3항에 있어서,
상기 통행 신호를 설정하는 단계는
상기 대상교차로의 교통정보를 이용하여, 상기 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하는 단계;
상기 대기 차량 수가 최대인 통행 방향과 상기 강화학습의 결과인 Q함수를 이용하여, 상기 복수의 신호 조합 중 상기 Q함수의 값을 최대로 하는 통행 신호인 최대통행신호를 산출하는 단계; 및
상기 대기 차량 수가 최대인 통행 방향에 대하여 상기 최대통행신호로 통행 신호를 설정하는 단계
를 포함하는 것을 특징으로 하는 강화학습 기반의 교통 신호 제어 방법.
삭제
삭제
교차로에서 복수의 통행 방향에 따라 구분되는 상태, 특정 상태에 대해 복수의 신호 조합 중 하나로 통행 신호를 설정하는 행동 및 상기 교차로의 차량 통행량 및 상기 복수의 통행 방향별 큐 길이의 표준편차에 따라 결정되는 보상을 설정하는 준비부;
상기 상태, 상기 행동 및 상기 보상에 기초하여, 소정의 교통 데이터를 이용한 강화학습을 수행하는 학습부; 및
상기 강화학습의 결과 및 상기 교차로에 대응되는 대상교차로의 교통정보에 기초하여, 상기 대상교차로의 복수의 통행 방향에 대한 통행 신호를 설정하는 설정부
를 포함하고,
상기 보상은
단위 시간당 상기 교차로의 차량 통행량에 비례하고, 상기 교차로의 복수의 통행 방향별 큐 길이의 표준편차에 반비례하고, 수학식 1에 의해 정의되는 것을 특징으로 하는 강화학습 기반의 교통 신호 제어 장치.
[수학식 1]

여기서, f(t)는 t시점에서의 함수값이고, α는 적응형 가중파라미터(adaptive weighting factor)이고, d_ql은 복수의 통행 방향별 큐 길이의 표준편차이고, τ는 0에서 1사이의 값이고, tp는 단위시간당 차량 통행량이고, r_t는 보상이고, δ는 0에서 1사이의 값이다.
제7항에 있어서,
상기 특정 상태가 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 나타내는 현재 상태일 때,
상기 학습부는
상기 현재 상태에 상기 행동이 적용될 때마다, 상기 교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 새로운 현재 상태로 재설정하는 것을 특징으로 하는 강화학습 기반의 교통 신호 제어 장치.
제7항에 있어서,
상기 강화학습은 Q-러닝(Q-learning)인 것을 특징으로 하는 강화학습 기반의 교통 신호 제어 장치.
제9항에 있어서,
상기 설정부는
상기 대상교차로의 교통정보를 이용하여, 상기 대상교차로의 복수의 통행 방향 중에서 대기 차량 수가 최대인 통행 방향을 결정하고,
상기 대기 차량 수가 최대인 통행 방향과 상기 강화학습의 결과인 Q함수를 이용하여, 상기 복수의 신호 조합 중 상기 Q함수의 값을 최대로 하는 통행 신호인 최대통행신호를 산출하고,
상기 대기 차량 수가 최대인 통행 방향에 대하여 상기 최대통행신호로 통행 신호를 설정하는 것을 특징으로 하는 강화학습 기반의 교통 신호 제어 장치.
삭제