WO2018030772A1

WO2018030772A1 - 감응식 교통 신호 제어 방법 및 그 장치

Info

Publication number: WO2018030772A1
Application number: PCT/KR2017/008592
Authority: WO
Inventors: 손기민
Original assignee: 중앙대학교 산학협력단
Priority date: 2016-08-10
Filing date: 2017-08-09
Publication date: 2018-02-15
Also published as: KR101821494B1

Abstract

감응식 교통 신호 제어 방법 및 그 장치가 개시된다. 감응식 교통 신호 제어 방법은, (a) 현재 교통 상태를 포함하는 복수의 교차로 이미지를 딥 CNN(deep CNN) 모델에 입력함으로써, 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 단계;(b) 상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하는 단계; (c) 상기 선택된 타겟 신호 제어 동작을 실행하는 단계; (d) 상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하는 단계; 및 (e) 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 단계를 포함한다.

Description

감응식 교통 신호 제어 방법 및 그 장치

본 발명은 감응식 교통 신호 제어 방법 및 그 장치에 관한 것이다.

기술 발전에 따라 급격하게 인공 지능 기술이 발전하고 있으며, 이러한 인공 지능은 방대한 빅데이터를 처리하여 학습을 통해 다양한 문제를 해결하는 방향으로 진화되고 있다.

반면, 현대 산업의 발달로 차량이 급격하게 증가되고 있으며, 제한된 도로 상황과 획일적인 교통 신호체계로 인해 교차로에서의 지정체 문제가 심각한 사회 문제로 대두되고 있다. 현재, 교차로에서의 가장 큰 문제는 획일적으로 운영되는 고정식 교통 신호 체계에 그 문제점이 있다.

따라서, 인공 지능 기술을 접목하여 교통 상태를 정확하게 판단하여 감응적으로 교통 신호를 제어하기 위한 방안이 필요하다.

본 발명은 복잡한 장비 없이 연속되는 복수의 교차로 이미지를 이용하여 감응식으로 교통 신호를 제어할 수 있는 감응식 교통 신호제어 방법 및 그 장치를 제공하기 위한 것이다.

또한, 본 발명은 감응식 신호교차로 제어의 핵심인 교통상태 계측에 있어 교통량, 속도, 밀도, 지체시간, 대기행렬길이 등 정확한 측정이 어려운 기존 교통 파라미터를 대신하여 복수의 교차로 이미지를 통해 교통제어기가 인간의 상태감지능력 이상을 발휘하도록 함으로써, 고정식 신호운영 및 기존 감응식 신호제어의 한계를 극복하고 교차로 교통체증을 해소하는데 의의가 있다.

또한, 본 발명은 교통신호기에 인공지능 기능을 부여함으로써 인간의 상태 감지능력 이상을 발휘하도록 하여 교차로 혼잡을 최소하기 위한 감응식 교통 신호제어 방법 및 그 장치를 제공하기 위한 것이다.

본 발명의 일 측면에 따르면, 복잡한 장비 없이 연속되는 복수의 교차로 이미지를 이용하여 감응식으로 교통 신호를 제어할 수 있는 감응식 교통 신호 제어 방법이 제공된다.

본 발명의 일 실시예에 따르면, 현재 교통 상태를 포함하는 복수의 교차로 이미지를 딥 CNN(deep CNN) 모델에 입력함으로써, 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 단계; (b) 상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하는 단계; (c) 상기 선택된 타겟 신호 제어 동작을 실행하는 단계; (d) 상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하는 단계; 및 (e) 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 단계를 포함하는 감응식 교통 신호 제어 방법이 제공될 수 있다.

상기 (e) 단계 이전에, 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화를 포함하는 복수의 교차로 이미지를 현재 교통 상태로 갱신하는 단계; 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화에 대한 상태 전이 경험 예제를 재현 메모리에 저장하는 단계; 및 상기 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 랜덤하게 실행하는 단계를 포함하되, 상기 (e) 단계는 확률적경사하강법에 기초하여 상기 평가 함수의 파라미터값을 갱신할 수 있다.

상기 상태 전이 경험 예제는 이전 교통 상태, 이전 교통 상태에서 취해진 신호 제어 동작, 상기 신호 제어 동작에 따른 교통 상태 변화에 대한 보상값, 이전 신호 제어 동작의 결과인 현재 교통 상태를 포함하되, 상기 이전 교통 상태 및 상기 현재 교통 상태는 상기 신호 제어 동작 실행 전 후의 교차로 이미지이다.

상기 (a) 단계에서, 상기 딥 CNN 모델은, 단위 교차로에 인접한 다른 교차로 이미지를 더 이용하여 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대해 인접한 다른 교차로의 교통 상태를 더 고려하여 각각의 평가 함수값을 출력할 수 있다.

상기 딥 CNN 모델은 입력층 및 복수의 은닉층을 가질 수 있다. 상기 딥 CNN 모델은 상기 현재 교통 상태에 대한 복수의 교차로 이미지를 입력받는 입력층; a x a(자연수) 크기의 복수의 컨볼류션 커널(convolution kernel)을 포함하고, 제1 건너뛰기(stride)가 적용되는 복수의 컨볼류션 커널을 상기 교차로 이미지에 적용하여 컨볼류션 연산을 수행하여 제1 특징맵을 출력하는 제1 은닉층(hidden layer); 상기 제1 특징 맵에 대해 b x b(자연수) 크기의 복수의 컨볼류션 커널을 포함하고, 제1 건너뛰기(stride)가 적용되는 복수의 컨볼류션 커널을 제1 특징맵에 적용하여 컨볼류션 연산을 수행하여 제2 특징맵을 출력하는 제2 은닉층; c x c(자연수) 크기의 복수의 컨볼류션 커널을 포함하며, 제2 건너뛰기가 적용되는 복수의 컨볼류션 커널을 상기 제2 특징맵에 적용하여 컨볼류션 연산을 수행하여 제3 특징맵을 출력하는 제3 은닉층; n(자연수)개의 노드를 포함하고, 상기 제3 특징맵을 풀링(pooling)하는 제4 은닉층; 및 각 신호 제어 동작에 상응하는 k(자연수)개의 노드를 포함하는 출력층을 포함하되, 상기 제4 은닉층의 n개의 노드는 상기 출력층의 k개의 노드와 각각 모두 연결되며, 상기 출력층은 선형적으로 활성화될 수 있다.

상기 재현 메모리가 풀(Full) 상태이면, 상기 상태 전이 경험 예제들 중 가장 오래전에 저장된 상태 전이 경험 예제를 삭제하는 단계를 더 포함할 수 있다.

상기 평가 함수값은 강화 학습 알고리즘에 기반한 근사화된 Q-함수(function)으로 도출될 수 있다.

상기 (d) 단계는, 상기 타겟 신호 제어 동작 실행에 따른 교차로 접근로의 대기 및 접근 차량수가 증가하여 변화하는 경우, 상기 보상값을 미리 지정된 제1 값(양수 +1)으로 설정하는 단계; 상기 타겟 신호 제어 동작 실행에 따른 교차로 접근로의 대기 및 접근 차량수가 감소하여 변화하는 경우, 상기 보상값을 미리 지정된 제2 값(양수 -1)으로 설정하는 단계; 및 상기 대기 및 접근 차량수 변화가 없는 경우, 상기 보상값을 미리 지정된 제3값(0)으로 설정하는 단계를 포함할 수 있다.

이와 관련하여, 교차로 접근로의 대기 및 접근차량수의 측정을 위한 제2 딥 CNN 모델을 포함할 수 있으며, 이때 모형의 구조는 상기 평가함수 근사를 위한 딥 CNN 모델과 유사한 구조를 가질 수 있다. 제2 딥 CNN 모델의 훈련을 위해서는 신호제어를 위한 실시간 이미지와 별도로 제어 대상 교차로 각 접근로의 스냅 이미지를 사전 수집하여 지도형 기계학습방법에 따라 사전 시행한다.

본 발명의 다른 측면에 따르면, 복잡한 장비 없이 연속되는 복수의 교차로 이미지를 이용하여 감응식으로 교통 신호를 제어할 수 있는 감응식 교통 신호 제어 장치가 제공된다.

본 발명의 일 실시예에 따르면, 현재 교통 상태를 포함하는 복수의 교차로 이미지를 입력받아 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 딥 CNN 모델부; 상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하여 실행함으로써 교통 신호를 제어하는 신호 제어부; 및 상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하고, 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 학습부를 포함하는 감응식 교통 신호 제어 장치가 제공될 수 있다.

상기 신호 제어부는, 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화를 포함하는 복수의 교차로 이미지를 현재 교통 상태로 갱신하여 상기 딥 CNN 모델로 입력할 수 있다.

상기 학습부는, 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화에 대한 상태 전이 경험 예제를 재현 메모리에 저장하고, 상기 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 랜덤하게 추출하여 학습한 후 확률적경사하강법에 기초하여 상기 보상값 및 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신할 수 있다.

상기 딥 CNN 모델부는, 단위 교차로에 인접한 다른 교차로 이미지를 더 이용하여 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대해 인접한 다른 교차로의 교통 상태를 더 고려하여 각각의 평가 함수값을 출력할 수 있다.

상기 신호 제어부는, 상기 평가 함수값 및 상기 보상값을 이용하여 상기 타겟 신호 제어 동작의 실행 시간을 상이하게 결정할 수 있다.

상기 학습부는, 상기 재현 메모리가 풀(FULL)이면, 상기 상태 전이 경험 예제들 중 가장 오래전에 저장된 상태 전이 경험 예제를 삭제할 수 있다.

본 발명의 일 실시예에 따른 감응식 교통 신호제어 방법 및 그 장치를 제공함으로써, 복잡한 장비 없이 연속되는 복수의 교차로 이미지를 이용하여 감응식으로 교통 신호를 제어할 수 있는 감응식 교통 신호 제어가 가능한 이점이 있다.

또한, 본 발명은 교통신호기에 인공지능 기능을 부여함으로써 인간의 상태 감지능력 이상을 발휘하도록 하여 교차로 혼잡을 최소화 할 수 있다.

도 1은 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 시스템을 설명하기 위해 도시한 도면.

도 2는 본 발명의 일 실시예에 따른 감응식 교차로 제어 방법을 나타낸 순서도.

도 3은 본 발명의 일 실시예에 따른 딥 CNN 모델의 아키텍쳐를 나타낸 도면.

도 4는 본 발명의 일 실시예에 따른 교차로 이미지와 애니메이션화된 교차로 이미지를 나타낸 도면.

도 5는 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치의 구성을 개략적으로 도시한 블록도.

본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 시스템을 설명하기 위해 도시한 도면이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치(100)는 현재 교통 상태를 포함하는 교차로 이미지를 입력받아 강화 학습(RL: Reinforcement Learning)과 딥러닝(CNN: Convolution Neural Network)을 이용하여 시행착오를 통한 강화학습을 통해 스스로 진화하는 감응식 교통 제어가 가능하다.

이로 인해, 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 시스템은 복잡하고 값비싼 교통검지장치를 필요로 하지 않으며, 단지 교통 상태를 포함하는 교차로 이미지를 입력 받음으로써, 교통 상태를 인지하여 감응식 교통 신호 제어가 가능하다.

본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치(100)는 현재 교통 상태를 포함하는 교차로 이미지를 입력받아 강화 학습과 딥 CNN에 기반하여 현재 대기 및 접근 차량수보다 미래의 대기 및 접근 차량수가 적어질 것으로 예상되는 신호 제어 동작을 선택할 수 있다.

이어, 인공 지능 신호 제어 장치(100)는 선택된 신호 제어 동작을 수행한 후 그 결과에 따른 보상을 입력받아 강화 학습함으로써, 교차로 교통 상태에 따라 감응식으로 교통 신호를 제어할 수 있다.

이하 도 2를 참조하여 감응식 교통 신호 제어 장치(100)에서 감응식으로 교통 신호를 제어하는 방법에 대해 보다 상세히 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 감응식 교차로 제어 방법을 나타낸 순서도이고, 도 3은 본 발명의 일 실시예에 따른 딥 CNN 모델의 아키텍쳐를 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따른 교차로 이미지와 애니메이션화된 교차로 이미지를 나타낸 도면이다.

단계 210에서 감응식 교통 신호 제어 장치(100)는 현재 교통 상태 정보를 포함하는 교차로 이미지를 입력받고, 이를 이용하여 현재 교통 상태 정보에 기반한 각 신호 제어 동작에 대한 누적기대보상의 평가 함수값을 예측한다.

본 발명의 일 실시예에서는 평가 함수값 예측을 위해 강화 학습에 기반한 딥 CNN(deep convolutional neural network) 모델을 이용한다.

도 3에는 본 발명의 일 실시예에 따른 딥 CNN의 구조가 예시되어 있다.

본 발명의 일 실시예에 따른 딥 CNN 모델은 현재 교통 상태를 포함하는 복수의 교차로 이미지를 입력받고, 이를 컨볼류션 연산 및 서브 샘플링하는 복수의 단계를 수행하여 최종적으로 각 신호 제어 동작 각각에 대한 평가 함수값을 출력한다.

본 발명의 일 실시예에 따른 딥 CNN 모델은 실제 교차로를 대상으로 교통신호 제어기를 학습시키기 전에 시뮬레이션을 통해 이를 대신할 수 있다. 즉, 현재 교통 상태를 포함하는 교차로 이미지를 그대로 이용하지 않고, 시뮬레이션을 통한 교차로 애니메이션 샷(shoot)을 상태 이미지로 사용할 수 있다. 이를 통해, 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치(100)는 시행착오가 수반되는 학습기간에 나타날 수 있는 비정상적인 교차로 지체에 대한 시민 부담을 덜 수 있다.

도 4에는 실제 교차로 이미지와 교차로 이미지를 애니메이션화한 단순 이미지가 각각 도시되어 있다. 실제 교차로에 대한 적응을 위한 사전 학습에서는 가상현실에 가까운 애니메이션을 이용함으로써 현실 이미지와의 차이를 최소화할 수 있다.

이하, 도 3을 참조하여 본 발명의 일 실시예에 따른 딥 CNN 모델의 아키텍쳐에 대해 간략하게 설명하기로 한다.

본 발명의 일 실시예에 따른 딥 CNN 모델은 도 3에 도시된 바와 같이, 입력층, 제1 은닉층(convolution hidden layer), 제2 은닉층, 제3 은닉층, 제4 은닉층 및 출력층으로 구성된다.

입력층은 이미 전술한 바와 같이, 복수의 교차로 이미지를 입력받는다.

제1 은닉층은 a x a(자연수) 크기의 복수의 컨볼루션 커널(convolution kernel)을 포함한다. 제1 은닉층은 복수의 컨볼루션 커널을 통해 복수의 교차로 이미지에 대해 직접적으로 컨볼루션 연산을 수행한다. 이때, 제1 은닉층은 복수의 컨볼루션 커널을 수행함에 있어, 교차로 이미지를 제1 건너뛰기(stride) 단위로 픽셀을 건너뛰며 컨볼루션 커널을 수행할 수 있다.

제1 은닉층에서 복수의 교차로 이미지를 컨볼루션 연산한 결과를 제1 특징맵이라 칭하기로 한다.

제1 은닉층의 경우, 컨볼루션 커널(필터)의 크기는 예를 들어, 8 x 8일 수 있으며, 제1 건너뛰기(stride) 사이즈는 4 x 4일 수 있다.

제2 은닉층은 b x b(자연수) 크기의 복수의 컨볼루션 커널을 포함한다. 제2 은닉층은 b x b 크기의 복수의 컨볼루션 커널을 제1 특징맵에 적용하여 컨볼루션 연산을 수행함으로써 제2 특징 맵을 출력한다.

제2 은닉층의 건너뛰기 사이즈는 제1 은닉층과 동일할 수 있다. 물론, 구현 방법에 따라 건너뛰기 사이즈는 상이하게 설정될 수도 있다.

제3 은닉층은 c x c(자연수) 크기의 복수의 컨볼루션 커널을 포함하고, c x c 크기의 복수의 컨볼루션 커널을 제2 특징맵에 적용하여 컨볼루션 연산을 수행함으로써 제3 특징맵을 출력할 수 있다. 제3 은닉층의 건너뛰기 사이즈는 제1 은닉층 및 제2 은닉층과는 상이하게 설정된다. 예를 등러, 제3 은닉층의 건너뛰기 사이즈는 1 x 1일 수 있다.

제4 은닉층은 n(자연수)개의 노드를 포함하며, 제3 특징맵을 풀링(pooling)한다. 제4 은닉층의 n개의 노드는 출력층의 k개의 노드와 완전히 연결(full connection)되어 있다.

출력층은 k개의 노드를 포함한다. 출력층에 포함되는 각 노드는 각 신호 제어 동작에 상응하도록 설정된다. 보다 상세하게, 출력층에 포함되는 각 노드는 각 신호 제어 동작에 상응하는 평가 함수값을 출력한다.

이때, 출력층에 포함되는 각 노드는 선형적으로 활성화될 수 있다.

다시 설명하면, 딥 CNN 모델은 복수의 교차로 이미지를 입력받아 현재 교통 상태와 각 신호 제어 동작 페어 각각에 대한 교통 상태 변화에 대한 누적기대보상에 따른 평가 함수값을 각각 출력할 수 있다.

여기서, 평가 함수값은 강화 학습에 기반한 Q-함수(function)의 값일 수 있다.

강화 학습에 기반한 Q-함수(function)는 수학식 1과 같이 나타낼 수 있다.

여기서,

는 t시간에서의 교통 상태를 나타내며,

는

에서 취해지는 동작(즉, 신호 제어 동작)을 나타내고,

는

이후에 보상을 나타내며,

는 보상을 위한 할인율(discount rate)을 나타내며,

는 Q-함수(function)를 나타내고,

는 평균을 나타내는 기호이다.

본 발명의 일 실시예에 따르면, 감응식 교통 신호 제어 장치(100)는 교통 상태에 따른 교통 신호 제어 동작에 따른 경험을 축적함에 따라 최적의 평가 함수값을 찾아갈 수 있다.

본 발명의 일 실시예에서는 Q-학습 알고리즘에 기반한 강화 학습의 평가 함수를 그대로 이용하지 않고 가중치 파라미터에 기반하여 근사화된 평가 함수(

)를 도입하는데, 이 근사함수로 딥 CNN 모델을 채택한다.

따라서, 딥 CNN은 현재 교통 상태를 포함하는 실제 또는 애니메이션화된 교차로 이미지를 입력받고, 딥 CNN 모델을 통해 각 신호 제어 동작에 대해 근사화된 평가 함수값을 출력한다.

도 2에서는 감응식 교통 신호 제어 장치(100)가 하나의 딥 CNN 모델을 구비하고, 이를 기반으로 각 신호 제어 동작에 따른 근사화된 평가 함수값을 예측하여 출력하는 것을 중심으로 설명하였다.

다른 예를 들어, 감응식 교통 신호 제어 장치(100)는 다른 딥 CNN 모델(제2 딥 CNN 모델)을 더 구비할 수도 있다. 제2 딥 CNN 모델은 교차로 접근로의 대기 및 접근 차량 수를 측정할 수 있다. 제2 딥 CNN 모델의 구조는 평가 함수값을 예측하여 출력하는 딥 CNN 모델과 유사한 구조를 가질 수 있다. 제2 딥 CNN 모델의 훈련을 위해서는 신호제어를 위한 실시간 이미지와는 별도로 제어 대상 교차로 각 접근로의 스냅 이미지를 사진 수집하여 지도형 기계학습방법에 따라 사전 시행할 수 있다.

단계 215에서 감응식 교통 신호 제어 장치(100)는 현재 교통 상태와 각 신호 제어 동작 페어 각각에 대해 도출된 평가 함수값들 중 최대값에 대응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택한다.

여기서, 감응식 교통 신호 제어 장치(100)가 학습기간에 다양한 상태를 경험할 수 있도록 교통 신호 제어를 랜덤하게 수행할 수도 있다.

즉, 감응식 교통 신호 제어 장치(100)는 랜덤 동작시에 대한 확률값을 수학식 2를 이용하여 계산할 수 있다. 수학식 2를 통해 학습 초기에는 랜덤 동작 비율을 높게하고 학습이 진행됨에 따라 그 비율을 낮추는 기능을 구현한다.

여기서,

는 초기 확률값을 나타내고,

는 최종 확률값을 나타내며,

는 확률값의 감쇄 파라미터를 나타내며, t는 시간을 나타낸다.

신호 제어 동작을 시행하는 시간 주기마다 하나의 랜덤 넘버를 발생시킨 후 그 값이 수학식2에 의해 계산된 확률값 미만인 경우, 감응식 교통 신호 제어 장치(100)는 랜덤하게 신호 제어 동작을 수행할 수도 있다.

단계 220에서 감응식 교통 신호 제어 장치(100)는 선택된 타겟 신호 제어 동작을 수행한다.

단계 225에서 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작 수행에 따른 대기 및 접근 차량수 변화에 기반하여 보상값을 갱신한다.

예를 들어, 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작을 수행한 결과에 따른 현재 대기 및 접근 차량수와 이전 대기 및 접근 차량수를 비교하여 보상값을 갱신할 수 있다.

즉, 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작을 수행한 결과 현재 대기 및 접근 차량수가 이전 대기 및 접근 차량수보다 길면(즉, 이전 대기 및 접근 차량수가 짧으면) 보상값을 미리 정한 제1 값(예를 들어, 양수 +1 값)으로 설정한다.

그러나 만일 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작을 수행한 결과 현재 대기 및 접근 차량수가 이전 대기 및 접근 차량수보다 줄어들었으면, 보상값을 미리 정한 제2 값(예를 들어, 양수 -1값)으로 설정한다.

타겟 신호 제어 동작을 수행한 결과 현재 대기 및 접근 차량수와 이전 대기 및 접근 차량수간에 차이가 없는 경우, 감응식 교통 신호 제어 장치(100)는 보상값을 미리 정한 제3 값(예를 들어, 0)으로 설정한다.

단계 230에서 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작을 수행한 이후 복수의 교차로 이미지를 현재 교통 상태로 저장한다.

단계 235에서 감응식 교통 신호 제어 장치(100)는 타겟 신호 제어 동작 수행에 따른 교통 상태 변화에 따른 상태 전이 경험 예제(

)를 재현 메모리에 저장한다.

여기서,

는 타겟 신호 제어 동작 수행 이전의 교통 상태를 포함하는 교차로 이미지이고,

는

하에서 취해진 신호 제어 동작으로 타겟 신호 제어 동작을 나타내며,

는

수행 후 보상값을 나타내고,

는

를 수행한 후 변화된 교통 상태 정보를 포함하는 교차로 이미지를 나타낸다.

이때, 감응식 교통 신호 제어 장치(100)는 재현 메모리가 풀(FULL)이면, 상태 전이 경험 예제들 중 가장 오래전에 저장된 예제를 삭제하여 메모리 공간을 확보할 수 있다.

단계 240에서 감응식 교통 신호 제어 장치(100)는 강화 학습을 위해, 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 선택하여 신호제어기의 학습을 시행한다.

단계 245에서 감응식 교통 신호 제어 장치(100)는 확률적경사하강법에 기초하여 보상값 및 평가 함수값을 이용하여 평가 함수의 파라미터값을 강화하여 갱신한다.

Q-학습 알고리즘의 목적 함수는 수학식 3과 같이 매우 간단한 최소제곱법의 형태로 나타낼 수 있다.

여기서,

는 근사화된 평가 함수(Q-function), 즉 딥 CNN을 나타내고,

는 평가 함수의 가중치 파라미터 집합을 나타낸다.

확률적경사하강법(SGD)는 수학식 2의 목적 함수를 최소화하기 위해 가장 적합한 알고리즘이다.

확률적경사하강법(SGD)는 단일 예제로 간주되는 각 시간 간격에서,

의 필요한 페어를 포함하는 MDP 문제의 목적 함수를 최소화하기에 가장 적합하다. 여기서,

는 다음 교통 상태를 나타내고,

는 교통 상태에 따른 가능한 신호 제어 동작을 나타내며,

는 보상값을 나타낸다.

만약 일반적인 경사하강법(GD)을 사용한다면 상태 전이 경험 예제(

)의 모든 가능한 조합을 통해 수학식 2의 목적함수의 평균을 계산해야 하는 부담이 있지만, 확률적경사하강법(SGD)를 적용하면 수학식2의 목적 함수를 평균으로 계산할 필요가 없어지는 장점을 갖게 된다.

그러나, Q-학습 알고리즘이 평가 함수(Q-function)가 비선형 함수에 의해 근사화되었을 때 항상 전역적 최소값으로의 수렴을 보증하지는 않으며, 국부적 최소화에서 막힐 가능성이 있다.

강화 학습 기반 알고리즘은 알고리즘이 실행됨으로써 자동적으로 훈련 예제들을 수신할 수 있는 반면, 연속으로 얻어지는 예제들간의 상관을 피하기 어려운 단점을 가지고 있다.

또한, 전역해 찾기에 불안정성을 야기하는 또 다른 원인은 전후 평가함수 사이의 구조적 상관관계에 있다. 따라서, 이러한 문제를 해결하기 위해, 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치(100)는 다음의 세가지 척도를 적용하였다.

우선, 타겟 평가 함수와 갱신될 메인 평가 함수를 분리한다. 타겟 평가 함수의 가중치 파라미터는 매 시간 간격마다 갱신되지 않고, 갱신될때까지 장기간 고정된다. 다만, 장기간 주기로 타겟 평가 함수가 갱신될 때, 가중치 파라미터들을 그 당시의 시간 간격에서 메인 평가 함수의 가중치 파라미터로 설정될 수 있다.

수학식 3을 다시 정리하면 수학식 4과 같다.

여기서,

는 타겟 평가 함수의 가중치 파라미터로, 고정된 값을 나타낸다.

두번째, 각 시간 간격에서의 상태 전이 경험 예제들이 즉각적으로 이용되기 보다는 일정 크기를 갖는 재현 메모리에 저장된다. 가중치 파라미터의 갱신을 위해 재현 메모리에 저장된 일정 수의 상태 전이 경험 예제들이 랜덤하게 선택된다. 다시, 정리하면, 감응식 교통 신호 제어 장치(100)는 확률적경사하강법에 기초하여 보상값 및 평가 함수값을 이용하여 평가 함수의 파라미터값을 강화하여 갱신할 수 있다. 이때, 확률적경사하강법은 재현 메모리에 저장된 상태 전이 경험 예제들을 대상으로 수행될 수 있다. 이를 수식으로 다시 정리하면 수학식 5와 같다.

여기서, M은 상태 전이 경험 예제들에 대한 미니 배치 예제들의 개수를 나타내고, j는 상태 전이 경험 예제들의 인덱스를 나타낸다.

는 상태 전이 경험 예제에서 이전 신호 제어 동작에 의한 결과 상태 이미지를 나타내고,

는 타겟 평가함수의 최대값을 얻기 위한 실행 가능한 신호 동작 변수를 나타낸다.

또한, 감응식 교통 신호 제어 장치(100)는 타겟 평가 함수의 파라미터값을 갱신함에 있어, 교통 신호 제어가 수행되는 매 시간마다 수행하지 않고, 일정 시간 간격(C)마다 갱신할 수 있다.

이에 대해서는 이미 전술한 바와 동일하므로 중복되는 설명은 생략하기로 한다.

도 5는 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 장치의 구성을 개략적으로 도시한 블록도이다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 감응식 신호 제어 장치(100)는 딥 CNN 모델부(510), 학습부(515), 신호 제어부(520) 및 메모리(525)를 포함하여 구성된다.

딥 CNN 모델부(510)는 현재 교통 상태를 포함하는 복수의 교차로 이미지를 입력받아 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력한다.

예를 들어, 딥 CNN 모델부(510)는 연속된 복수의 교차로 이미지를 입력받고, 연속된 복수의 교차로 이미지의 교통 상태 변화에 기반하여 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 예견되는 교통 상태 변화에 따른 대기 및 접근 차량수 변화(누적기대보상)에 기반한 근사화된 평가 함수값을 예측하여 출력한다.

이는 도 2 및 도 3에서 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.

신호 제어부(520)는 각 신호 제어 동작에 상응하여 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하여 실행함으로써 교통 신호를 제어하는 기능을 한다. 이러한, 신호 제어부(520)는 실제 신호등 제어를 위한 장치와 연결되어 신호 제어 동작을 제어 신호로써 출력할 수 있다.

학습부(515)는 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하고, 보상값과 각 신호 제어 동작에 따른 평가 함수값을 이용하여 평가 함수의 파라미터값을 갱신하는 기능을 한다.

학습부(515)는 매시간 주기로 얻어지는 실제 교차로 이미지를 실시간으로 이용하여 학습하지는 않는다. 다만, 학습부(515)는 매시간 재현 메모리에 상태 전이 경험 예제를 각각 저장한 후 상태 전이 경험 예제들 중 일부를 랜덤하게 선택하여 강화 학습할 수 있다.

상태 전이 경험 예제는 이미 전술한 바와 같이, 이전 교통 상태, 이전 교통 상태에서 취해진 신호 제어 동작, 신호 제어 동작에 따른 보상값, 신호 제어 동작 수행에 따른 현재 교통 상태를 포함할 수 있다.

이미 전술한 바와 같이, 이전 교통 상태 및 현재 교통 상태는 각각 연속된 복수의 교차로 이미지일 수 있다.

본 발명의 일 실시예에 따른 학습부(515)는 확률적경사하강법에 기초하여 재현 메모리에 저장된 상태 전이 예제들 중 일부를 랜덤하게 선택하여 보상값 및 평가 함수값을 이용하여 평가 함수의 파라미터값을 갱신할 수 있다.

이에 대해서는 이미 도 2를 참조하여 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.

메모리(525)는 본 발명의 일 실시예에 따른 감응식 교통 신호 제어 방법을 수행하기 위해 필요한 다양한 알고리즘, 데이터, 이 과정에서 파생되는 데이터 등을 저장하기 위한 수단이다. 또한, 메모리(525)는 재현 메모리를 포함할 수도 있다.

한편, 전술된 실시예의 구성 요소는 프로세스적인 관점에서 용이하게 파악될 수 있다. 즉, 각각의 구성 요소는 각각의 프로세스로 파악될 수 있다. 또한 전술된 실시예의 프로세스는 장치의 구성 요소 관점에서 용이하게 파악될 수 있다.

또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims

(a) 현재 교통 상태를 포함하는 복수의 교차로 이미지를 딥 CNN(deep CNN) 모델에 입력함으로써, 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 단계;

(b) 상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하는 단계;

(c) 상기 선택된 타겟 신호 제어 동작을 실행하는 단계;

(d) 상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하는 단계; 및

(e) 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 단계를 포함하는 감응식 교통 신호 제어 방법.
제1 항에 있어서,

상기 (e) 단계 이전에,

상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화를 포함하는 복수의 교차로 이미지를 현재 교통 상태로 갱신하는 단계;

상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화에 대한 상태 전이 경험 예제를 재현 메모리에 저장하는 단계; 및

상기 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 랜덤하게 추출하는 단계를 포함하되,

상기 (e) 단계는 확률적경사하강법에 기초하여 상기 평가 함수의 파라미터값을 갱신하는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
제2 항에 있어서,

상기 상태 전이 경험 예제는 이전 교통 상태, 이전 교통 상태에서 취해진 신호 제어 동작, 상기 신호 제어 동작에 따른 교통 상태 변화에 대한 보상값, 현재 교통 상태를 포함하되,

상기 이전 교통 상태 및 상기 현재 교통 상태는 상기 신호 제어 동작 실행 전 후의 교차로 이미지인 것을 특징으로 하는 감응식 교통 신호 제어 방법.
제1 항에 있어서,

상기 (a) 단계에서, 상기 딥 CNN 모델은,

단위 교차로에 인접한 다른 교차로 이미지를 더 이용하여 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대해 인접한 다른 교차로의 교통 상태를 더 고려하여 각각의 평가 함수값을 출력하는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
제1 항에 있어서,

상기 딥 CNN 모델은,

상기 현재 교통 상태에 대한 복수의 교차로 이미지를 입력받는 입력층;

복수의 컨볼류션 커널(convolution kernel)을 포함하고, 지정된 건너뛰기(stride)가 적용되는 상기 복수의 컨볼류션 커널을 이미지에 적용하여 컨볼류션 연산을 수행하는 복수의 은닉층(hidden layer); 및

각 신호 제어 동작에 상응하는 k(자연수)개의 노드를 포함하는 출력층을 포함하되,

상기 출력층에 포함되는 k개의 노드는 상기 복수의 은닉층 중 가장 마지막 은닉층에 포함되는 복수의 노드와 각각 모두 연결되며, 상기 출력층의 k개의 노드는 각각 선형적으로 활성화되는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
제5 항에 있어서,

상기 복수의 은닉층은,

a x a(자연수) 크기의 복수의 컨볼류션 커널(convolution kernel)을 포함하고, 제1 건너뛰기(stride)가 적용되는 복수의 컨볼류션 커널을 상기 교차로 이미지에 적용하여 컨볼류션 연산을 수행하여 제1 특징맵을 출력하는 제1 은닉층(hidden layer);

상기 제1 특징 맵에 대해 b x b(자연수) 크기의 복수의 컨볼류션 커널을 포함하고, 제1 건너뛰기(stride)가 적용되는 복수의 컨볼류션 커널을 제1 특징맵에 적용하여 컨볼류션 연산을 수행하여 제2 특징맵을 출력하는 제2 은닉층;

c x c(자연수) 크기의 복수의 컨볼류션 커널을 포함하며, 제2 건너뛰기가 적용되는 복수의 컨볼류션 커널을 상기 제2 특징맵에 적용하여 컨볼류션 연산을 수행하여 제3 특징맵을 출력하는 제3 은닉층; 및

n(자연수)개의 노드를 포함하고, 상기 제3 특징맵을 풀링(pooling)하는 제4 은닉층을 포함하는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
제2 항에 있어서,

상기 재현 메모리가 풀(Full) 상태이면, 상기 상태 전이 경험 예제들 중 가장 오래전에 저장된 상태 전이 경험 예제를 삭제하는 단계를 더 포함하는 감응식 교통 신호 제어 방법.
제1 항에 있어서,

상기 평가 함수값은 강화 학습 알고리즘에 기반한 근사화된 Q-함수(function)으로 도출되는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
제1 항에 있어서,

상기 (d) 단계는,

상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수가 증가하여 변화하는 경우, 상기 보상값을 제1 값으로 설정하는 단계;

상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수가 감소하여 변화하는 경우, 상기 보상값을 제2 값으로 설정하는 단계; 및

상기 대기 및 접근 차량수 변화가 없는 경우, 상기 보상값을 제3 값으로 설정하는 단계를 포함하는 것을 특징으로 하는 감응식 교통 신호 제어 방법.
제1 항에 따른 방법을 수행하기 위한 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체 제품.
현재 교통 상태를 포함하는 복수의 교차로 이미지를 입력받아 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대한 교통 상태 변화에 따른 누적기대보상의 근사화된 평가 함수값(Q-function)을 각각 출력하는 딥 CNN 모델부;

상기 도출된 평가 함수값들 중 최대값에 상응하는 신호 제어 동작을 타겟 신호 제어 동작으로 선택하여 실행함으로써 교통 신호를 제어하는 신호 제어부; 및

상기 타겟 신호 제어 동작 실행에 따른 교차로 대기 및 접근 차량수 변화를 이용하여 보상값을 갱신하고, 상기 보상값과 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 학습부를 포함하는 감응식 교통 신호 제어 장치.
제11 항에 있어서,

상기 신호 제어부는, 상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화를 포함하는 복수의 교차로 이미지를 현재 교통 상태로 갱신하여 상기 딥 CNN 모델로 입력하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.
제11 항에 있어서,

상기 학습부는,

상기 타겟 신호 제어 동작의 실행에 따른 교통 상태 변화에 대한 상태 전이 경험 예제를 재현 메모리에 저장하고,

상기 재현 메모리에 저장된 상태 전이 경험 예제들 중 일부를 랜덤하게 실행하여 학습한 후 확률적경사하강법에 기초하여 상기 보상값 및 상기 평가 함수값을 이용하여 상기 평가 함수의 파라미터값을 갱신하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.
제11 항에 있어서,

상기 딥 CNN 모델부는,

단위 교차로에 인접한 다른 교차로 이미지를 더 이용하여 상기 현재 교통 상태와 각 신호 제어 동작 페어(pair) 각각에 대해 인접한 다른 교차로의 교통 상태를 더 고려하여 각각의 평가 함수값을 출력하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.
제11 항에 있어서,

상기 신호 제어부는,

상기 평가 함수값 및 상기 보상값을 이용하여 상기 타겟 신호 제어 동작의 실행 시간을 상이하게 결정하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.
제13 항에 있어서,

상기 학습부는,

상기 재현 메모리가 풀(FULL)이면, 상기 상태 전이 경험 예제들 중 가장 오래전에 저장된 상태 전이 경험 예제를 삭제하는 것을 특징으로 하는 감응식 교통 신호 제어 장치.