KR20200084750A - 심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치 - Google Patents

심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치 Download PDF

Info

Publication number
KR20200084750A
KR20200084750A KR1020190060679A KR20190060679A KR20200084750A KR 20200084750 A KR20200084750 A KR 20200084750A KR 1020190060679 A KR1020190060679 A KR 1020190060679A KR 20190060679 A KR20190060679 A KR 20190060679A KR 20200084750 A KR20200084750 A KR 20200084750A
Authority
KR
South Korea
Prior art keywords
deep neural
neural network
travel speed
road
network
Prior art date
Application number
KR1020190060679A
Other languages
English (en)
Inventor
이용진
손기민
Original Assignee
한국전자통신연구원
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원, 중앙대학교 산학협력단 filed Critical 한국전자통신연구원
Publication of KR20200084750A publication Critical patent/KR20200084750A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

본 발명은 심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치에 관한 것이다. 주어진 도로 구간의 통행속도는 인근 도로 구간들의 현재 및 과거 통행속도의 영향을 받으며, 그 영향은 교통망의 나머지 부분으로 더 확장된다. 따라서 성공적인 예측 모델은 이웃의 영향뿐만 아니라 멀리 있는 도로 구간의 영향도 고려해야 한다. 이 원리를 바탕으로, 실제 교통망의 토폴로지를 시간 의존성뿐만 아니라 도시 전역의 공간적 상관관계를 수용하기 위한 심층 신경망 구조를 제안하며, 제안된 예측 모델을 통행상태 전이 및 전파 측면에서 확장한 모델을 제시한다. 본 발명은 10개월 이상 동안 수집된 대규모 데이터 세트를 사용하여 수행되었으며, 서울 강남의 170개 도로 구간의 통행속도를 성공적으로 예측했다.

Description

심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치{Traffic speed prediction using a deep neural network to accommodate citywide spatio-temporal correlations}
본 발명은 도시의 시공간 상관관계를 수용하여 통행속도를 예측하는 방법 및 장치에 관한 것으로서, 특히 심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치에 관한 것이다.
신뢰할 수 있는 교통 관리 및 운영 체제를 구축하기 위해서는 통행량뿐만 아니라 통행속도를 정확하게 예측하는 것이 중요하다. 그러나, 통행량 예측과는 달리, 지역 전체 규모에서 통행속도나 이동시간을 예측하는 연구는 거의 없었다.
또한, 기존에는 '통행상태(traffic state)'를 예측하기 위하여 SVM(support vector machines), HMM(hidden markov models) 등의 방법을 사용한 연구가 이루어졌으나, 이 방법들은 데이터 내에서 복잡한 비선형성을 수용할 수 없는 본질적인 단점을 갖고 있었다. 이러한 단점을 극복하기 위하여 딥러닝 접근법이 등장하였지만, '시공간 의존성(spatio-temporal dependencies)'을 동시에 고려하는 분석 모델의 부재로 인하여, 시간 의존성(temporal dependency)을 위주로 통행속도를 예측하는 방법들이 주로 사용되었다. 시공간 상관관계를 갖는 교통 파라미터를 예측할 때에는 Long Short-Term Memory(LSTM) 모델이 널리 사용되었다. 그러나, LSTM 모델은 이러한 상관관계를 데이터 학습을 통해 결정된 모델 파라미터에만 귀속시키기 때문에, 장기간의 입력이 필요하다는 문제가 있다.
본 발명에서는, 시간 의존성뿐만 아니라 공간 의존성도 동시에 고려하면서 장기간의 입력이나 특징가공(feature engineering)을 거칠 필요없이 단기간의 원시 입력 데이터(raw input data)를 반영하여 종래 기술보다 정확도가 높은 심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치를 제안하고자 한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명에서는 시공간 의존성을 모두 고려하면서, 단기간의 원시 입력 데이터를 활용하여 종래의 방법에 비해 통행속도 예측의 정확도가 향상된 심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치를 제안한다.
본 발명의 한 측면에 따른 심층 신경망을 이용한 도로망 통행속도 예측 방법은, 심층 신경망에 도로망에 대한 정보를 구조화하여 계층(입력층, 출력층 및 은닉층 등) 또는 뉴런(또는 노드) 간의 연결을 형성하고, 통행속도 데이터셋을 상기 심층 신경망의 입력층에 입력하는 단계; 상기 심층 신경망에서 입력된 데이터셋을 학습하여 상기 도로망에 대한 미래의 통행속도 추정치를 구하고 손실함수를 이용하여 상기 통행속도 추정치와 실제 관측치를 비교하여 오차를 측정하는 단계; 및 상기 오차에 따라 상기 심층 신경망의 학습 파라미터를 수정하며 도로망의 통행속도의 예측 정확도를 향상시키는 단계를 포함한다.
본 발명의 다른 목적과 효과 그리고 이들을 달성하기 위한 구성은 이하에서 첨부 도면을 참조하여 기재된 실시예의 설명을 통해 명확해질 것이다.
본 발명에 따른 방법 및 장치를 사용할 경우, '시공간 의존성(spatio-temporal dependencies)'을 동시에 수용한 통행속도 예측을 할 수 있다. 종래에는 주로 시간 의존성만을 수용한 통행상태 예측 방법이 사용되었고, 도로망의 공간 의존성도 함께 반영하고자 하는 경우, 시계열적 데이터를 영상으로 변형하면서 데이터의 왜곡이 발생하여 예측의 성능이 저하되는 문제가 있었다. 그렇지만, 본 발명은 도로망의 공간 의존성을 반영하여, 통행속도의 시계열적 데이터를 인위적으로 영상으로 변형하지 않아 데이터의 왜곡이 발생하지 않기 때문에, 도로망의 공간 의존성을 반영하면서도 통행속도 예측에 대한 정확도가 일반적인 방법론에 비하여 크게 향상된다. 또한, 본 발명은 학습과정을 용이하게 하고 모델성능을 향상시킨다. 심층 신경망 예측 모델을 구성하기 위해 원시 속도 데이터로부터 연결 정보를 학습하고 자동으로 신경망을 구축할 수 있다.
본 발명은 한국의 서울에서 10개월 동안 수집된 대규모 통행속도 데이터셋을 사용하여 수행되었다. 현재 수도권에 위치정보를 신고하는 택시 7만 대가 설치돼 있고 이 중 평균 2만 대가 일정 시간에 운행되고 있다. 이들 차량에서 수집된 통행 데이터는 5분마다 각 도로 구간에 대해 집계된다. 장비 장착 차량비율이 높아 현재 조사를 위한 시범 지역이었던 강남과 같은 바쁜 지역에서는 5분 내에 아무런 차량도 지나지 않는 도로 구간은 거의 없었다. 본 발명에서는 5분간의 데이터를 15분으로 집계하여 모든 도로 구간과 시간대에 대한 데이터 무결성을 더욱 강화했다.
도 1은 도시의 물리적 도로망의 일 예를 그래프로 도시한 것이다.
도 2는 본 발명의 실시예 1에 따른 심층 신경망을 구조화한 것이다.
도 3은 본 발명의 실시예 1을 구현한 것이다.
도 4는 본 발명의 실시예 2에 따른 심층 신경망을 구조화한 것이다.
도 5는 본 발명의 실시예 2를 구현한 것이다.
도 6은 본 발명의 실시예 3에 따른 잔여학습을 적용한 심층 신경망을 구조화한 것이다.
도 7은 본 발명의 실시예 3을 구현한 경우 노드 간 영향에 대해 도시한 것이다.
도 8은 본 발명의 실시예 3을 구현한 것이다.
도 9는 본 발명의 실시예 4에 따른 심층 신경망을 구조화한 것이다.
도 10은 본 발명의 실시예 4를 구현한 것이다.
도 11은 본 발명의 구현을 위한 최종 모델 아키텍처를 나타낸다.
도 12는 본 발명을 통하여 예측된 속도와 실제 관측된 속도의 XY-플롯 및 테스트 베드로 선정된 링크를 나타낸다.
이하에서 본 발명을 실시하기 위한 구체적인 실시예(들)를 도면을 참조하여 설명한다. 그러나 본 발명의 기술적 사상은 이하 기재된 실시예(들)에 한정되는 것이 아니라 다양한 변경과 변형이 가해진 형태로 구현될 수 있는바, 실시예(들)는 본 발명의 개시가 완전하도록 하며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다. 본 발명의 권리범위는 실시예(들)로부터 관념되는 기술적 사상에 속하는 모든 변경, 변형, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
한편, 본 명세서에서 사용된 용어는 실시예(들)를 설명하기 위한 목적으로 사용되는 것이지 본 발명을 제한하고자 하는 것은 아니다. "포함하다" 또는 "가지다, 갖다" 등의 용어는 개시된 특징, 숫자, 단계, 동작, 구성요소, 부분품, 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하는 것이 아님을 이해하여야 한다.
마찬가지로, 어떤 구성요소가 다른 구성요소에 "연결되어 있다"거나 "접속되어 있다"고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해하여야 할 것이다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
한편, 어떤 실시예가 달리 구현 가능한 경우에 특정 블록 내에 명기된 기능 또는 동작이 순서도에 명기된 순서와 다르게 실행될 수도 있다. 예를 들어, 연속하는 두 블록이 실제로는 실질적으로 동시에 수행될 수도 있고, 관련된 기능 또는 동작에 따라서는 상기 블록들이 거꾸로 수행될 수도 있다.
본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
Ⅰ. 프레임워크 모델링
A. 실시예 1 - 본 발명의 기본 예측 모델
본 발명은 딥러닝에 기초하고 있으며 서로 다른 위치에서 관측된 통행속도 사이의 공간적 상관관계를 설명하기 위해 도시 간선망(urban arterial network)의 물리적 배치를 명시적으로 수용한다.
도 1의 (a)는 5개의 도로 구간(road segment)을 갖는 도시 도로망의 한 예로서, 여기서 각 도로 구간에 고유하게 번호(101 내지 105)를 매겼다. 각 도로 구간은 물리적으로는 선 형태이지만, 도 1의 (b)에 보이는 것처럼 그래프상에서는 꼭지점(111 내지 115)으로 나타낼 수 있다. 여기서 점선들은 물리적 도로 구간들 사이의 실제 연결을 나타낸다. 도로망 그래프는 도로 구간 간의 실제 연결을 사용하여 쉽게 구성할 수 있다.
통행속도 예측을 위한 본 발명의 실시예 1에 따른 심층 신경망은 도 2의 (a)에서 보듯이 물리적 관계를 반영한다. 뉴런(211 내지 215, 231 내지 235)은 도로 구간에 해당되며 각 계층(layer; 입력층, 출력층 포함; 210, 230)은 물리적 도로 구간 수(그래프로 나타낸 경우에는 노드 수)와 동일한 수의 뉴런을 갖는다(이하에서, 용어 '노드'와 '뉴런'을 서로 혼용하기로 한다). 하위 계층(210)과 상위 계층(230) 간의 신경 연결은 해당 실제 도로 구간이 인접한 경우에만 주어지므로 각 노드는 물리적으로 인접한 노드에서만 정보를 받는다. 예를 들어, 실제 도로 구간 1은 도로 구간 1, 2 및 4에 직접 연결되어 있기 때문에 상위 계층의 뉴런 1(231)은 하위 계층의 뉴런 1(211), 2(212) 및 4(214)와 연결된다. 마찬가지로 실제 도로 구간 5는 도로 구간 3과 5에 직접 연결되어 있기 때문에 상위 계층(230)의 뉴런 5(235)는 하위 계층(210)의 뉴런 3(213)과 5(215)와 연결된다. 다른 연결도 같은 방식으로 설정되지만 과도한 도면을 피하기 위해 표시하지 않는다. 여기에서는 두 개의 계층만 보여주었지만 계층을 반복적으로 쌓는다면 더 깊은 네트워크를 구성할 수 있다.
도 2에 대해서 더 구체적으로 설명하면, (a)는 물리적 도로 연결에 따라, 본 발명의 기본 실시예에 따른 신경망을 구조화 한 예로서, 점선은 원래의 도로 연결을 보여주기 위한 용도로만 사용하였다. 이 구성을 통해 하위 계층(210)에서 상위 계층(230)으로의 프로세스는 다음 수학식 1과 수학식 2와 같은 상태전이(state transition)로 볼 수 있다.
Figure pat00001
Figure pat00002
도 2의 (b)를 보면, 뉴런 1(211)과 3(213)은 직접 연결되지 않지만, 노드 3(213)의 정보는 도로 구간 3으로부터의 통행(traffic)이 도로 구간 2를 통해 도로 구간 1까지의 상태에 영향을 미치는 것처럼 중간 계층(middle layer. 220) 뉴런 2(222)를 통해 노드 1(231)로 전파된다.
본 발명의 접근법은 최소한의 방법으로 신경 연결을 만든다. 그 수는 학습에 의해 예상되는 파라미터의 수에 직접 비례한다. N 노드가 있다고 가정하면, 계층 간에는 N×N 신경 연결이 된다. 그러나 본 접근방식은 N×k 연결을 필요로 한다. 여기서 k는 이웃하는 노드의 평균 개수이고 k≪N이다. 본 발명에서 N은 170이고 k는 대략 5이다. 이러한 국한된 구조를 통해 학습 파라미터의 수를 크게 줄일 수 있다. 그럼에도 불구하고, 각 뉴런이 처리하는 정보는, 노드들이 서로 상호 연결되어 있기 때문에 계속해서 먼 노드로 전파될 수 있다.
하위 계층에서 상위 계층으로의 프로세스는 상태전이로 간주될 수 있다. 예를 들어, 상위 계층(t+1)의 노드 1에서 신호
Figure pat00003
는 하위 계층 t의 노드 1, 2 및 4에서의 신호
Figure pat00004
의 함수로 수학식 1과 같이 쓸 수 있다.
그리고 이는 정확히 노드 1에 대한 상태공간모델(state space model)이다. 여기서
Figure pat00005
은 상태전이함수(state transition function)의 역할을 하고
Figure pat00006
은 상태표현(state representation)의 역할을 한다. 초기 상태
Figure pat00007
은 노드 1에서의 통행속도의 현재(및 과거) 관측치로 주어지며, 최종 상태는 추후 관측치에 대한 추정치이다. 이러한 맥락에서, 신경망의 은닉층(hidden layer)의 수는 현재와 미래의 관찰 시간 사이의 시간 분해능(resolution)으로 생각할 수 있다. 현재 및 미래의 통행속도 사이의 균일하게 샘플링된 중간 관찰을 통한 계층 방식으로 신경망을 학습하지 않는 한, 계층 t가 특정 시점에 물리적으로 대응할 것 그리고 시간 간격이 동일할 것은 보장되지 않는다.
본 발명의 심층 신경망 모델은 각 도로 구간의 통행이 다른 구간으로 흘러 들어가는 것처럼 각 뉴런에 의해 처리된 정보가 릴레이되므로, 이웃의 영향뿐만 아니라 먼 도로 구간의 영향도 고려할 수 있다. 예를 들어(도 2의 (b) 참조), 뉴런 1(211)은 실제 도로망에서와 같이 뉴런 3(213)에 직접 연결되어 있지 않지만, 뉴런 3(213)에 대한 정보는 마치 도로 구간 3의 통행이 도로 구간 2를 통해 도로 구간 1로 들어가듯이, 중간 계층의 뉴런 2(222)를 통해 뉴런 1(231)에 전파된다.
연결을 설정한 후에는 학습을 통해 강도(즉, 가중치)를 얻는다. 각 입력 뉴런은 해당 도로 구간으로부터의 과거 통행속도를 수신하고, 출력 뉴런은 장래 통행속도의 추정치를 생성한다. 학습 손실함수(loss function)로는 다음 수학식 3과 같은 MAPE(mean absolute percentage error)를 적용하였다.
Figure pat00008
여기서 N은 도로 구간 수,
Figure pat00009
는 출력층에서의 뉴런
Figure pat00010
의 출력,
Figure pat00011
는 도로 구간
Figure pat00012
에서의 실제 통행속도의 미래 관측치이다.
B. 기본 예측 모델의 구현
본 발명의 실시예 1의 구현은 피드-포워드 신경망(feed-forward network)을 기반으로 한다. 순차적 또는 시계열 데이터에 부합하는 것으로 알려진 순환신경망(RNN: recurrent neural network)이 아닌, 피드-포워드 신경망을 사용하는 데에는 몇 가지 이유가 있다. 첫째, '소실/폭증 경사 문제(vanishing/exploding gradient problem)'가 상대적으로 없으므로 트레이닝이 더 쉽다. 둘째, RNN과 비교하여 컨볼루셔널 신경망(CNN: Convolutional Neural Network)을 포함한 피드-포워드 신경망을 위한 많은 새로운 모델, 정규화 기술 및 활성함수가 개발되어 있다.
도 3은 본 발명인 심층 신경망 모델의 구현 예를 보여주며 다른 위치에서 관찰된 통행속도 간의 공간 상관관계를 다루는 방법을 설명한다. 과도한 도면을 피하기 위해 도 2의 뉴런 1, 2 및 3만 표시하고 특징맵(feature map, 400)의 깊이 채널(depth channel)을 표시하지 않았다. 입력층(310)의 각 뉴런에는 해당 도로 구간에서 관찰되는 일련의 통행속도가 입력된다. 예를 들어, 뉴런 1에 대한 입력은 n×1 벡터로 주어진다(이 벡터의 원소들은 도로 구간 1의 n개의 과거 통행속도이다). 은닉층(320)의 뉴런 입력은 인접 노드의 관측치 또는 특징맵(400)을 연결하여 형성한다. 예를 들어, 은닉층의 뉴런 2에 대한 입력은 단순화된 설정에서 자신을 포함하여 3개의 이웃을 가지기 때문에 n×3 매트릭스로 제공된다.
신경 연결의 강도(즉, 가중치)는 활성함수(activation function) 이전의 다중변이 시간 컨볼루션 필터(multi-variate temporal convolution filter)로써 실현된다. 필터는 공간 축을 따라 국부적인 것으로, 즉, 노드(뉴런)와 노드(뉴런) 간에 다른 것으로 정의된다. 컨볼루션 필터의 크기는
Figure pat00013
로 표시되는데, 여기서 m은 동시에 고려해야 할 시간 포인트의 수이고,
Figure pat00014
는 노드
Figure pat00015
의 인접한 이웃의 수이다. 연속적인 관측 사이의 시간 종속성이 고정되거나 국부적으로 반복될 수 있기 때문에 전체 크기의
Figure pat00016
필터 (
Figure pat00017
)보다는
Figure pat00018
컨볼루션 필터를 사용하는 것이 타당하다. 시간 축을 따라 필터를 공유함으로써, 학습 파라미터의 수를 감소시킬 수 있다. 그러나 전체 크기의 필터는 공간 축을 따라 사용된다. 즉, 임의의 그래프에서 공간적으로 노드를 정렬하기 위한 명확한 근거가 없으므로 필터의 폭은 이웃 노드의 수와 동일함을 주목해야 한다.
도 3의 실선 화살표(301)는 본 발명인 심층 신경망 모델의 계층 간 정보 흐름을 나타내며, 도 2의 뉴런 연결에 해당한다. 점선 타원 모양으로 처리된 부분은 입력 통행속도나 특징맵을 나타낸다(400). 시간-차원 감소를 방지하기 위해 제로 페딩(zero padding) 및 스트라이드 1(stride 1)을 적용한다. 사선 처리된 사각형(340)은 시간 축에 대한 컨볼루셔널 필터(convolutional filter) 또는 컨볼루션 프로세스(convolution process)를 나타낸다. 'Act.(302)'는 활성함수를, 'Conv. (303)'는 컨볼루션 함수를 의미한다. 확대된 특징맵(400)은 은닉층(320)에 대한 입력의 크기 및 공간 시간 정보를 이용하기 위해 하위 계층에서 입력을 쌓는 방법을 보여준다.
Ⅱ. 기본 모델의 확장
A. 실시예 2 - 비선형 상태전이 및 네트워크 내 네트워크
인접 도로 구간 간의 상호작용은 복잡하며, 따라서 선형함수는 이들의 관계를 특징짓기에 충분하지 않을 수 있다. 예를 들어, 시간 단계 (t+1)에서 도로 구간 1상의 통행상태
Figure pat00019
는 시간 단계 t에서 이웃 도로 구간 1, 2 및 4의 상태
Figure pat00020
의 함수로 상기 수학식 1과 같이 나타낼 수 있다. 그리고 상태전이함수
Figure pat00021
는 관계를 적절하게 모델링 하기 위해 비선형이어야 할 수도 있다.
그러나, 도 4의 (a)에서 보듯이, 일반적인 신경 회로망은 기본적으로 선형 연산자인 은닉층 사이의 단층 퍼셉트론(a single layer perceptron)을 사용한다. 이는 본 발명의 기본 예측 모델(실시예 1)이 상태전이를 선형으로 정형화함을 의미하며, 이는 본 발명에서 비선형 통행상태전이(nonlinear traffic state transition)를 구체화하기 위해 계층 간의 비선형성을 고려하는 동기가 된다.
네트워크 내 네트워크(NiN: Network-in-Network)를 택함으로써 본 발명에 따른 기본 예측 모델에서 비선형 상태전이가 실현될 수 있다. 이름에서 알 수 있듯이, NiN의 주요 아이디어는 은닉층 사이에 작은 다층 퍼셉트론을 비선형 연산자로서 포함시키는 것이다. 도 4의 (b)는 실시예 2에 적용된 NiN 모델을 보여준다. 임베디드 다층 퍼셉트론은 하위 계층(210)의 인접 노드로부터 신호를 수집하고 마치 이전 계층을 새로운 계층으로 업데이트 하는 것처럼 상위 계층(230)으로 출력한다. 다층 퍼셉트론은 일반 비선형함수 중 하나이기 때문에 비선형 상태 업데이트를 수행하는 것으로 간주할 수 있다. 컨볼루션의 관점에서 본 발명의 기본 예측 모델(실시예 1)은 단층 퍼셉트론을 선형 필터(240)로 사용하는 반면, NiN을 사용하는 확장 모델인 실시예 2는 다층 퍼셉트론을 비선형 필터(250)로 사용한다.
도 4의 (a)의 사선 처리된 사각형(240)은 수학식 1과 같은 선형 필터 또는 상태전이함수를 나타내며, 단층 퍼셉트론이 선형 연산자로 포함된다. 도 4의 (b)에 사선 처리된 사각형(250)은 수학식 1과 같은 비선형 필터 또는 상태전이함수를 나타내며, 다층 퍼셉트론이 비선형 연산자로 포함된다.
비선형 필터는 기본 필터링 기능을 사용하여 구현할 수 있다. 즉, 일반
Figure pat00022
필터 다음에 일련의 활성함수와
Figure pat00023
필터가 온다. 예를 들어, 도 5는 'elu' 활성함수 및 3개의 은닉층이 있는 NiN 블록을 도시한 것이다(전체 블록은 비선형
Figure pat00024
필터를 이루고 있고, 화살표 아래의 숫자는 NiN 은닉층 또는 출력층의 뉴런 수를 나타냄). 전체 NiN 블록은 비선형
Figure pat00025
필터로 볼 수 있는데, 여기서 m(여기서 3으로 설정됨)은 동시에 고려해야 할 시간 포인트 수이며
Figure pat00026
는 노드
Figure pat00027
의 이웃 수이다. 본 실시예 2에서는, elu 활성함수를 예로 들어 설명하였을 뿐, 기타 다른 활성함수나 활성화 방법이 배제되는 것은 아니다. 즉, 'relu' 활성화와 배치 정규화(batch normalization) 등 어떠한 방법이라도 본 발명에 적용 가능하다.
도 5의 첫 번째 블록(510)은 도 4의 하위 계층에서 직접 수행되는 로컬 연산에 대응하고, 첫 번째 및 두 번째 블록(510, 520) 이후의 16(511) 및 8(521)은 NiN 은닉층의 뉴런 수 또는
Figure pat00028
필터 수를 나타낸다. 세 번째 블록(530) 이후의 숫자 4(531)는 출력 뉴런의 수 또는 도 4의 상위 계층의 특징맵의 깊이에 해당한다. 간략화를 위해 도 4에서 깊이 채널을 나타내지 않았다. 또한, NiN 블록의 출력에 드롭아웃(dropout)을 적용했다. 도 3에서 컨볼루션 필터를 NiN 블록으로 대체하여 도 3의 구현형태를 업그레이드할 수 있다.
B. 실시예 3 - 통행상태 업데이트(traffic state update) 및 잔여학습(residual learning)
도로 구간의 통행상태는 짧은 시간 간격 동안에 크게 변하지 않으며 현재 상태와 다음 상태 간의 차이는 작다. 이러한 추측을 기반으로, 본 발명의 실시예 3에서는 시간적 또는 공간적으로 가장 가까운 이웃들에 의해 야기되는 요란(perturbation)에 의해 점진적으로 상태가 업데이트 될 수 있도록 상태전이를 재구성한다. 예를 들어, 시간 단계 (t+1)에서의 노드 1에서의 상태
Figure pat00029
은 시간 단계 t에서의 상태
Figure pat00030
와 시간 단계 t에서의 노드 1, 2, 4에서의 상태
Figure pat00031
의 함수로 다음 수학식 4와 같이 나타낼 수 있다.
Figure pat00032
여기서
Figure pat00033
은 이웃 노드로부터의 상태 증분(increment) 또는 영향을 나타낸다.
본 실시예 3의 접근법은 잔여학습(residual learning)이라고도 하는데, 잔여블록(residual block)을 사용하여 구현할 수 있다. 잔여학습은 하위 계층의 출력이 그대로 유지되고 상위 계층까지 전달될 수 있도록 계층 간 또는 계층의 블록 간에 직접 연결을 만든다. 산술 가산에 의해 구현되기 때문에 연결에 추가 학습 파라미터가 필요하지 않다.
도 6은 모두 잔여학습을 적용한 구현 예를 그래프로 나타낸 것이다. 예를 들어, 하위 계층 t의 노드 1에서의 신호
Figure pat00034
는 화살표로 표시된 바로 가기(또는 건너뛰기) 연결(280)을 통해 상위 계층 (t+1)로 전달된다. 이웃 노드의 신호
Figure pat00035
는 사선 처리된 사격형 내의 로컬 신경 연결들의 세트를 통해 처리되며 상위 계층에서
Figure pat00036
로 출력된다. 따라서, 상위 계층 (t+1)에서의 신호
Figure pat00037
는 수학식 5와 같이 쓸 수 있다. 영향함수(impact function)는 선형 또는 비선형일 수 있으며, 비선형함수는 이전에 설명한 대로 NiN 블록을 사용하여 구현할 수 있다.
보다 구체적으로, 도 6의 (a)는 선형 영향함수(260)로써 표현된 심층 신경망을, (b)는 비선형 영향함수(270)로써 표현된 심층 신경망을 나타낸다. 하위 계층의 신호
Figure pat00038
는 화살표로 표시된 지름길 연결(280)을 통해 전달된다. 이웃들로부터의 노드 1에 대한 영향함수
Figure pat00039
는 사선 처리된 사각형 내의 로컬 신경 연결들의 세트에 의해 계산된다(260, 270). 하위 계층에서 상위 계층으로의 신호 흐름은 영향함수로써 상태가 업데이트되어 수학식 4와 같이 될 수 있다.
본 실시예 3의 접근법은 주어진 상태를 이웃들(그래프 상의 거리 또는 시간 단계로 첨자 표시됨)로부터의 영향의 합으로 아래 수학식 5에 나타낸 것과 같이 분해한다.
Figure pat00040
Figure pat00041
Figure pat00042
를 기본 상태로 볼 때 k거리 이웃의 영향 또는 t 이후의 k 시간 간격에 도착하는 영향을 나타낸다. 은닉층 (t+k)에 의해
Figure pat00043
가 계산되기 때문에 더 높은 계층으로 올라가면 더 먼 영역의 영향이 더 중첩되는 것을 볼 수 있다. 예를 들어(도 7), t 이후의 두 시간 단계에서 노드 1의 상태는 수학식 6과 같이 나타낼 수 있다.
Figure pat00044
여기서
Figure pat00045
는 노드 1의 기본 상태를 나타내고
Figure pat00046
Figure pat00047
는 인접 노드로부터의 영향을 나타낸다. 특히, 중간 계층은 1차 이웃(한 번의 시간 단계 점프로 도달할 수 있는 이웃)으로부터 노드 1에 도착하는 영향함수
Figure pat00048
를 계산하고, 이를 기본 상태에 추가한다(즉,
Figure pat00049
). 그런 다음 상위 계층을
Figure pat00050
로 업데이트하여 수학식 6을 얻는다.
Figure pat00051
의 각 인수는 2차 이웃(아래 첨자 표시 노드를 통해 두 번의 시간 단계 점프로 도달할 수 있는 이웃)에 관한 정보를 포함한다는 점에 유의해야 한다. 예를 들어, 노드 3은 노드 1의 2차 이웃이며 이는 노드 2를 통해 연결된다. 그리고 인수
Figure pat00052
은 노드 3에 대한 정보를 가지며, 수학식 7처럼 표현될 수 있다.
Figure pat00053
도 7을 통해 이상에서 설명한 노드 간 영향에 대해서 정리한다. (t+1)에서 노드 1의 상태는 수학식 4로 작성된다(수학식 4에서
Figure pat00054
은 중간 계층에 의해 계산된 1차 이웃들로부터의 영향을 나타냄). (t+2)에서의 노드 상태는 다음 수학식 8과 같이 재귀적으로 쓰여진다.
Figure pat00055
여기서
Figure pat00056
는 2차 이웃으로부터의 영향을 나타내며 상부 계층에 의해 계산된다.
Figure pat00057
의 인수들은 모든 2차 이웃에 관한 정보를 포함한다. 예를 들어, 노드 3은 노드 1의 2차 이웃이며 노드 1에 대한 영향은
Figure pat00058
에 내포되어 있다.
모든 이웃 노드가 관심 노드의 상태에 동등하게 기여하는 것은 아니며 그들의 정보가 똑같이 유용한 것은 아니기 때문에 본 실시예 3의 상태 분해(state decomposition)는 통행속도 추정에 도움이 될 수 있다. 각 도로 구간마다 1차 이웃(그 자체 포함)의 관측치는 향후 관측치를 추정하는 데 가장 유용하고 중요한 정보를 포함한다. 그러나 2차 또는 그 이상의 이웃의 정보는 덜 중요하지만 그래도 유용할 수 있다. 그러므로 모든 계층의 정보를 혼합하여
Figure pat00059
과 같은 본 발명의 기본 모델처럼 완전히 새로운 상태로 전환하는 것보다는, 이웃에 대한 영향을 그 이웃의 차수에 따라 따로 계산하고 수학식 5와 같은 추가 정보를 사용하여 초기 정보를 점진적으로 수정해 나가는 것이 좋다.
도 8은 이상 설명한 실시예 3의 구현 예를 도시하는데, 각 블록은 elu 활성화를 포함한 NiN 잔여블록(510, 520, 530)을 나타낸다. 화살표 아래의 숫자(511, 521, 531)는 NiN 은닉층 또는 출력층의 뉴런 수를 나타낸다.
도 5는 NiN 블록을 증분함수(increment function)로 사용하였다. NiN 및 잔여학습 기술은 서로 '직교(orthogonal)'하므로 다른 옵션도 가능하다. 블록의 첫 번째 필터(510)에 대한 입력(501)이 전달(280)되어 마지막 필터(530)의 출력에 추가(502)된다. 컨볼루션 필터를 NiN 잔여블록으로 대체하여 도 3의 기본 구현을 업그레이드할 수 있다.
C. 실시예 4 - 차이 학습(difference learning) 및 전역지름길 연결(global shortcut connection)
앞에서 논의했듯이, 통행상태는 짧은 시간 간격 동안에 극적으로 변하지 않으며, 이는 예측 시간 범위가 너무 길지 않은 경우 현재 및 향후 통행속도 관찰 사이에서 유효하다. 따라서, 평이한 상태전이 형태, 즉
Figure pat00060
(여기서
Figure pat00061
는 예측 모델, y는 미래의 관측치, x는 현재(또는 과거의) 관측치)로 예측 모델을 모델링하는 대신,
Figure pat00062
(여기서
Figure pat00063
는 전체 네트워크로부터의 상태 증분 또는 영향을 나타냄)로 모델링 할 수 있다. 이 접근방식은 가장 최근의 통행속도의 관측은 이미 미래 관측에 대해 잘 학습된 추정이라고 가정하는 것과 같으며, 따라서 미래 통행속도 자체를 처음부터 예측하는 것보다 가장 최근의 관측과 미래의 관측 사이의 차이(difference)나 변화(variation)를 추정하는 것이 더 낫다.
도 9는 전역지름길(global shortcut)을 갖춘 제안된 심층 신경망 아키텍처를 나타낸다. 입력층(310)에서의 가장 최근의 관측지가 구부러진 화살표로 표시된 전역지름길(350)을 통해 출력층(330)으로 직접 전달된다. 전체 구조는
Figure pat00064
로 표기할 수 있으며, 여기서
Figure pat00065
는 증분함수(increment function), y는 미래 관측 추정치, x는 현재(또는 과거) 관측치로 표기된다.
도 10은 가장 완벽한 도면을 보여주기 위해 도 8의 NiN 잔여블록을 구성 요소로 사용한 구현 예를 보여준다. 하지만, 다른 옵션도 가능하다. 도 10에서 첫 번째 블록(610)은 NiN 블록으로, 통행속도의 원시 관측치로부터 기본 추정치가 계산되므로 건너뛰기 연결이 없다. 그러나 후속 블록인 NiN 잔여블록(620)은 이전에 설명한 대로 초기 추정치를 전달하고 단계별로 수정할 수 있도록 건너뛰기 연결을 갖고 있다. 전역지름길 연결(350)에는 추가적인 학습 파라미터가 필요하지 않으며 이는 가장 최근의 관찰 결과로서 학습 손실함수(수학식 9)에 통합된다.
Figure pat00066
수학식 9의 손실함수에서 N은 도로 구간 수,
Figure pat00067
는 출력층에서의 뉴런
Figure pat00068
의 출력,
Figure pat00069
는 도로 구간
Figure pat00070
에서의 마지막(가장 최근) 통행속도 관측치,
Figure pat00071
는 도로 구간
Figure pat00072
에서의 통행속도의 실제 미래 관측치이다.
Figure pat00073
는 가장 최근 관측치와 미래의 관측치 사이의 차이를 보완하기 위한 보정항이므로, 도로 구간
Figure pat00074
에 대한 미래의 관측 추정치는
Figure pat00075
로 주어진다.
정리하자면, 도 10은 전역지름길 연결(350)과 NiN 잔여블록(620)을 이용한 예측 모델을 나타내는데, 첫 번째 블록(610)은 기본 추정치를 계산하므로 건너뛰기 연결이 없다. 이 예측 모델은
Figure pat00076
가 입력으로 제공되기 때문에 가장 최근의 관측치와 미래의 관측치 사이의 차이
Figure pat00077
를 학습한다.
Ⅲ. 데이터 수집
통행량, 통행속도 및 밀도 등의 교통 파라미터를 측정하기 위해 지능형 교통 시스템(ITS: Intelligent Transport System) 분야에서 다양한 교통 감시 시스템이 등장했다. 기존의 공간 기반 감시 시스템은 고정된 현장 탐지기를 사용하여 이러한 파라미터를 측정한다. 그러나 이러한 감시 시스템에 의해 측정된 '스팟 속도(spot speed)'는 통행상태에 대한 실제 서비스 수준을 평가하는 데 사용되는 공간 평균 속도를 나타내지 못했다. 이후, 공간 평균 속도를 보다 성공적으로 측정할 수 있는 시간 기반 교통 감시 시스템이 주목을 받았다. 후자는 주기적으로 정보를 길가에 있는 장치 또는 데이터 센터에 보고하는 탐지 차량을 이용한다. 또한, 이와 같은 탐지 차량이 충분히 많아졌기 때문에, 탐지 차량에서 수집된 데이터는 기존의 공간 기반 접근법보다 넓은 지역을 커버하고 있다.
서울시는 택시를 교통 감시를 위한 탐사에 활용하고 있다. 이들 택시에는 위치, 속도 및 교통 관리 센터(TMC: Transportation Manegement Center) 이용 여부 등의 상태 정보를 정기적으로 보고하는 GPS 기반 온보드 장치(IDTG: Integrated digital tachograph)가 장착되어 있다. 최근 블루투스 및 Wi-Fi를 기반으로 하는 보다 견고한 데이터 수집 방법론이 개발되었으며 서울시는 이러한 고급 기능의 사용을 고려하고 있으나, 택시 탐지 데이터는 현재에 한해서만 사용할 수 있다.
현재 수도권에는 약 7만 대의 탐지 택시가 운행하고 있다. 이들이 3교대로 운행하기 때문에, 평균적으로 20,000개 이상의 탐지기가 가동되고 있는 것이다. 통행속도 데이터는 해당 지역의 주요 간선 도로를 포함하는 4,663개의 링크를 커버한다. 수도권을 탐지하면서 얻은 속도 데이터는 각 도로 구간별로 5분마다 집계한다. 5분 동안 탐지기가 링크를 통과하지 않으면 속도는 이전 시간주기의 속도 또는 과거의 동일한 시간주기를 기준으로 추정된다. 원시 데이터는 전처리한 후에 다시 예측의 유용성을 극대화하기 위해 15분 간격으로 재집계한다. 15분의 기간은 고속도로 수용량 매뉴얼(HCM: highway capacity manual)에 따른 기준이 된다. 속도 데이터의 평균 계산을 위해 필요한 탐지 회수에 관해서는 정보가 없기 때문에, 본 발명에서는 5분 동안 3개의 속도를 취득하고 가중치 없이 평균을 낸다.
속도 데이터를 이용할 수 있는 4663개 링크 중 강남권의 170개 링크를 선정했다. 수도권에서 가장 붐비는 지역이고 대부분의 택시기사들이 승객을 찾기 위해 이 지역으로 들어가는 만큼 이 지역에서 수집된 속도 데이터는 관측 누락에서 벗어나야 한다는 취지이다. 따라서 본 발명에서는 10개월 동안 강남지역 170개 링크에 대한 15분 동안 집계된 속도 데이터를 활용했다. 종래에는 시간 기반 감시 시스템으로 수집된 이렇게 많은 양의 속도 데이터를 통행속도 예측 분야에서 사용한 적이 없다. 머신러닝의 일반적인 관점에서, 본 발명의 모델을 학습하기 위해 10개월 중 8개월분의 데이터를 사용했고, 학습된 모델을 테스트하기 위해 나머지 2개월분의 데이터를 사용했다.
본 발명에서는 택시를 이용하여 데이터를 수집하였으나, 이외에도 데이터 획득은 일반 승용차에 탐지 장치를 부착하거나 도로망의 CCTV를 분석하는 등 다양한 방법으로 이루어질 수 있음은 물론이다.
VI. 결과 및 비교
딥러닝 모델에는 은닉층의 수, 은닉층의 필터 수와 크기, 어떤 활성함수가 사용될지, 각 계층에 어떤 풀링(pooling) 유형을 채택할지, 제로패딩(zero padding)의 사용여부 등 모델 구조를 결정하는 다양한 하이퍼 파라미터(hyper-parameters)가 있다. 불행히도, 현실적인 계산 시간 내에 최적의 하이퍼 파라미터 셋을 선택할 수 있는 강력한 방법은 없다. 본 발명에서는 하이퍼 파라미터를 시행착오 방식으로 결정하였다. 즉, 트레이닝 데이터의 10%를 검증에 사용하였고, 학습 속도(learning rate) 0.001 및 텐서플로우(Tensorflow)의 기본 파라미터 설정으로 아담 최적기(Adam Optimizer)를 사용하였으며, 손실함수로는 평균 절대 백분율 오차(MAPE)를 사용하였고, 풀링은 사용하지 않았으며, '미니배치(minibatch)' 크기는 50으로 설정하였고, 특징맵의 크기는 모델 설명에서 언급한 대로 설정하였다. 잔여블록의 수는 5개, 10개, 15개 또는 20개까지 다양하게 사용했다.
구현을 위한 최종 모델 아키텍처는 도 11에 나타나 있다. 8개의 과거 관측치가 원스텝 예측을 위해 사용되었다. 입력(710)에 나타낸 사선 처리된 사각형(730)은 가장 최근의 관측치를 나타내는 것으로 이는 전역지름길을(350) 통해 출력(720)으로 직접 전달된다. 특징맵의 크기 감소를 방지하기 위하여 제로패딩과 스트라이드 1(stride 1)을 적용하였다. 도 11은 도면의 간략화를 위하여, 은닉 특징맵의 깊이 채널은 표시하지 않았다.
도 11에서 입력층과 출력층의 구조는 시공간 의존성이 얼마나 수용되는지에 따라 정해진다. 과거 통행속도 관측치는 특징 가공을 전혀 거치지 않은 입력으로서 심층 신경망 예측 모델에 직접 입력된다. 각 블록에서, 도로 링크 연결성에 따라 정의되는 인접 뉴런은 그룹화 연산에 의해 상호 연결된다. 그룹화 연산은 단순히 이전 계층의 특징맵을 연결한 것이며 '엔드-투-엔드 프로세스(end-to-end process)'를 중단하지 않기 때문에, 따라서 텐서플로와 같은 딥러닝 도구에 의해 효율적으로 구현되고 학습될 수 있다.
예측 시간 범위는 1(15분)이며, 본 발명의 모델을 평가하고 다른 방법론과 비교하기 위해 몇 가지 성능 척도를 사용했다. 본 발명의 모델을 학습하기 전에, 준비된 테스트 데이터에서 평균 절대 오차(MAE: mean absolute error), 평균 절대 백분율 오차(MAPE: mean absolute percentage error), 루트 평균 제곱 오차(RMSE: root mean square error)를 계산했다. 이러한 성능 척도들은 추정 속도가 관측 속도에서 벗어나는 정도를 나타낸다.
최초 실험은 심층 신경망이 잔여(지름길) 연결 없이는 효율적으로 학습될 수 없다는 것을 보여주었고, 이는 딥러닝에 관한 이전 연구와 일치한다. 따라서 이후의 모든 실험에서는 본 발명에 따른 잔여학습을 기본으로 적용했다. 표 1은 모델 구조의 탐색 공간을 좁히기 위한 예비 실험을 보여준다. 이 실험에서 선형전이에 10개의 계층을 사용하였고, 비선형전이에 대해 10개의 블록을 사용했다. 이 실험에 의해 비선형상태전이의 중요성과 NiN 구조의 유효성을 확인했으므로 이후의 실험에서는 NiN을 기본 값으로 사용한다. 표 1은 전역지름길 구조의 이득을 보여준다.
Figure pat00078
본 발명의 성능은 두 가지 측면, 즉 시공간 의존성과 관련하여 평가하였다. 시공간 상관관계를 수용하는 것은 통행속도 예측의 정확성을 향상시킬 것으로 기대했는데, 테스트 결과는 이러한 예상에 부합되었다. 표 1에서 볼 수 있듯이 모든 성과 지표에서 가장 광범위한 시공간 의존성을 가진 모델의 성능이 가장 높았다. 개별 도로 구간에 대한 속도 예측은 모든 도로 구간에 대한 속도 예측보다 떨어졌다. 개별 도로 구간에 대한 실험에서 우리는 이웃 노드 사이에 신경 연결이 없는, 즉, 공간 의존성이 예측 모델에 포함되지 않은 170개의 독립적인 신경망을 만들었다. 시간 의존성의 경우, 8개의 이전 시간 간격으로부터의 속도 예측은 4개의 이전 시간 간격으로부터의 속도 예측보다 다소 높았다. 이는 시간 의존성을 설명하는 데 1시간의 통행속도 기록만으로 충분했다는 의미이다.
실험 중 주목할 만한 관찰은 '1개의 시간 간격'이었다. 이 실험에서는 예측을 위해 각 도로 구간의 한 관측치만을 입력으로 사용했다. 따라서 성공적인 예측은 공간 의존성과 모델링의 효율성에 크게 의존해야 한다. 학습 기준으로 사용된 MAPE의 측면에서, 성능은 4개 또는 8개의 시간 간격을 갖는 개별 도로 구간의 경우보다 우수했다. 통행속도를 예측할 때 도로 구간 간의 공간적 관계의 상대적 중요성을 확인했다. 특히 공간 의존성의 유무에 관계없이 예측 정확도가 표 4와 같이 종래의 모든 기술을 능가한 것을 볼 수 있다. 이는 본 발명의 공간 모델링의 효과가 종래기술에 비해 더욱 향상되었음을 의미한다.
Figure pat00079
Figure pat00080
본 발명에서는 전역지름길이 있거나 없는 NiN 블록의 수를 증가시킴으로써 본 발명에서 제안된 모델의 예측 성능을 더 조사했다. 결과는 블록 수가 가장 많은 전역지름길을 채택한 모델이 MAPE와 관련하여 가장 좋은 정확도를 갖는 것을 볼 수 있다. 흥미롭게도, 전역지름길의 이득은 NiN 블록의 수가 증가함에 따라 더욱 분명해졌다. 모든 경우에서 블록들 사이의 잔여연결이 사용되었으므로, 전역지름길이 심층 신경망 학습에 추가적인 긍정적인 영향을 미친다는 것을 보여주었다.
표 3의 최상의 성능을 4가지 널리 사용되는 방법론, 즉, LSTM 모델, KNN 모델, SVM 모델 및 ARIMA 모델의 성능과 비교하였다. 4개의 널리 사용되는 모델과의 비교는 표 4에 제시되어 있다. 본 발명의 제안된 모델에 대한 결과는 모든 성능 척도에서 다른 모든 참조 모델에 대한 결과보다 우수했다.
Figure pat00081
LSTM, KNN 및 SVM의 3가지 모델에서는, 모든 도로 구간에 대한 종합 예측 모델 한 개와 개별 도로 구간에 대한 170개의 독립 모델을 구축하여 공간 모델링의 효율성을 평가했다. 그러나 도로 구간의 수가 증가함에 따라 모델 추정이 계산적으로 까다로워지기 때문에 모든 도로 구간의 입력이 있는 ARIMA 모델에 대해서는 이를 수행할 수 없었다. 만일 이 모델을 현재의 테스트 베드에 적용한다면 계산시간이 폭증하게 될 것이다. 공간 상관관계를 고려할 때 LSTM 모델을 제외하고 다른 참조 모델에서는 예측 정확도가 향상되지 않았다. 모델을 학습하는 데 사용된 데이터의 크기가 아무리 큰 경우에도 본질적으로 비선형인 링크 속도 전반에 걸친 복잡한 상호 관계를 인식할 수 없었다.
채택한 LSTM 모델의 경우 '은닉 단위(hidden unit)'의 수를 5,200으로 설정하였다. 이 숫자는 임의적으로 선택한 것이 아니라 철저한 실험을 통해 발견하였고 최상의 성능을 가진 것으로 선택된 것이다. KNN 모델의 경우 K의 최적 값(=40)은 기존에 제안된 방법론(Cai, P., Wang, Y., Lu, G., Chen, P., Ding, C., & Sun, J. 2016. A spatiotemporal correlative k-nearest neighbor model for short-term traffic multistep forecasting. Transportation Research Part C: Emerging Technologies, 62, 21-34)을 기반으로 설정하였고, '근접 이웃 포인트들(local neighborhood points)'이 '질의 포인트들(query points)'에 균일하게 영향을 미칠 수 있도록 균일한 가중치를 적용하였다. SVM과 관련하여서는, 'Radial Basis Function(RBF) 커널'을 사용하였다. ARIMA 모델의 파라미터 (p, d, q)는 'Akaike information criterion(AIC)' 값을 기반으로 각 도로 구간에 대해 선택하였다.
도 12는 3개 링크(900)에 대한 예측 속도와 관측 속도의 XY-플롯을 보여주는데, 개선 정도를 명확히 나타내기 위해 좌측에서 데이터의 분산 범위를 실선으로 표시하였다. 선택한 3개의 링크는 도 12의 오른쪽 지도(900)에서 원형으로 표시하였다. 여기서 본 발명의 제안된 모델(810)이 2위 모델(LSTM 모델, 820)보다 크게 향상되었음을 볼 수 있다. 선택된 링크들은 테스트 베드의 북쪽과 남쪽 끝부분에 있다(200016, 100112 및 200364). 본 발명의 제안된 모델이 테스트 베드 영역으로 진입/진출하는 끝부분 링크의 속도를 잘 예측한다는 것을 알 수 있다. 이는 한 지역 내의 현재 및 과거 교통 상황이 진입/진출 도로의 미래 교통 상황에 명백하게 영향을 미친다는 것을 의미한다. '인접 효과(neighboring effect)'의 영향을 무시하면 이러한 좋은 성능을 얻을 수 없을 것이다.
지금까지 본 발명의 바람직한 실시예를 상세히 설명하였으나, 예시된 실시예를 구성하는 모든 구성요소들이 하나로 결합되어 있는 것으로 기재되어 있거나 또는 함께 결합하여 동작하는 것으로 기재되어 있다고 해서 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 모든 구성요소들 중 하나 이상이 선택적으로 결합하여 동작할 수도 있다. 또한, 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있고, 또는, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 기능 혹은 모든 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로써 구현될 수도 있다. 이와 같은 컴퓨터 프로그램은 USB 메모리, 컴팩트디스크(CD), 플래시 메모리 등 컴퓨터가 읽을 수 있는 기록매체(computer readable media)나 FPGA 등에 저장되어 컴퓨터에 의해 읽혀 지고 실행됨으로써 본 발명의 상술한 실시예(들)를 구현할 수 있다. 따라서, 본 발명은 이하의 특허청구범위의 기재에 의하여 정의되는 구성 및 그 균등 범위에까지 미친다.

Claims (1)

  1. 심층 신경망에 도로망에 대한 정보를 구조화하여 계층 또는 뉴런 간의 연결을 형성하고, 통행속도 데이터셋을 상기 심층 신경망의 입력층에 입력하는 단계;
    상기 심층 신경망을 이용하여 입력된 데이터셋을 학습하여 상기 도로망에 대한 미래의 통행속도 추정치를 구하고, 손실함수를 이용하여 상기 통행속도 추정치와 실제 관측치를 비교하여 오차를 측정하는 단계;
    상기 오차에 따라 상기 심층 신경망의 학습 파라미터를 수정하며, 도로망의 통행속도의 예측 정확도를 향상시키는 단계를 포함하는,
    심층 신경망을 이용한 도로망 통행속도 예측 방법.



KR1020190060679A 2018-12-27 2019-05-23 심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치 KR20200084750A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180170887 2018-12-27
KR1020180170887 2018-12-27

Publications (1)

Publication Number Publication Date
KR20200084750A true KR20200084750A (ko) 2020-07-13

Family

ID=71570569

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190060679A KR20200084750A (ko) 2018-12-27 2019-05-23 심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20200084750A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201036A (zh) * 2020-09-25 2021-01-08 同济大学 一种基于Inception-CNN的城市快速路行程速度短时预测方法
CN113838289A (zh) * 2021-11-30 2021-12-24 上海闪马智能科技有限公司 一种状态确定方法、装置、存储介质及电子装置
CN114023074A (zh) * 2022-01-10 2022-02-08 佛山市达衍数据科技有限公司 基于多信号源的交通拥堵预测方法、设备及介质
CN114495519A (zh) * 2022-02-09 2022-05-13 郑州汉威光电股份有限公司 一种高速公路智慧可视化展示系统
KR102517212B1 (ko) 2022-02-22 2023-03-31 재단법인차세대융합기술연구원 셀 단위로 통행 속도를 추정하는 관제 서버
CN116994427A (zh) * 2023-07-04 2023-11-03 重庆邮电大学 一种基于大数据的道路路况预测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201036A (zh) * 2020-09-25 2021-01-08 同济大学 一种基于Inception-CNN的城市快速路行程速度短时预测方法
CN112201036B (zh) * 2020-09-25 2022-06-24 同济大学 一种基于Inception-CNN的城市快速路行程速度短时预测方法
CN113838289A (zh) * 2021-11-30 2021-12-24 上海闪马智能科技有限公司 一种状态确定方法、装置、存储介质及电子装置
CN114023074A (zh) * 2022-01-10 2022-02-08 佛山市达衍数据科技有限公司 基于多信号源的交通拥堵预测方法、设备及介质
CN114495519A (zh) * 2022-02-09 2022-05-13 郑州汉威光电股份有限公司 一种高速公路智慧可视化展示系统
CN114495519B (zh) * 2022-02-09 2023-10-13 郑州汉威光电股份有限公司 一种高速公路智慧可视化展示系统
KR102517212B1 (ko) 2022-02-22 2023-03-31 재단법인차세대융합기술연구원 셀 단위로 통행 속도를 추정하는 관제 서버
CN116994427A (zh) * 2023-07-04 2023-11-03 重庆邮电大学 一种基于大数据的道路路况预测方法

Similar Documents

Publication Publication Date Title
KR20200084750A (ko) 심층 신경망을 이용한 도로망 통행속도 예측 방법 및 장치
CN112470199B (zh) 用于点对点流量预测的系统和方法
Ashqar et al. Modeling bike availability in a bike-sharing system using machine learning
Li et al. Short-term traffic state prediction from latent structures: Accuracy vs. efficiency
Chu et al. Deep multi-scale convolutional LSTM network for travel demand and origin-destination predictions
Elhenawy et al. Dynamic travel time prediction using data clustering and genetic programming
WO2019228848A1 (en) Traffic management system
CN102087722A (zh) 学习设备和方法、预测设备和方法及程序
JP5070574B2 (ja) 局所交通量予測プログラム生成装置、局所交通量予測装置、局所交通量予測プログラム生成方法、局所交通量予測方法及びプログラム
Lin et al. Clustering-learning-based long-term predictive localization in 5G-envisioned Internet of connected vehicles
CN113379099B (zh) 一种基于机器学习与copula模型的高速公路交通流自适应预测方法
Basak et al. Analyzing the cascading effect of traffic congestion using LSTM networks
WO2021102213A1 (en) Data-driven determination of cascading effects of congestion in a network
Aqib et al. A deep learning model to predict vehicles occupancy on freeways for traffic management
Liu et al. Bustime: Which is the right prediction model for my bus arrival time?
Fowe et al. A microstate spatial-inference model for network-traffic estimation
JPWO2018101074A1 (ja) 交通状況推定装置、交通状況推定方法、プログラムおよび出力装置
KR102545188B1 (ko) 통행 시간 예측 모델을 이용한 통행 시간 예측 방법 및 통행 시간 예측 장치
US11537767B2 (en) Automated control through a traffic model
WO2022070201A1 (en) Method and system for dynamic traffic control for one or more junctions
Provoost et al. Short term prediction of parking area states using real time data and machine learning techniques
Adewale et al. Neural networks model for travel time prediction based on odtravel time matrix
Ganapathy Multi-criteria decision-making for sustainable transport: A case study on traffic flow prediction using spatial–temporal traffic sequence
Rahman Applications of deep learning models for traffic prediction problems
Lakshna et al. Smart Traffic: Traffic Congestion Reduction by Shortest Route* Search Algorithm