KR20150069861A

KR20150069861A - 트래픽 데이터 통합 시스템 및 방법

Info

Publication number: KR20150069861A
Application number: KR1020130156514A
Authority: KR
Inventors: 홍봉희; 권준호; 토마 리안 파즈리; 전승우; 손종권
Original assignee: 부산대학교 산학협력단
Priority date: 2013-12-16
Filing date: 2013-12-16
Publication date: 2015-06-24
Also published as: KR101573685B1

Abstract

본 발명은 최적 트래픽 데이터 통합 시스템 및 방법에 관한 것으로, 본 발명의 트래픽 데이터 통합 시스템은 서로 다른 출처에서 각각의 링크의 차량의 속도를 포함하는 트래픽 데이터를 수집하는 수집부, 상기 트래픽 데이터를 상기 링크별 및 시간별로 분할하여 분할 데이터로 집계하는 집계부, 상기 분할 데이터를 이용하여 상기 출처들의 신뢰도를 평가하는 신뢰도 평가부 및 상기 신뢰도에 비례하는 가중치에 의해 상기 서로 다른 출처의 트래픽 데이터를 혼합하여 통합 트래픽 데이터를 생성하는 통합부를 포함한다.

Description

트래픽 데이터 통합 시스템 및 방법{System and Method for Combining Traffic Data}

본 발명은 트래픽 데이터 통합 시스템 및 방법에 관한 것이다.

빅 데이터(big data)란 데이터의 생성 양, 주기 및 형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집, 저장, 검색 및 분석이 어려운 방대한 데이터를 말한다. 빅 데이터는 각종 센서와 인터넷의 발달로 인해 나타났다. 컴퓨터 및 처리기술이 발달함에 따라 디지털 환경에서 생성되는 빅 데이터를 기반으로 현상을 관찰하고 예측할 수 있게 되었다.

차량의 도로 주행시 차량의 이동 속도를 수집하여 트래픽 데이터로 저장하여 교통 혼잡 및 경로 선택에 이용하는 경우에도 빅 데이터를 분석하는 방법이 사용될 수 있다. 상기 트래픽 데이터는 방대한 데이터로서 분석의 대상이지만, 분석 이전의 수집 단계에서는 다양한 방식으로 수집될 수 있다.

즉, 다양한 출처를 통해서 트래픽 데이터를 얻을 수 있고, 이러한 출처의 다양성은 데이터의 분석시에 현상의 왜곡이나 과장을 방지할 수 있는 요인 중 하나이다. 그러나, 차량의 종류, 수집 장비의 종류, 환경의 차이 및 데이터 수집 방식의 차이 등에 의해 수집된 다양한 출처의 데이터를 분석하기 위해서는 일정한 방식의 통합 단계가 반드시 필요하다. 이러한 통합 단계에서, 어떤 데이터가 어느 정도 신뢰할 수 있는지 또는 어떤 부분이 신뢰할 수 있는지를 판단하는 것이 중요할 수 있다. 따라서, 데이터의 신뢰도를 평가하고 이를 통합하는 기술이 필요하다.

대한민국공개특허 제 10-2013-0106563 호

본 발명이 해결하고자 하는 과제는 서로 다른 출처의 트래픽 데이터의 신뢰도를 판단하여 적절하게 통합하는 트래픽 데이터 통합 시스템을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 과제는, 서로 다른 출처의 트래픽 데이터의 신뢰도를 판단하여 적절하게 통합하는 트래픽 데이터 통합 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 해결하기 위한 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템은 서로 다른 출처에서 각각의 링크의 차량의 속도를 포함하는 트래픽 데이터를 수집하는 수집부, 상기 트래픽 데이터를 상기 링크별 및 시간별로 분할하여 분할 데이터로 집계하는 집계부 상기 분할 데이터를 이용하여 상기 출처들의 신뢰도를 평가하는 신뢰도 평가부 및 상기 신뢰도에 비례하는 가중치에 의해 상기 서로 다른 출처의 트래픽 데이터를 혼합하여 통합 트래픽 데이터를 생성하는 통합부를 포함한다.

상기 신뢰도 평가부는, 미리 설정된 제약 조건에 의해 참조 출처를 선정하는 선정부와, 상기 분할 데이터를 이용하여, 상기 각각의 링크에 따라 상기 출처 각각의 유사도를 산출하는 유사도 산출부와, 상기 참조 출처와의 유사도에 비례하는, 상기 참조 출처를 제외한 나머지 출처의 신뢰도를 상기 분할 데이터를 이용하여 평가하는 평가부를 포함할 수 있다.

상기 유사도는 최대 유사도에서 상기 각각의 출처에 따른 상기 속도의 차(差)의 절대값에 비례하는 편차를 뺀 값일 수 있다.

상기 신뢰도는, 상기 참조 출처의 경우, '1'이고, 상기 참조 출처가 아닌 출처의 경우, 상기 참조 출처와 상기 참조 출처가 아닌 출처 사이의 유사도 값일 수 있다.

여기서, 상기 통합 트래픽 데이터를 이동 평균(moving average) 방식에 의해 스무딩(smoothing)하여 최종 트래픽 데이터를 생성하는 재처리부를 더 포함할 수 있다.

상기 분할 데이터는 상기 링크의 ID, 시간, 교통 정보 및 출처를 식별항목으로 포함할 수 있다.

상기 출처는 개인 차량의 속도를 구하는 근거리 전용 통신(Dedicated Short Range Communication, DSRC) 시스템, 버스, 택시 및 경찰차 중 적어도 하나를 포함할 수 있다.

상기 링크별 분할 데이터의 타임 레인지를 분할하는 타임 레인지 분할부를 더 포함하고, 상기 신뢰도 평가부는 상기 타임 레인지 별로 상기 신뢰도를 평가할 수 있다.

상기 타임 레인지 분할부는 상기 복수의 출처의 상기 분할 데이터에 대해, n-gram(여기서, n은 자연수) 방식으로 상기 속도의 n평균 및 n표준 편차를 산출하는 연산부와, 상기 n평균 및 n표준 편차를 시간 별로 정렬하여 인접하는 상기 n평균 및 n표준 편차 값이 미리 설정된 기준치 이상이 되는 경우에 타임 레인지를 분할하는 분할부를 포함하되, 상기 n-gram 방식은 시간에 따라 정렬된 속도 정보에서, 상기 양 출처의 상기 해당 시간의 속도를 포함하는 연속되는 2n개의 속도의 평균 및 표준 편차 값을 해당 시간의 상기 속도의 n평균 및 n표준 편차의 값으로 대응시키는 방식일 수 있다.

상기 다른 과제를 해결하기 위한 본 발명의 일 실시예에 따른 트래픽 데이터 통합 방법은 서로 다른 출처에서 각각의 링크의 차량의 속도를 포함하는 트래픽 데이터를 수집하고, 상기 트래픽 데이터를 상기 링크별 및 시간별의 분할 데이터로 집계하고, 상기 분할 데이터를 이용하여, 상기 출처들의 신뢰도를 평가하고, 상기 신뢰도에 비례하는 가중치에 의해 상기 서로 다른 출처의 트래픽 데이터를 혼합하여 통합 트래픽 데이터를 생성하는 것을 포함한다.

여기서, 상기 통합 트래픽 데이터를 이동 평균(moving average) 방식에 의해 스무딩(smoothing)하여 최종 트래픽 데이터를 생성하는 것을 더 포함할 수 있다.

여기서, 상기 신뢰도를 평가하기 전에, 상기 링크별 분할 데이터의 타임 레인지를 분할하는 것을 더 포함하고, 상기 신뢰도를 상기 분할 데이터를 이용하여 평가하는 것은, 상기 타임 레인지 별로 상기 신뢰도를 평가하는 것을 포함할 수 있다.

상기 타임 레인지를 분할하는 것은, 상기 복수의 출처의 상기 분할 데이터에 대해, n-gram(여기서, n은 자연수) 방식으로 상기 속도의 n평균 및 n표준 편차를 산출하고, 상기 n평균 및 n표준 편차를 시간 별로 정렬하여 인접하는 상기 n평균 및 n표준 편차 값이 미리 설정된 기준치 이상이 되는 경우에 타임 레인지를 분할하는 것을 포함하되, 상기 n-gram 방식은 시간에 따라 정렬된 속도 정보에서, 상기 양 출처의 상기 해당 시간의 속도를 포함하는 연속되는 n개의 시간에 대한 속도의 평균 및 표준 편차 값을 해당 시간의 상기 속도의 n평균 및 n표준 편차의 값으로 대응시키는 방식일 수 있다.

상기 신뢰도를 평가하는 것은, 미리 설정된 제약 조건에 의해 참조 출처를 선정하고, 상기 각각의 링크에 따라 상기 출처 각각의 유사도를 산출하고, 상기 참조 출처와의 유사도에 비례하는, 상기 참조 출처를 제외한 나머지 출처의 신뢰도를 상기 분할 데이터를 이용하여 평가하는 것을 포함할 수 있다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.

즉, 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템 및 방법은 서로 다른 출처의 트래픽 데이터를 적합하게 통합할 수 있어 분석에 따른 왜곡이나 오류를 바로잡을 수 있다.

또한, 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템 및 방법은 타임 레인지에 따른 신뢰도를 도출할 수 있어 통합에 있어서 더욱 정밀하고 정확한 데이터를 얻을 수 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템을 설명하기 위한 링크의 시간에 따른 출처별 속도 그래프의 예시도이다.
도 2는 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템을 설명하기 위한 블록도이다.
도 3 은 도 2의 타임 레인지 분할부를 세부적으로 설명하기 위한 블록도이다.
도 4 및 도 7은 도 3의 타임 레인지 분할부의 타임 레인지 분할 방식을 설명하기 위한 그래프 및 도표의 예시도이다.
도 8은 도 2의 신뢰도 평가부를 세부적으로 설명하기 위한 블록도이다.
도 9 내지 도 13은 도 8의 신뢰도 평가부의 신뢰도 평가 방식을 설명하기 위한 그래프의 예시도이다.
도 14는 도 2의 통합부의 데이터 통합 방식을 설명하기 위한 그래프의 예시도이다.
도 15는 도 2의 재처리부의 재처리 방식을 설명하기 위한 그래프의 예시도이다.
도 16은 본 발명의 일 실시예에 따른 트래픽 데이터 통합 방법을 설명하기 위한 순서도이다.
도 17은 도 16의 신뢰도 평가 단계를 세부적으로 설명하기 위한 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

비록 제1, 제2 등이 다양한 소자, 구성요소 및/또는 섹션들을 서술하기 위해서 사용되나, 이들 소자, 구성요소 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자, 구성요소 또는 섹션들을 다른 소자, 구성요소 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자, 제1 구성요소 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 소자, 제2 구성요소 또는 제2 섹션일 수도 있음은 물론이다.

소자(elements) 또는 층이 다른 소자 또는 층의 "위(on)" 또는 "상(on)"으로 지칭되는 것은 다른 소자 또는 층의 바로 위뿐만 아니라 중간에 다른 층 또는 다른 소자를 개재한 경우를 모두 포함한다. 반면, 소자가 "직접 위(directly on)" 또는 "바로 위"로 지칭되는 것은 중간에 다른 소자 또는 층을 개재하지 않은 것을 나타낸다.

공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 소자 또는 구성 요소들과 다른 소자 또는 구성 요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 소자의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들면, 도면에 도시되어 있는 소자를 뒤집을 경우, 다른 소자의 "아래(below 또는 beneath)"로 기술된 소자는 다른 소자의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 소자는 다른 방향으로도 배향될 수 있으며, 이 경우 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

도 1 내지 도 15를 참조하여, 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템을 설명한다.

도 1은 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템을 설명하기 위한 링크의 시간에 따른 출처별 속도 그래프의 예시도이고, 도 2는 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템을 설명하기 위한 블록도이다. 도 3 은 도 2의 타임 레인지 분할부를 세부적으로 설명하기 위한 블록도이고, 도 4 및 도 7은 도 3의 타임 레인지 분할부의 타임 레인지 분할 방식을 설명하기 위한 그래프 및 도표의 예시도이다. 도 8은 도 2의 신뢰도 평가부를 세부적으로 설명하기 위한 블록도이고, 도 9 내지 도 13은 도 8의 신뢰도 평가부의 신뢰도 평가 방식을 설명하기 위한 그래프의 예시도이다. 도 14는 도 2의 통합부의 데이터 통합 방식을 설명하기 위한 그래프의 예시도이고, 도 15는 도 2의 재처리부의 재처리 방식을 설명하기 위한 그래프의 예시도이다.

도 1은, 특정 날짜의 특정 지역에서의 택시, 근거리 전용 통신(Dedicated Short Range Communication, DSRC) 및 버스의 시간에 따른 속도를 나타낸 그래프이다. 근거리 전용 통신(Dedicated Short Range Communication, 이하 DSRC)은 톨게이트나 차로 변에 설치되어 개인 차량의 속도를 측정할 수 있다. 도 1을 살펴 보면, 버스의 경우 운행 시간의 제한이 있고, 택시와 DSRC 역시 속도의 차이가 난다. 이러한 3가지 출처의 트래픽 데이터를 단순히 통합하는 것은 각각의 트래픽 데이터의 특성을 고려하지 못한 행위로서 데이터의 신뢰성을 저하시킬 수 있다. 따라서, 트래픽 데이터의 신뢰성을 판단하기 위해 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템을 제공한다.

도 2를 참고하면, 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템은 수집부(100), 집계부(200), 타임 레인지 분할부(300), 신뢰도 평가부(400), 통합부(500) 및 재처리부(600)를 포함한다.

수집부(100)는 서로 다른 출처에서 트래픽 데이터를 수집할 수 있다. 상기 트래픽 데이터는 링크의 차량의 속도일 수 있다. 즉, 링크에 위치하는 차량의 속도를 대표하는 값일 수 있다. 상기 대표하는 값은 예를 들어, 평균값일 수 있다. 링크란 실제 도로의 일부 구간에 해당하는 부분이다. 지도상의 도로의 교차점은 노드(node)이고, 상기 노드를 연결하는 선을 링크로 한다. 도로는 복수의 링크(link)로 구성되어 있고, 도로가 교차하는 지점이 노드(node)이다.

트래픽 데이터는 여러 가지 출처에서 수집될 수 있다. 예를 들어, DSRC, 버스, 택시, 경찰차 및 내비게이션 등에서 수집될 수 있다.

집계부(200)는 상기 트래픽 데이터를 링크별 및 시간별로 집계할 수 있다. 집계부(200)는 트래픽 데이터를 분할 데이터로 집계할 수 있다.

분할 데이터는 데이터 테이블의 형식으로 저장될 수 있다. 데이터 테이블은 여러 가지 식별항목을 가질 수 있다. 예를 들어, 링크의 ID, 시간, 교통 정보 및 출처를 식별항목으로 할 수 있다. 링크의 ID는 지도상의 링크에 대응되는 숫자 또는 문자일 수 있다. 시간은 트래픽 데이터가 수집되는 단위 시간 간격에 따라 표시될 수 있다. 교통 정보는 링크의 이동 차량의 속도 일 수 있다. 출처는 상기 출처, 즉, DSRC 또는 버스 등에 대응되는 숫자 또는 문자일 수 있다.

타임 레인지 분할부(300)는 링크별 분할 데이터의 타임 레인지를 분할할 수 있다. 타임 레인지 분할부(300)가 타임 레인지를 분할하는 이유는, 각각의 출처의 데이터가 모든 시간대에서 신뢰도가 높거나 모든 시간대에서 신뢰도가 낮다고 판단하는 오류를 범하지 않기 위해서이다. 각각의 출처의 트래픽 데이터는 일정 시간 범위에서 신뢰도가 높을 수 있고, 다른 시간 범위에서 신뢰도가 낮을 수 있다. 따라서, 타임 레인지 분할부(300)가 타임 레인지를 분할함으로써, 더욱 정밀하게 트래픽 데이터의 신뢰도를 판단할 수 있다.

도 3을 참고하면, 타임 레인지 분할부(300)는 연산부(310) 및 분할부(320)를 포함한다.

연산부(310)는 서로 다른 출처의 트래픽 데이터의 분할 데이터를 이용할 수 있다. 도 4를 참고하면, 하나의 링크에 대한 시간에 따른 데이터를 이용하여 타임 레인지를 나눌 수 있다. 타임 레인지의 개수는 특별히 제한되지 않는다. 타임 레인지는 일정 조건만 만족되면 개수의 제한 없이 나누어질 수 있다.

도 5를 참고하면, 특정 링크에 대해 각각의 시간에 따라 데이터 테이블 형태로 표시할 수 있다. 서로 다른 2개의 출처는 도시되었듯이, 택시 및 DSRC일 수 있다.

도 6을 참고하면, 연산부(310)는 n-gram(여기서, n은 자연수) 방식으로 상기 속도의 n평균(μ) 및 n표준 편차(σ)를 산출할 수 있다. n-gram 방식이란, n개의 연속하는 데이터를 이용하여 시프트(shift)방식으로 평균 및 표준 편차를 구하는 방식을 말한다. 도 6은 n=6일 때의 n평균(μ) 및 n표준 편차(σ)를 구하는 방식을 설명하고 있다. 2개의 출처이므로, 2n개의 데이터의 n평균을 구하면 71.8이고, n표준 편차는 10.3이다. 이를 가장 앞의 데이터에 대응시킬 수 있다. n의 값은 조절될 수 있다. 타임 레인지를 세분화 하고 싶은 경우 n의 값을 낮게 잡을 수 있고, 타임 레인지를 단순화 하고 싶은 경우 n의 값을 크게 잡을 수 있다.

도 7을 참고하면, 연산부(310)는 상기와 같은 방식으로 n평균 및 n표준 편차를 데이터 테이블에 채울 수 있다. 이 때, 시간의 흐름에 따라 인접한 n평균 및 n표준 편차가 비교될 수 있다.

분할부(320)는 상기 인접한 n평균 및 n표준 편차의 값을 비교할 수 있다. 분할부(320)는 인접하는 n평균 및 n표준 편차 값이 미리 설정된 기준치 이상이 되는 경우에 타임 레인지를 분할할 수 있다. 분할 방식은 여러 가지가 될 수 있다. 즉, n평균 및 n표준 편차 값의 기준치를 각각 설정하여 양 값이 모두 기준치를 넘는 경우에만 타임 레인지를 분할할 수도 있고, 양 값 중 어느 한 값만이 기준치를 넘어도 타임 레인지를 분할할 수도 있다. 도 7에는 5번째 데이터와 6번째 데이터 사이를 분할한 것으로 예시되어 있다.

다시 도 2를 참조하면, 신뢰도 평가부(400)는 분할 데이터를 이용하여 서로 다른 출처들의 신뢰도를 평가할 수 있다. 신뢰도는 그 출처의 데이터를 얼마나 믿을 수 있느냐를 수치로 표현한 것일 수 있다. 예를 들어, 신뢰도의 범위는 0과 1사이일 수 있다. 단, 이에 제한되는 것은 아니다.

도 8을 참고하면, 신뢰도 평가부(400)는 선정부(510), 유사도 산출부(520) 및 평가부(530)를 포함한다.

선정부(510)는 미리 설정된 제약 조건에 의해 참조 출처를 선정할 수 있다. 참조 출처는 신뢰도가 1로 가정될 수 있다. 즉, 왜곡되지 않고, 믿을 수 있는 데이터로 인정될 수 있다.

미리 설정된 제약 조건은 출처 중에 신뢰할 수 있는 참조 출처를 고를 수 있는 조건이면 제한이 없을 수 있다. 예를 들어, 하기와 같은 제약 조건일 수 있다.

제약 조건1: 서로 출처의 데이터가 유사한 경우 모든 데이터를 신뢰할 수 있다(모든 출처의 데이터의 신뢰도는 '1'이고 참조 출처가 된다.)

제약 조건2: 만일 어느 출처의 데이터가 항상 변동이 없다면, 신뢰할 수 없다(참조 출처가 될 수 없다.)

제약 조건3: 만일 어느 출처의 데이터가 낮은 평균 및 낮은 표준 편차를 가진다면, 신뢰할 수 없다(참조 출처가 될 수 없다.).

제약 조건4: 만일 택시와 DSRC가 있다면, 낮은 속도를 가진 출처가 신뢰할 수 있다(참조 출처가 될 수 있다.).

상기 제약 조건1에서 유사한 경우는 양 출처의 편차(deviation)가 특정 기준치 이상일 경우를 정의할 수 있다.

상기 제약 조건 2에서 변동이 없는지의 여부는 데이터의 최대값과 최소값의 차(差)가 일정 기준치 이하일 경우로 정의될 수 있다. 단, 이에 제한되는 것은 아니다.

상기 제약 조건 3에서 평균 및 표준 편차가 낮은지 역시 미리 설정된 기준치 이하 인지로 판단될 수 있다.

상기 제약 조건들은 예시적인 것이며, 참조 출처를 판단할 수 있는 것이면 특별한 제한이 없이 미리 설정될 수 있다.

선정부(510)는 상기와 같은 미리 설정된 제약 조건을 이용하여, 참조 출처를 선정할 수 있다.

유사도 산출부(520)는 상기 분할 데이터를 이용하여, 상기 각각의 링크에 따라 서로 다른 출처의 유사도를 산출할 수 있다. 유사도는 타임 레인지 별로 산출될 수 있다.

[수학식 1]

상기 수학식 1에서 i, k는 자연수이고, A_i, B_i는 서로 다른 출처의 데이터 값이다. k는 타임 레인지를 단위 시간 간격으로 나눈 값이다. 즉, 타임 레인지 내의 데이터의 개수이다.

[수학식 2]

상기 수학식 2에서 Similarity(A, B)는 참조 출처 A와 B의 유사도이다.

평가부(530)는 참조 출처의 신뢰도를 1로 평가할 수 있다. 평가부는 참조 출처 외의 출처의 신뢰도를 유사도와 비례하는 값으로 평가할 수 있다. 즉, 평가부(530)는 참조 출처와 참조 출처가 아닌 출처의 유사도 값을 바로 참조 출처가 아닌 출처의 신뢰도 값으로 평가할 수도 있다.

도 9를 참고하면, 택시와 DSRC의 분할 데이터가 유사한 경우를 예시하였다. 이러한 경우, 모든 타임 레인지에서 양 출처의 신뢰도는 1이 될 수 있다.

R( time-range2, A, taxi) = R( time-range2, A, DSRC) = 1

R(time-range3, A, taxi) = R(time-range3, A, DSRC) = 1

R(time-range4, A, taxi) = R(time-range4, A, DSRC) = 1

R(time-range1, A, taxi) = R(time-range1, A, DSRC) = 1

이하, 도 10 내지 도 12를 참조하여, 타임 레인지에 따라, 일부만 유사하고 나머지는 유사하지 않은 상황을 예시하였다. 제약 조건에 따라, 택시와 DSRC 중 DSRC를 참조 출처로 선정할 수 있다. 따라서, DSRC의 신뢰도는 1이 될 수 있다.

도 10 및 도 11을 참고하여, 각각의 타임 레인지에 따라 편차를 구해보면 다음과 같다.

Deviation (time-range1) : 227 (similar)

Deviation (time-range2) : 536 (not similar)

Deviation (time-range3) : 432 (not similar)

Deviation (time-range4) : 154 (similar)

편차의 기준치를 300으로 두면, 상기와 같이 타임 레인지 2 및 3에서 유사하지 않음이 판단될 수 있다. 이에 반해 타임 레인지 1 및 4는 유사하다고 판단된다.

도 12를 참고하면, 타임 레인지 1 및 4는 신뢰도가 1로서 계산할 필요가 없다. 타임 레인지 2 및 3은 유사도를 계산하여야 한다.

R(time-range1, B, Taxi) = 1

R(time-range1, B, DSRC) = 1

R( time-range2, B, Taxi) = 0.397

R( time-range2, B, DSRC) = 1

R(time-range3, B, Taxi) = 0.564

R(time-range3, B, DSRC) = 1

R(time-range4, B, Taxi) = 1

R(time-range4, B, DSRC) = 1

상기와 같이 타임 레인지 2 및 3에서, 상기 수학식 1 및 2에 따른 유사도 값이 택시의 신뢰도 값이 되고, 나머지 신뢰도 값은 모두 1이 될 수 있다.

이하, 도 13을 참조하여 택시와 DSRC가 유사한 패턴을 보이나 속도가 일정하게 시프트(shift)된 경우를 설명한다. 상기 제약 조건 4에 따라, DSRC가 참조 출처가 될 수 있고, 신뢰도가 1이 될 수 있다. DSRC와 택시의 신뢰도는 다음과 같다.

R( night, A, taxi) = 0.442

R( night, A, DSRC) = 1

R( time-range2, A, taxi) = 0.414

R( time-range2, A, DSRC) = 1

R( afternoon, A, taxi) = 0.537

R( afternoon, A, DSRC) = 1

R( evening, A, taxi) = 0.421

R( evening, A, DSRC) = 1

즉, 신뢰도 평가부(400)가 택시의 경우 상기 수학식 1 및 2에 의해 유사도와 같은 신뢰도를 평가할 수 있다.

도 14를 참고하면, 통합부(500)는 서로 다른 출처의 트래픽 데이터를 통합할 수 있다. 통합부(500)는 신뢰도 평가부(400)가 평가한 신뢰도에 비례하는 가중치에 의해 서로 다른 출처의 트래픽 데이터를 혼합하여 통합 트래픽 데이터를 생성할 수 있다. 도 14의 그래프는 통합 트래픽 데이터의 그래프의 예시도이다.

도 15를 참고하면, 재처리부(600)는 통합 트래픽 데이터를 스무딩(smoothing)할 수 있다. 재처리부(600)는 이동 평균(moving average) 방식을 이용하여 통합 트래픽 데이터를 스무딩할 수 있다. 재처리부(600)는 통합 트래픽 데이터를 스무딩하여 최종 트래픽 데이터를 생성할 수 있다. 이동 평균 방식은 시계열의 각 항에 대하여 그것을 중심으로 하는 전후 일정 항 수의 평균값을 연결하여 경향선을 구하는 방법을 말한다.

본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템은 위와 같이 서로 다른 출처에 의한 데이터의 신뢰성을 저하시키지 않도록 통합할 수 있다. 최근의 기술의 발달로 빅 데이터의 분석 방법이 중요시해졌지만, 정작 빅 데이터를 수집하는 동안 생기는 오류에 대해서는 관대하게 여겨지고 있다. 분석 방법 이전에 여러 가지 출처의 데이터를 통합하는 것이 빅 데이터를 구축하고, 오류 없이 분석하는 길의 전제가 될 수 있다. 본 발명의 일 실시예에 따른 트래픽 데이터 통합 시스템은 통합 데이터에 대한 높은 신뢰성을 제공할 수 있다. 이에 따라, 더 나은 빅 데이터의 분석을 도출하는 길이 될 것이다.

이하, 도 16 및 도 17을 참고하여, 본 발명의 일 실시예에 따른 트래픽 데이터 통합 방법을 설명한다. 상술한 트래픽 데이터 통합 시스템의 설명과 유사한 부분은 생략하거나 간략히 한다.

도 16은 본 발명의 일 실시예에 따른 트래픽 데이터 통합 방법을 설명하기 위한 순서도이고, 도 17은 도 16의 신뢰도 평가 단계를 세부적으로 설명하기 위한 순서도이다.

도 16을 참고하면, 먼저 복수의 출처의 트래픽 데이터를 수집한다(S1600).

트래픽 데이터는 DSRC, 택시, 버스 및 경찰차 등 다양한 출처에서 수집될 수 있다. 트래픽 데이터를 수집하는 것은 직접 데이터를 수집하는 것일 수도 있고, 이미 수집되어 저장된 데이터를 전송 받는 형식일 수도 있다. 즉, 데이터를 받는 것이면 그 방식에는 제한이 없다. 택시는 정차시간이 길고, 버스는 운행 시간이 제한되어 있으므로 각각의 출처에 대한 정보가 그대로 통합되는 것은 문제가 있을 수 있다. 따라서, 본 발명의 일 실시예에 따른 트래픽 데이터 통합 방법은 신뢰도를 유지할 수 있는 통합 방법을 제공한다.

이어서, 분할 데이터를 집계한다(S1610).

분할 데이터란, 수집된 데이터를 시간별, 공간별로 같은 형태의 데이터로 처리한 것을 의미한다. 예를 들어, 링크 및 시간을 식별항목으로 데이터 테이블화 할 수 있다.

이어서, 타임 레인지를 분할한다(S1620).

타임 레인지는 n-gram방식에 의해 시계열적으로 연속되는 데이터의 n평균 및 n표준 편차를 이용하여 분할할 수 있다. 인접한 n평균 및 n표준 편차가 일정 기준치 이상의 차이가 나면 타임 레인지를 분할할 수 있다. 일단 타임 레인지가 분할되면, 신뢰도는 타임 레인지 별로 평가될 수 있다.

이어서, 신뢰도를 평가할 수 있다(S1630).

신뢰도는 타임 레인지 별로 평가될 수 있다. 즉, 하나의 트래픽 데이터의 신뢰도도 타임 레인지 별로 다른 값을 가질 수 있다.

이어서, 통합 트래픽 데이터를 생성한다(S1640).

통합 트래픽 데이터는 신뢰도에 따라 통합된 값일 수 있다. 즉, 신뢰도가 높은 트래픽 데이터에 높은 가중치를 주고, 신뢰도가 낮은 트래픽 데이터에 낮은 가중치를 주어 트래픽 데이터를 통합할 수 있다. 상기 가중치는 신뢰도와 동일할 수 있다.

이어서, 최종 트래픽 데이터를 생성한다(S1650).

통합 트래픽 데이터를 스무딩하여 최종 트래픽 데이터를 생성할 수 있다. 스무딩은 이동 평균 방식이 사용될 수 있으나, 이에 제한되는 것은 아니다.

도 17을 참고하여, 신뢰도를 평가하는 단계를 세분화하면, 우선 참조 출처를 선정한다(S1631).

참조 출처는 신뢰도가 1로 가정될 수 있다. 참조 출처는 미리 지정된 제약 조건에 따라 결정될 수 있다. 참조 출처는 복수일 수 있다. 즉, 2개의 출처가 있는 경우 2개의 출처 모두 신뢰할 수 있는 경우에 2개의 출처 모두 참조 출처가 될 수 있다.

이어서, 유사도를 산출한다(S1633).

유사도는 상기 수학식 1 및 수학식 2에 의해 산출될 수 있다. 유사도는 참조 출처와 참조 출처가 아닌 출처의 유사도로서, 0에서 1사이의 값을 가질 수 있다.

이어서, 참조 출처가 아닌 출처의 신뢰도를 평가한다(S1635).

참조출처가 아닌 출처의 신뢰도는 유사도 값과 비례할 수 있다. 나아가, 참조 출처가 아닌 출처의 신뢰도는 유사도 값과 동일할 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

100: 수집부 200: 집계부
300: 타임 레인지 분할부 400: 신뢰도 평가부
500: 통합부 600: 재처리부

Claims

서로 다른 출처에서 각각의 링크의 차량의 속도를 포함하는 트래픽 데이터를 수집하는 수집부;
상기 트래픽 데이터를 링크별 및 시간별로 분할하여 분할 데이터로 집계하는 집계부;
상기 분할 데이터를 이용하여 상기 출처의 신뢰도를 평가하는 신뢰도 평가부; 및
상기 신뢰도에 비례하는 가중치에 의해 상기 서로 다른 출처의 트래픽 데이터를 혼합하여 통합 트래픽 데이터를 생성하는 통합부를 포함하는 트래픽 데이터 통합 시스템.
제1 항에 있어서,
상기 신뢰도 평가부는,
미리 설정된 제약 조건에 의해 참조 출처를 선정하는 선정부와,
상기 분할 데이터를 이용하여, 상기 각각의 링크에 따라 상기 출처 각각의 유사도를 산출하는 유사도 산출부와,
상기 참조 출처와의 유사도에 비례하는, 상기 참조 출처를 제외한 나머지 출처의 신뢰도를 상기 분할 데이터를 이용하여 평가하는 평가부를 포함하는 트래픽 데이터 통합 시스템.
제2 항에 있어서,
상기 유사도는 최대 유사도에서 상기 각각의 출처에 따른 상기 속도의 차(差)의 절대값에 비례하는 편차를 뺀 값인 트래픽 데이터 통합 시스템.
제2 항에 있어서,
상기 신뢰도는,
상기 참조 출처의 경우, '1'이고,
상기 참조 출처가 아닌 출처의 경우, 상기 참조 출처와 상기 참조 출처가 아닌 출처 사이의 유사도 값인 트래픽 데이터 통합 시스템.
제1 항에 있어서,
상기 통합 트래픽 데이터를 이동 평균(moving average) 방식에 의해 스무딩(smoothing)하여 최종 트래픽 데이터를 생성하는 재처리부를 더 포함하는 트래픽 데이터 통합 시스템.
제1 항에 있어서,
상기 분할 데이터는 상기 링크의 ID, 시간, 교통 정보 및 출처를 식별항목으로 포함하는 트래픽 데이터 통합 시스템.
제1 항에 있어서,
상기 출처는 개인 차량의 속도를 구하는 근거리 전용 통신(Dedicated Short Range Communication, DSRC) 시스템, 버스, 택시 및 경찰차 중 적어도 하나를 포함하는 트래픽 데이터 통합 시스템.
제1 항에 있어서,
상기 링크별 분할 데이터의 타임 레인지를 분할하는 타임 레인지 분할부를 더 포함하고,
상기 신뢰도 평가부는 상기 타임 레인지 별로 상기 신뢰도를 평가하는 트래픽 데이터 통합 시스템.
제8 항에 있어서,
상기 타임 레인지 분할부는 상기 출처의 상기 분할 데이터에 대해, n-gram(여기서, n은 자연수) 방식으로 상기 속도의 n평균 및 n표준 편차를 산출하는 연산부와,
상기 n평균 및 n표준 편차를 시간별로 정렬하여 인접하는 상기 n평균 및 n표준 편차 값이 미리 설정된 기준치 이상이 되는 경우에 타임 레인지를 분할하는 분할부를 포함하되,
상기 n-gram 방식은 시간에 따라 정렬된 속도 정보에서, 상기 출처의 해당 시간의 속도를 포함하는 연속되는 n개의 시간에 대한 속도의 평균 및 표준 편차 값을 해당 시간의 상기 속도의 n평균 및 n표준 편차의 값으로 대응시키는 방식인 트래픽 데이터 통합 시스템.
서로 다른 출처에서 각각의 링크의 차량의 속도를 포함하는 트래픽 데이터를 수집하고,
상기 트래픽 데이터를 링크별 및 시간별의 분할 데이터로 집계하고,
상기 분할 데이터를 이용하여, 상기 출처의 신뢰도를 평가하고,
상기 신뢰도에 비례하는 가중치에 의해 상기 서로 다른 출처의 트래픽 데이터를 혼합하여 통합 트래픽 데이터를 생성하는 것을 포함하는 트래픽 데이터 통합 방법.
제10 항에 있어서,
상기 통합 트래픽 데이터를 이동 평균(moving average) 방식에 의해 스무딩(smoothing)하여 최종 트래픽 데이터를 생성하는 것을 더 포함하는 트래픽 데이터 통합 방법.
제10 항에 있어서,
상기 신뢰도를 평가하기 전에, 상기 링크별 분할 데이터의 타임 레인지를 분할하는 것을 더 포함하고,
상기 신뢰도를 상기 분할 데이터를 이용하여 평가하는 것은,
상기 타임 레인지 별로 상기 신뢰도를 평가하는 것을 포함하는 트래픽 데이터 통합 방법.
제12 항에 있어서,
상기 타임 레인지를 분할하는 것은,
상기 출처의 상기 분할 데이터에 대해, n-gram(여기서, n은 자연수) 방식으로 상기 속도의 n평균 및 n표준 편차를 산출하고,
상기 n평균 및 n표준 편차를 시간별로 정렬하여 인접하는 상기 n평균 및 n표준 편차 값이 미리 설정된 기준치 이상이 되는 경우에 타임 레인지를 분할하는 것을 포함하되,
상기 n-gram 방식은 시간에 따라 정렬된 속도 정보에서, 상기 출처의 해당 시간의 속도를 포함하는 연속되는 n개의 시간에 대한 평균 및 표준 편차 값을 해당 시간의 상기 속도의 n평균 및 n표준 편차의 값으로 대응시키는 방식인 트래픽 데이터 통합 방법.
제10 항에 있어서,
상기 신뢰도를 평가하는 것은,
미리 설정된 제약 조건에 의해 참조 출처를 선정하고,
상기 각각의 링크에 따라 상기 출처 각각의 유사도를 산출하고,
상기 참조 출처와의 유사도에 비례하는, 상기 참조 출처를 제외한 나머지 출처의 신뢰도를 상기 분할 데이터를 이용하여 평가하는 것을 포함하는 트래픽 데이터 통합 방법.