KR20150069424A - 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법 - Google Patents

하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법 Download PDF

Info

Publication number
KR20150069424A
KR20150069424A KR1020130155808A KR20130155808A KR20150069424A KR 20150069424 A KR20150069424 A KR 20150069424A KR 1020130155808 A KR1020130155808 A KR 1020130155808A KR 20130155808 A KR20130155808 A KR 20130155808A KR 20150069424 A KR20150069424 A KR 20150069424A
Authority
KR
South Korea
Prior art keywords
data
learning data
learning
model
accident
Prior art date
Application number
KR1020130155808A
Other languages
English (en)
Other versions
KR101563406B1 (ko
Inventor
하영국
박성훈
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to KR1020130155808A priority Critical patent/KR101563406B1/ko
Publication of KR20150069424A publication Critical patent/KR20150069424A/ko
Application granted granted Critical
Publication of KR101563406B1 publication Critical patent/KR101563406B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 교통사고 예측을 위한 MapReduce 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법에 관한 것으로서, 일실시예에 따른 대용량 불균형 데이터 분류분석 시스템은 교통 빅데이터를 전처리하는 데이터 전처리부, 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고, 생성된 학습데이터모델에 기초하여, 상기 교통 빅데이터로부터 학습데이터를 생성하는 학습데이터 생성부, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 오버 샘플링 처리부, 및 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 분류 분석부를 포함하고, 상기 생성된 학습 모델은 입력으로부터 사고 예측 결과를 출력할 수 있다.

Description

교통사고 예측을 위한 맵리듀스 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법{SYSTEM AND METHOD FOR LARGE UNBALANCED DATA CLASSIFICATION BASED ON HADOOP FOR PREDICTION OF TRAFFIC ACCIDENTS}
본 발명은 분산 병렬 분류분석을 이용하여 과거의 이벤트에 대한 대용량의 불균형 데이터를 효과적으로 분류분석하여 현재의 상황에서의 특정 이벤트의 발생 가능성을 예측하는 기술에 관한 것이다.
빅데이터라는 키워드의 등장과 함께 다양한 분야에서는 기존의 과거 데이터들을 다시 한 번 돌아보게 됐으며, 그런 데이터들을 분석하여 새로운 결과를 도출하거나 새로운 결과를 예측하는 것은 오늘날 뜨거운 감자와 같다. 데이터 분석을 통한 예측은 주로 과거데이터를 기반으로 학습을 통한 데이터마이닝 기법 중 분류분석(Classification)을 통해 이루어진다. 분류분석은 주어지는 학습데이터를 학습하여 답을 얻고자 하는 목표 변수에 판단 기준이 되는 학습모델을 만들고, 이를 기반으로 새로운 예측 변수로 이루어진 데이터가 주어졌을 때, 모델은 결과를 기존 내용을 모방하여 예측한다. 이런 일련의 작업과정을 위해서는 충분한 학습데이터 확보가 필요하다.
기존에 존재하는 데이터와 계속적으로 새로운 데이터들이 생성되지만, 새로운 예측모델을 만드는 것 외에도 예측 모델의 구축에는 몇 가지 문제점이 있다.
첫 번째 문제로는 데이터의 불균형 문제이다. 데이터의 불균형이란 하나의 데이터 셋에서 관측되는 데이터 집단들 간에 관측 크기 차이가 크게 나는 것으로, 신용카드 회원 중 기존 회원과 탈퇴 회원, 우리나라의 기상 중 맑은 날씨와 태풍, 통신사 고객 중 기존 회원과 탈퇴 회원, 또는 교통 데이터 중 비사고 관련 데이터와 사고 관련 데이터와 같은 데이터가 관측되는 수의 차이가 현저히 차이 나는 것을 말한다. 이런 데이터의 불균형인 상태로 학습을 진행하고 학습모델을 생성한다면, 학습 모델은 관측 수가 큰 결과만을 예상하는 왜곡된 결과 값만을 예측하게 된다. 데이터 불균형 문제를 해결하기 위해 가중치(Weight)를 활용하는 방법과 샘플링(Sampling) 방법이 있다. 가중치 활용 방법은 관측수가 적은 데이터에는 높은 가중치를 부여하고 관측수가 많은 데이터에는 낮은 가중치를 부여하여 가중치 값을 참조하여 분석 모델을 생성하는 방법이다. 이는 가중치 값을 정하는 것과 결과 분석에 대한 계산 복잡도를 야기한다. 샘플링 방법은 관측되는 수가 적은 클래스 데이터는 모두 사용하며 관측수가 큰 클래스의 데이터는 일부만을 사용하는 언더 샘플링(Under-Sampling)과 관측되는 수가 많은 클래스 데이터는 모두 사용하며 관측수가 적은 클래스의 데이터는 증대시켜 사용하는 오버 샘플링(Over-Sampling)이 있다. 언더 샘플링은 전체 데이터에서 일부를 손해 본 후 계산이 수행된다. 이를 통해 데이터의 처리속도 측면에서는 유리할 수 있지만, 데이터의 신뢰도는 손실할 수밖에 없다. 오버 샘플링은 전체 데이터를 모두 활용할 수 있다는 장점이 있지만, 대용량 데이터인 경우 전체 데이터에서 추가로 데이터가 더 발생하기 때문에 데이터를 처리하기 위한 더 많은 자원을 요구한다.
두 번째 문제는 학습데이터 생성을 위한 데이터의 처리다. 학습데이터는 목표 변수에 영향을 끼치는 여러 특징점들의 집합으로 이루어진다. 이는 여러 종류의 데이터의 분석을 요구할 수도, 또는 빅데이터의 분석을 요구할 수도 있다. 이런 데이터 분석 및 처리 과정은 많은 하드웨어적 자원을 요구한다. 이것은 분석대상이 되는 데이터가 점차 커짐에 따라 처리속도, 요구자원 또한 계속적으로 증가하는 결과를 야기한다.
일실시예에 따른 대용량 불균형 데이터 분류분석 시스템은 교통 빅데이터를 전처리하는 데이터 전처리부, 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고, 생성된 학습데이터모델에 기초하여, 상기 교통 빅데이터로부터 학습데이터를 생성하는 학습데이터 생성부, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 오버 샘플링 처리부, 및 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 분류 분석부를 포함하고, 상기 생성된 학습 모델은 입력으로부터 사고 예측 결과를 출력할 수 있다.
일실시예에 따른 상기 학습데이터 생성부는 목표 변수에 상응하는 특징점들을 기반으로 상기 교통 빅데이터로부터 상기 학습데이터를 생성할 수 있다.
일실시예에 따른 상기 학습데이터 생성부는 예측 변수로부터 목표 변수를 예측하는 상기 학습데이터모델을 생성할 수 있다.
일실시예에 따른 상기 예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함할 수 있다.
일실시예에 따른 상기 목표 변수는 교통 사고 여부에 대한 정보를 포함할 수 있다.
일실시예에 따른 상기 오버 샘플링 처리부는, 상기 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링할 수 있다.
일실시예에 따른 상기 분류 분석부는, 군집분석을 통하여 상기 오버 샘플링된 학습데이터를 복수의 군집으로 분류하고, 분류된 복수의 군집별로 분류분석을 수행할 수 있다.
일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 데이터 전처리부에서, 교통 빅데이터를 전처리하는 단계, 학습데이터 생성부에서, 상기 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고, 생성된 학습데이터모델에 기초하여, 상기 교통 빅데이터로부터 학습데이터를 생성하는 단계, 오버 샘플링 처리부에서, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 단계, 및 분류 분석부에서, 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 단계를 포함하고, 상기 생성된 학습 모델은 입력으로부터 사고 예측 결과를 출력할 수 있다.
일실시예에 따른 상기 학습데이터를 생성하는 단계는, 목표 변수에 상응하는 특징점들을 기반으로 상기 교통 빅데이터로부터 상기 학습데이터를 생성할 수 있다.
일실시예에 따른 상기 학습데이터를 생성하는 단계는, 예측 변수로부터 목표 변수를 예측할 수 있다.
일실시예에 따른 상기 예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함할 수 있다.
일실시예에 따른 상기 목표 변수는 교통 사고 여부에 대한 정보를 포함할 수 있다.
일실시예에 따른 상기 오버 샘플링하는 단계는, 상기 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링하는 단계를 포함할 수 있다.
일실시예에 따른 상기 분류 분석하여 학습 모델을 생성하는 단계는, 군집분석을 통하여 상기 오버 샘플링된 학습데이터를 복수의 군집으로 분류하고, 분류된 복수의 군집별로 분류분석을 수행하는 단계를 포함할 수 있다.
도 1은 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 시스템을 설명하는 도면이다.
도 2는 본 발명의 일실시예에 따른 교통 및 사고 데이터의 사용 변수를 설명하는 도면이다.
도 3은 본 발명의 일실시예에 따른 학습데이터모델을 설명하는 도면이다.
도 4는 본 발명의 일실시예에 따른 군집분석 후 분류분석의 예를 설명하는 도면이다.
도 5는 본 발명의 일실시예에 따른 정오분류표 예를 설명하는 도면이다.
도 6은 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법을 설명하는 도면이다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
본 발명과 종래 기술과의 차이점은 첨부된 도면을 참조한 상세한 설명과 특허청구범위를 통하여 명백하게 될 것이다. 특히, 본 발명은 특허청구범위에서 잘 지적되고 명백하게 청구된다. 그러나, 본 발명은 첨부된 도면과 관련해서 다음의 상세한 설명을 참조함으로써 가장 잘 이해될 수 있다. 도면에 있어서 동일한 참조부호는 다양한 도면을 통해서 동일한 구성요소를 나타낸다.
도 1은 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 시스템(100)을 설명하는 도면이다.
대용량 불균형 데이터 분류분석 시스템(100)은 Hadoop을 기반으로 전체 시스템이 구성되어 있으며 데이터 전처리, 학습데이터 생성, 오버 샘플링은 Hive와 함께 사용될 수 있다. 군집 분석과 분류 분석 두 단계는 Mahout를 활용할 수 있다.
Hive는 분산 스토리지에 저장된 대용량 데이터의 조회 및 관리를 용이하게 해주는 툴로써 HiveQL인 SQL과 흡사한 언어를 사용하여 데이터를 조회하는 구조를 갖고 있다. Mahout은 기계학습 라이브러리의 집합으로 MapReduce환경의 Hadoop에서 군집분석과 분류분석 알고리즘을 쉽게 구현할 수 있다.
이하에서는, 각 구성요소 별로 상세히 설명하며, 본 발명에서 실험하는 교통사고 예측 분류분석을 위해 수행할 작업들을 각 단계에 맞게 설명한다.
구체적으로, 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 시스템(100)은 데이터 전처리부(110), 학습데이터 생성부(120), 오버 샘플링 처리부(130), 및 분류 분석부(140)를 포함할 수 있다.
일실시예에 따른 데이터 전처리부(110)는 교통 빅데이터를 전처리할 수 있다.
고속도로 교통 빅데이터에서 학습을 위해 사용할 데이터의 변수 선택과 각 변수들의 이상 값을 처리하는 데이터 전처리가 필요하다. 학습에 사용할 데이터의 변수 선정은 각 변수의 특성과 전체 데이터에서 각 변수의 누락율을 고려하여 선정할 수 있다. 이상 값의 처리는 각 변수의 값을 고려하여 누락 또는 기본 값으로 대체할 수 있고, 사용하고자 하는 데이터들의 형식이 서로 다르기에 같은 포맷으로 맞추어 주는 과정 등이 데이터 전처리부(110)의 전처리 과정에서 수행될 수 있다.
교통 및 사고 원시데이터에서는 도 2의 표(200)와 같은 데이터를 최종적으로 사용할 수 있다.
도 2는 본 발명의 일실시예에 따른 교통 및 사고 데이터의 사용 변수를 설명하는 도면이다.
표(200)에서 보는 바와 같이, 교통 데이터는 전체 변수를 사용하였으나, 사고 데이터에서는 사망자수, 중상자수, 경상자수, 사고자#1, 사고자#2의 값을 제외할 수 있는데, 이 변수들은 통일된 규칙이 없으며 기록자가 자연어로 서술한 점과 사고 발생 이전에 있어 사고에 영향을 미치기보다는 사고가 일어난 후에 결과를 나타내는 값들로써 사용되는 변수로 사용 변수에서는 배제할 수 있다.
표(200)에서 보는 바와 같이, 위치표기는 교통 데이터의 VDS ID를 활용할 수 있고, 사고데이터에서는 이정을 사용하여 나타내고 있다. 두 데이터의 위치 표기를 같게 해주기 위해 사고데이터의 이정을 VDS ID로 변환하여 교통 데이터와 사고데이터가 매칭될 수 있다.
다시 도 1을 참고하면, 일실시예에 따른 학습데이터 생성부(120)는 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고, 생성된 학습데이터모델에 기초하여, 상기 교통 빅데이터로부터 학습데이터를 생성할 수 있다.
학습데이터를 생성하기 위해 전처리된 여러 데이터들을 합쳐 하나의 학습데이터모델을 생성하고 그에 맞게 데이터들을 변환하여 학습데이터를 생성할 수 있다. 학습데이터 생성 시 목표 변수에 영향을 미치는 특징점들을 고려하여야 한다. 학습데이터 생성에 있어 학습데이터의 모델을 만들며 데이터의 변수들을 효율적으로 사용하기 위해 ID 값 또는 인덱스 값을 활용할 수 있다.
일례로, 목표 변수는 교통 사고 여부에 대한 정보를 포함할 수 있다.
일실시예에 따른 학습데이터 생성부(120)는 전처리 된 교통 빅데이터를 갖고 고속도로 교통사고 예측 학습데이터모델을 도 3과 같이 생성할 수 있다.
도 3은 본 발명의 일실시예에 따른 학습데이터모델(300)을 설명하는 도면이다.
학습데이터모델(300)은 사고의 발생 시점으로부터 일정 시간(3분)동안 그 위치의 고속도로 상황에 의해서 사고가 발생했다는 가정 하에 만든 학습데이터모델이다. 학습데이터모델(300)은 사고가 발생한 시점을 나타내기 위해 발생 월과 요일을 사용하며, 시간대를 나타내기 위하여 6시간 단위(0 ~ 6시: 새벽, 6 ~ 12시: 오전, 12 ~ 18시: 오후, 18 ~ 24시: 밤)로 나누어 각 순번으로 나타낼 수 있다. 이는 학습 변수들이 결과에 영향을 미치는 것을 효과적으로 하기 위함이다. 또한 차로 수, 도로형태, 도로선형, 날씨를 통해 사고가 발생한 주변 요소를 나타내며, 각 차로별로 사고 발생 이전 3분간 교통 상황을 30초 단위로 나타내 사고 발생 이전의 도로 상황을 나타낸다. 요일, 사고유형, 도로형태, 도로선형, 날씨는 카테고리의 값을 가지며 이를 효율적으로 나타내기 위해 인덱스 번호를 대신하여 사용할 수 있다. 지금까지 설명한 변수들은 목표 변수를 예측하기 위해 사용하는 예측 변수들이다.
예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함할 수 있다.
사고 학습데이터와 비사고 학습데이터를 구별하기 위해 이진 값을 갖는 사고 데이터 여부 변수를 이용할 수 있다. 이 변수는 분류분석을 통해 구하려는 목표변수가 된다. 학습할 때에는 이 값을 주어 학습을 진행하지만, 결과를 예측할 때에는 이 값을 제외한 다른 예측 변수들만을 가지고 결과를 예측할 수 있다.
일실시예에 따른 학습데이터 생성부(120)는 사고 학습데이터를 통해 전체 사고를 기반으로 사고가 발생한 VDS 위치의 사고발생 시점으로 학습데이터를 생성할 수 있다. 비사고 학습데이터는 각 사고마다 사고가 발생한 VDS 위치의 매월 시간대별로 하나의 데이터를 임의로 학습데이터를 생성한다. 하나의 사고 위치에서 720개(30개월 * 24시간)의 비사고 학습데이터가 생성된다. 사고가 발생하지 않은 구간에 대해서는 도로형태, 도로선형 등의 정보를 알 수가 없기 때문에 학습데이터 생성에서 배제할 수 있다.
다시 도 1을 참고하면, 일실시예에 따른 오버 샘플링 처리부(130)는 생성된 학습데이터의 불균형을 맞추기 위해 생성된 학습데이터를 오버 샘플링할 수 있다.
생성된 학습데이터는 데이터의 불균형을 이루고 있다. 이런 불균형을 맞춰주기 위해 일실시예에 따른 오버 샘플링 처리부(130)는 학습데이터 생성 후 오버 샘플링 작업을 수행한다.
비사고 데이터와 사고 데이터는 많은 데이터 양의 차이를 보이므로 오버 샘플링 처리부(130)를 통해 사고 데이터를 오버 샘플링하여 그 차이를 좁힐 수 있다. 오버 샘플링은 데이터에 노이즈를 발생시킴으로 인해 기존의 데이터에서 값들이 일부 변한 새로운 데이터를 얻는 방법과 기존에 존재하는 데이터를 중복적으로 사용하여 데이터를 늘리는 방법이 있다. 노이즈를 활용하는 방법은 새로운 데이터와 같은 현실성을 줄 수 있지만, 결과 분석시 노이즈 정도에 따른 결과 분석에 추가적인 계산을 요구하며 높은 복잡도를 야기한다. 또한, 데이터의 중복은 쉬운 방법으로 데이터를 증대 시킬 수 있지만, 데이터의 계속적인 반복은 데이터의 특성을 변화시킬 수 있다. 그렇기에 학습데이터의 일부분씩 증대시키며 학습을 진행하며, 정확도가 급격히 변하는 구간까지 데이터를 증대 시킬 수 있다.
일실시예에 따른 분류 분석부(140)는 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성할 수 있다.
데이터는 각각의 고유의 특성을 띄고 있기 때문에 하나의 분류분석 방법으로 처리하는 것보다 일실시예에 따른 분류 분석부(140)를 이용한 군집분석을 통하여 데이터를 여러 개의 군집으로 나누고, 각 군집별로 분류분석을 수행하는 것이 더 높은 정확도를 가져올 수 있다. 이는 클래스를 나눔에 있어 각 군집의 특성이 영향을 미치는 것을 더 상세히 보일 수 있기 때문이다.
도 4는 이 내용을 간단한 예로 설명하고 있다.
도 4는 본 발명의 일실시예에 따른 군집분석 후 분류분석의 예를 설명하는 도면이다.
도 4에서 나오는 분류분석 모델은 모든 목표변수의 평균으로 목표변수 값을 예측하는 모델이다. 학습데이터는 흑색(410)과 백색(420)을 가지며 목표변수인 실수를 갖고 있다. 학습데이터로 흑색(410)이 3.5의 값을 갖는 데이터가 2개, 백색(420)이 각각 0.8, 0,9, 1.3의 값을 갖는 3개의 데이터가 존재한다. 이를 군집분석을 수행하지 않고 도면부호 430의 수식을 이용한 분류분석을 통해 백색(420)의 값을 예측한다면 목표변수(431)로서 2의 값을 예상할 수 있다. 이는 기존의 백색 값들과 비교했을 때, 이질적인 값이다. 그러나, 색을 기준으로 군집분석을 수행하고 도면부호 440의 수식을 이용한 각 군집별로 분류분석을 통해 백색 값을 예측한다면 목표변수(441)로서 1의 값을 예상할 수 있다. 기존의 백색 값들과 비교했을 때, 이전결과보다 조화로운 것을 알 수 있다.
다시 도 1을 참조하면, 일실시예에 따른 분류 분석부(140)는 군집 분석 시 나누고자 하는 군집의 수를 정해야하며, 각 군집에 데이터들이 비슷한 비율을 이루고 있는지를 확인해야 한다. 또한, 분류 분석부(140)는 나누어진 군집의 대표값을 찾는 작업을 수행할 수 있다.
일실시예에 따른 분류 분석부(140)는 속도가 빠르며 이해와 구현이 쉽고, Hadoop 환경에서도 활용이 가능한 K-평균(K-means) 군집 알고리즘을 활용할 수 있다. K-평균 군집 알고리즘은 데이터들을 K개의 군집으로 분해하는 거리에 기반을 둔 군집 알고리즘이다. 군집 유사성은 군집에서 군집의 무게중심으로 볼 수 있는 객체들의 평균값을 측정하여 기준점에 가까운 곳의 데이터들을 하나의 군집으로 묶는 방법이다. 나누는 K개의 개수에 따라 결과가 편이하게 달라지기 때문에 나누는 수를 정하는 것이 중요하다.
일실시예에 따른 분류 분석부(140)는 사고와 비사고 데이터를 Hadoop을 활용하여 K-평균 군집 알고리즘으로 군집분석할 수 있다. 나누는 수는 실험에 의한 경험적으로 결정될 수 있다.
분류분석에는 다양한 종류의 분석 방법이 있다. 데이터의 특색에 따라 분석 방법을 선택하여야 하며 단일 방법을 이외에도 복합적인 방법 또는 새로운 분류분석 방법을 제안하여 분석할 수 있다.
생성된 학습데이터를 정한 분류분석 알고리즘을 통하여 학습 모델을 만들 수 있다. 학습 모델은 학습데이터들을 기반으로 데이터를 분류하는 기준과도 같으며, 이 모델을 활용하여 예측 변수만으로 이루어진 새로운 데이터가 들어왔을 때, 추정되는 목표변수 값을 정하여 결과를 예측할 수 있다.
본 발명에서는 예측하고자 하는 목표변수가 사고 또는 비사고로 구분되는 이진 값을 갖기 때문에 일실시예에 따른 분류 분석부(140)는 로지스틱회귀 분석 방법을 활용할 수 있다. 이진형으로 구분될 때에 로지스틱회귀 분석 방법을 활용하면 선형판별 분석 방법과 유사한 결과를 얻을 수 있다. 또한 로지스틱회귀 분석 방법은 대용량 데이터 계산에서 처리속도의 이점이 있다.
일실시예에 따른 분류 분석부(140)는 군집분석을 통해 생성 된 여러 군집 각각에 분류 분석을 수행할 수 있다. 군집마다 다른 로지스틱회귀 분석방법을 적용하며 그 결과들을 취합하여 정오분류표로 나타낼 수 있다.
도 5는 본 발명의 일실시예에 따른 정오분류표(500) 예를 설명하는 도면이다.
데이터마이닝 방법의 성능을 비교할 때에는 다양한 척도가 존재하는데, 일실시예에 따른 분류 분석부는 이중에서 전체정확도와 목표정확도를 측정 척도로 활용할 수 있다. 전체정확도와 목표정확도는 도 5의 정오분류표(500)를 활용할 수 있다.
정오분류표(500)에서 True positive(TP)는 실제 양인 클래스를 양으로 처리한 양을 나타내고 True negative(TN)는 실제 음인 클래스를 음으로 처리한 양을 나타낸다. 그 반대로 False negative(FN)은 실제 양인 클래스를 음으로 처리한 양을 나타내고 False positive(FP)은 실제 음인 클래스를 양으로 잘못 처리한 양을 나타낸다. 이를 기반으로 하여, [수학식 1]을 통해 전체정확도를 산출할 수 있다.
[수학식 1]
Figure pat00001

목표 정확도는 Ture positive rate와 동일한
Figure pat00002
으로 나타낼 수 있으며, 그 반대의 개념인 False positive rate인
Figure pat00003
로 나타낼 수도 있다. 이 두 개념의 관계를 그래프로 나타내면 ROC 곡선(Receiver Operating Characteristic Curve)이 된다.
도 6은 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법을 설명하는 도면이다.
본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 데이터 전처리부를 통해, 교통 빅데이터를 전처리할 수 있다(단계 601).
본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 학습데이터 생성부를 통해, 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고(단계 602), 생성된 학습데이터모델에 기초하여, 교통 빅데이터로부터 학습데이터를 생성할 수 있다(단계 603).
예를 들어, 학습데이터를 생성하기 위해 목표 변수에 상응하는 특징점들을 기반으로 상기 교통 빅데이터로부터 학습데이터를 생성할 수 있다. 또한, 예측 변수로부터 목표 변수를 예측하는 상기 학습데이터모델을 생성하되, 예측 변수가 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함하도록 설정하고, 목표 변수가 교통 사고 여부에 대한 정보를 포함하도록 설정할 수 있다.
본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 오버 샘플링 처리부를 통해, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링할 수 있다(단계 604). 예를 들어, 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링할 수 있다. 이때, 관측 수가 작은 데이터들을 오버샘플링하기 때문에 데이터의 불균형 문제를 해결할 수 있다.
또한, 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 분류 분석부에서, 상기 오버 샘플링된 학습데이터를 분류 분석 및/또는 군집 분석하여 학습 모델을 생성할 수 있다(단계 605). 또한, 분류 분석부가 생성한 학습 모델은 입력으로부터 사고 예측 결과를 출력할 수 있다. 예를 들어, 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 의사결정 나무(Decision tree), 신경망(Neural network), Support Vector Machines(SVM), 로지스틱 회귀 분석(Regularized logistic regression) 등을 활용할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 교통사고 예측을 위한 시스템에 있어서,
    교통 빅데이터를 전처리하는 데이터 전처리부;
    전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고, 생성된 학습데이터모델에 기초하여, 상기 교통 빅데이터로부터 학습데이터를 생성하는 학습데이터 생성부;
    상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 오버 샘플링 처리부; 및
    상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 분류 분석부
    를 포함하고,
    상기 생성된 학습 모델은 입력으로부터 사고 예측 결과를 출력하는 대용량 불균형 데이터 분류분석 시스템.
  2. 제1항에 있어서,
    상기 학습데이터 생성부는 목표 변수에 상응하는 특징점들을 기반으로 상기 교통 빅데이터로부터 상기 학습데이터를 생성하는 대용량 불균형 데이터 분류분석 시스템.
  3. 제1항에 있어서,
    상기 학습데이터 생성부는
    예측 변수로부터 목표 변수를 예측하는 상기 학습데이터모델을 생성하는 대용량 불균형 데이터 분류분석 시스템.
  4. 제3항에 있어서,
    상기 예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함하는 대용량 불균형 데이터 분류분석 시스템.
  5. 제3항에 있어서,
    상기 목표 변수는 교통 사고 여부에 대한 정보를 포함하는 대용량 불균형 데이터 분류분석 시스템.
  6. 제1항에 있어서,
    상기 오버 샘플링 처리부는,
    상기 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링하는 대용량 불균형 데이터 분류분석 시스템.
  7. 제1항에 있어서,
    상기 분류 분석부는,
    군집분석을 통하여 상기 오버 샘플링된 학습 데이터를 복수의 군집으로 분류하고, 분류된 복수의 군집별로 분류분석을 수행하는 대용량 불균형 데이터 분류분석 시스템.
  8. 교통사고 예측을 위한 시스템의 동작 방법에 있어서,
    데이터 전처리부에서, 교통 빅데이터를 전처리하는 단계;
    학습데이터 생성부에서, 상기 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고, 생성된 학습데이터모델에 기초하여, 상기 교통 빅데이터로부터 학습데이터를 생성하는 단계;
    오버 샘플링 처리부에서, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 단계; 및
    분류 분석부에서, 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 단계
    를 포함하고,
    상기 생성된 학습 모델은 입력으로부터 사고 예측 결과를 출력하는 대용량 불균형 데이터 분류분석 방법.
  9. 제8항에 있어서,
    상기 학습데이터를 생성하는 단계는,
    목표 변수에 상응하는 특징점들을 기반으로 상기 교통 빅데이터로부터 상기 학습데이터를 생성하는 단계
    를 포함하는 대용량 불균형 데이터 분류분석 방법.
  10. 제8항에 있어서,
    상기 학습데이터를 생성하는 단계는,
    예측 변수로부터 목표 변수를 예측하는 상기 학습데이터모델을 생성하는 단계
    를 포함하는 대용량 불균형 데이터 분류분석 방법.
  11. 제10항에 있어서,
    상기 예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함하는 대용량 불균형 데이터 분류분석 방법.
  12. 제10항에 있어서,
    상기 목표 변수는 교통 사고 여부에 대한 정보를 포함하는 대용량 불균형 데이터 분류분석 방법.
  13. 제8항에 있어서,
    상기 오버 샘플링하는 단계는,
    상기 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링하는 단계
    를 포함하는 대용량 불균형 데이터 분류분석 방법.
  14. 제8항에 있어서,
    상기 분류 분석하여 학습 모델을 생성하는 단계는,
    군집분석을 통하여 상기 오버 샘플링된 학습 데이터를 복수의 군집으로 분류하고, 분류된 복수의 군집별로 분류분석을 수행하는 단계
    를 포함하는 대용량 불균형 데이터 분류분석 방법.
  15. 제8항 내지 제14항 중에서 어느 한 항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020130155808A 2013-12-13 2013-12-13 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법 KR101563406B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130155808A KR101563406B1 (ko) 2013-12-13 2013-12-13 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130155808A KR101563406B1 (ko) 2013-12-13 2013-12-13 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20150069424A true KR20150069424A (ko) 2015-06-23
KR101563406B1 KR101563406B1 (ko) 2015-10-26

Family

ID=53516548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130155808A KR101563406B1 (ko) 2013-12-13 2013-12-13 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101563406B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109495327A (zh) * 2018-12-28 2019-03-19 西安交通大学 一种基于大数据分析的用户活动异常检测和流量预测方法
KR20190032495A (ko) * 2016-07-21 2019-03-27 알리바바 그룹 홀딩 리미티드 평가 모델에 대한 모델링 방법 및 디바이스
US10296304B2 (en) 2017-04-28 2019-05-21 Nhn Entertainment Corporation Method and system for analyzing data based on block
KR101982753B1 (ko) * 2017-12-12 2019-05-27 (주)위세아이텍 열차사고 위험도 예측 장치 및 방법
CN109948732A (zh) * 2019-03-29 2019-06-28 济南大学 基于非平衡学习的异常细胞远处转移分类方法及系统
KR20190078693A (ko) * 2017-12-13 2019-07-05 재단법인대구경북과학기술원 학습 데이터의 분포 특성에 기초하여 학습 데이터를 생성하는 방법 및 장치
KR102042645B1 (ko) * 2018-12-21 2019-11-27 (주)위세아이텍 복합모형을 활용한 선로 위험도 예측 장치 및 방법
KR20200027834A (ko) * 2018-09-05 2020-03-13 성균관대학교산학협력단 불균형 데이터를 위한 리프리젠테이션 모델 기반의 데이터 처리 방법 및 장치
KR20200094938A (ko) * 2019-01-31 2020-08-10 동서대학교 산학협력단 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법
CN113469251A (zh) * 2021-07-02 2021-10-01 南京邮电大学 不平衡数据的分类方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102245270B1 (ko) 2019-02-25 2021-04-26 서강대학교 산학협력단 학습 데이터에 대한 오버샘플링 방법
KR102266950B1 (ko) 2019-03-25 2021-06-17 동서대학교 산학협력단 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법
KR102246456B1 (ko) * 2020-06-12 2021-04-30 주식회사 아이원시스템 도로교통 현장안전 지원을 위한 지능형 엣지 유닛 장치

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190032495A (ko) * 2016-07-21 2019-03-27 알리바바 그룹 홀딩 리미티드 평가 모델에 대한 모델링 방법 및 디바이스
US10296304B2 (en) 2017-04-28 2019-05-21 Nhn Entertainment Corporation Method and system for analyzing data based on block
KR101982753B1 (ko) * 2017-12-12 2019-05-27 (주)위세아이텍 열차사고 위험도 예측 장치 및 방법
KR20190078693A (ko) * 2017-12-13 2019-07-05 재단법인대구경북과학기술원 학습 데이터의 분포 특성에 기초하여 학습 데이터를 생성하는 방법 및 장치
KR20200027834A (ko) * 2018-09-05 2020-03-13 성균관대학교산학협력단 불균형 데이터를 위한 리프리젠테이션 모델 기반의 데이터 처리 방법 및 장치
KR102042645B1 (ko) * 2018-12-21 2019-11-27 (주)위세아이텍 복합모형을 활용한 선로 위험도 예측 장치 및 방법
CN109495327A (zh) * 2018-12-28 2019-03-19 西安交通大学 一种基于大数据分析的用户活动异常检测和流量预测方法
CN109495327B (zh) * 2018-12-28 2020-05-19 西安交通大学 一种基于大数据分析的用户活动异常检测和流量预测方法
KR20200094938A (ko) * 2019-01-31 2020-08-10 동서대학교 산학협력단 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법
CN109948732A (zh) * 2019-03-29 2019-06-28 济南大学 基于非平衡学习的异常细胞远处转移分类方法及系统
CN113469251A (zh) * 2021-07-02 2021-10-01 南京邮电大学 不平衡数据的分类方法

Also Published As

Publication number Publication date
KR101563406B1 (ko) 2015-10-26

Similar Documents

Publication Publication Date Title
KR101563406B1 (ko) 하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법
Neelakandan et al. RETRACTED ARTICLE: An automated exploring and learning model for data prediction using balanced CA-SVM
Duarte et al. Vehicle classification in distributed sensor networks
CN104503874A (zh) 一种云计算平台的硬盘故障预测方法
US20210192586A1 (en) Systems and Methods for Detecting and Responding to Anomalous Traffic Conditions
CN113254510B (zh) 业务风险客群的识别方法、装置、设备及存储介质
Dias et al. Predicting occupancy trends in Barcelona's bicycle service stations using open data
Song et al. A match‐then‐predict method for daily traffic flow forecasting based on group method of data handling
US20210020036A1 (en) Predicting short-term traffic flow congestion on urban motorway networks
CN114580263A (zh) 基于知识图谱的信息系统故障预测方法及相关设备
Sundar et al. Out-of-distribution detection in multi-label datasets using latent space of β-vae
KR20200115369A (ko) 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템
Hassanat et al. Magnetic force classifier: a Novel Method for Big Data classification
CA3194463A1 (en) Adversarial semi-supervised one-shot learning
Wang  Forecasting Bike Rental Demand Using New York Citi Bike Data
Sbai et al. A real-time decision support system for big data analytic: A case of dynamic vehicle routing problems
US7272583B2 (en) Using supervised classifiers with unsupervised data
Genkin et al. Autonomic workload change classification and prediction for big data workloads
Homayoun et al. A review on data stream classification approaches
Sisodia et al. Distinct multiple learner-based ensemble smotebagging (ML-ESB) method for classification of binary class imbalance problems
US20230058076A1 (en) Method and system for auto generating automotive data quality marker
CN113516302B (zh) 业务风险分析方法、装置、设备及存储介质
Kumar et al. Rule Extraction using Machine Learning Classifiers for Complex Event Processing
WO2022022059A1 (en) Context aware anomaly detection
CN112396236B (zh) 一种交通流量预测方法、系统、服务器和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181015

Year of fee payment: 4