KR101563406B1 - System and method for large unbalanced data classification based on hadoop - Google Patents

System and method for large unbalanced data classification based on hadoop Download PDF

Info

Publication number
KR101563406B1
KR101563406B1 KR1020130155808A KR20130155808A KR101563406B1 KR 101563406 B1 KR101563406 B1 KR 101563406B1 KR 1020130155808 A KR1020130155808 A KR 1020130155808A KR 20130155808 A KR20130155808 A KR 20130155808A KR 101563406 B1 KR101563406 B1 KR 101563406B1
Authority
KR
South Korea
Prior art keywords
data
learning data
learning
model
generated
Prior art date
Application number
KR1020130155808A
Other languages
Korean (ko)
Other versions
KR20150069424A (en
Inventor
하영국
박성훈
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to KR1020130155808A priority Critical patent/KR101563406B1/en
Publication of KR20150069424A publication Critical patent/KR20150069424A/en
Application granted granted Critical
Publication of KR101563406B1 publication Critical patent/KR101563406B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Abstract

본 발명은 교통사고 예측을 위한 MapReduce 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법에 관한 것으로서, 일실시예에 따른 대용량 불균형 데이터 분류분석 시스템은 교통 빅데이터를 전처리하는 데이터 전처리부, 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고, 생성된 학습데이터모델에 기초하여, 상기 교통 빅데이터로부터 학습데이터를 생성하는 학습데이터 생성부, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 오버 샘플링 처리부, 및 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 분류 분석부를 포함하고, 상기 생성된 학습 모델은 입력으로부터 사고 예측 결과를 출력할 수 있다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a large capacity unbalanced data classification and analysis system based on MapReduce for predicting traffic accidents and a large capacity unbalanced data classification and analysis system according to an embodiment of the present invention includes a data preprocessing unit for preprocessing traffic big data, A learning data generation unit for generating a learning data model based on the generated learning data model and generating learning data from the traffic big data based on the generated learning data model; An oversampling processor for oversampling the training data and a classification analyzer for generating a training model by classifying and analyzing the oversampled training data, and the generated learning model can output an accident prediction result from an input.

Description

하둡 기반의 대용량 불균형 데이터 분류분석 시스템 및 방법{SYSTEM AND METHOD FOR LARGE UNBALANCED DATA CLASSIFICATION BASED ON HADOOP}[0001] SYSTEM AND METHOD FOR LARGE UNBALANCED DATA CLASSIFICATION BASED ON HADOOP [0002]

본 발명은 분산 병렬 분류분석을 이용하여 과거의 이벤트에 대한 대용량의 불균형 데이터를 효과적으로 분류분석하여 현재의 상황에서의 특정 이벤트의 발생 가능성을 예측하는 기술에 관한 것이다.The present invention relates to a technology for efficiently classifying and analyzing large-capacity imbalance data for past events using distributed parallel classification analysis to predict the probability of occurrence of a specific event in a current situation.

빅데이터라는 키워드의 등장과 함께 다양한 분야에서는 기존의 과거 데이터들을 다시 한 번 돌아보게 됐으며, 그런 데이터들을 분석하여 새로운 결과를 도출하거나 새로운 결과를 예측하는 것은 오늘날 뜨거운 감자와 같다. 데이터 분석을 통한 예측은 주로 과거데이터를 기반으로 학습을 통한 데이터마이닝 기법 중 분류분석(Classification)을 통해 이루어진다. 분류분석은 주어지는 학습데이터를 학습하여 답을 얻고자 하는 목표 변수에 판단 기준이 되는 학습모델을 만들고, 이를 기반으로 새로운 예측 변수로 이루어진 데이터가 주어졌을 때, 모델은 결과를 기존 내용을 모방하여 예측한다. 이런 일련의 작업과정을 위해서는 충분한 학습데이터 확보가 필요하다.With the advent of the Big Data keyword, we have once again looked back at historical data in many areas, and analyzing such data to derive new results or predict new outcomes is like hot potatoes today. Prediction through data analysis is mainly performed through classification of data mining techniques through learning based on past data. In the classification analysis, a learning model that is a criterion for a target variable to be learned by learning the given learning data is created, and when given data consisting of new prediction parameters based on this, the model implements the prediction do. This process requires sufficient learning data.

기존에 존재하는 데이터와 계속적으로 새로운 데이터들이 생성되지만, 새로운 예측모델을 만드는 것 외에도 예측 모델의 구축에는 몇 가지 문제점이 있다.
Although existing data and new data are continuously generated, in addition to creating a new prediction model, there are some problems in building a prediction model.

첫 번째 문제로는 데이터의 불균형 문제이다. 데이터의 불균형이란 하나의 데이터 셋에서 관측되는 데이터 집단들 간에 관측 크기 차이가 크게 나는 것으로, 신용카드 회원 중 기존 회원과 탈퇴 회원, 우리나라의 기상 중 맑은 날씨와 태풍, 통신사 고객 중 기존 회원과 탈퇴 회원, 또는 교통 데이터 중 비사고 관련 데이터와 사고 관련 데이터와 같은 데이터가 관측되는 수의 차이가 현저히 차이 나는 것을 말한다. 이런 데이터의 불균형인 상태로 학습을 진행하고 학습모델을 생성한다면, 학습 모델은 관측 수가 큰 결과만을 예상하는 왜곡된 결과 값만을 예측하게 된다. 데이터 불균형 문제를 해결하기 위해 가중치(Weight)를 활용하는 방법과 샘플링(Sampling) 방법이 있다. 가중치 활용 방법은 관측수가 적은 데이터에는 높은 가중치를 부여하고 관측수가 많은 데이터에는 낮은 가중치를 부여하여 가중치 값을 참조하여 분석 모델을 생성하는 방법이다. 이는 가중치 값을 정하는 것과 결과 분석에 대한 계산 복잡도를 야기한다. 샘플링 방법은 관측되는 수가 적은 클래스 데이터는 모두 사용하며 관측수가 큰 클래스의 데이터는 일부만을 사용하는 언더 샘플링(Under-Sampling)과 관측되는 수가 많은 클래스 데이터는 모두 사용하며 관측수가 적은 클래스의 데이터는 증대시켜 사용하는 오버 샘플링(Over-Sampling)이 있다. 언더 샘플링은 전체 데이터에서 일부를 손해 본 후 계산이 수행된다. 이를 통해 데이터의 처리속도 측면에서는 유리할 수 있지만, 데이터의 신뢰도는 손실할 수밖에 없다. 오버 샘플링은 전체 데이터를 모두 활용할 수 있다는 장점이 있지만, 대용량 데이터인 경우 전체 데이터에서 추가로 데이터가 더 발생하기 때문에 데이터를 처리하기 위한 더 많은 자원을 요구한다.
The first problem is data imbalance. Data imbalance is a large difference in observation size among data groups observed in one data set. It means that existing members and withdrawn members of credit card members, clear weather and typhoon in Korea weather, Or traffic data, such as accident-related data and incident-related data, are significantly different from each other. If learning is done in an unbalanced state of this data and a learning model is created, the learning model predicts only the distorted result which expects only a large number of observations. To solve the data imbalance problem, there is a method of utilizing the weight and a sampling method. The weighting method is a method of assigning a high weight to data with a small number of observations and a low weight to a data having a large number of observations and generating an analysis model by referring to the weight value. This results in a weighting value and computational complexity for the result analysis. The sampling method uses all the class data with a small number of observations. Under-sampling using only a small number of observed data and all the class data having a large number of observations are used. (Over-Sampling) is used. Undersampling is performed after loss of some of the data. Although this can be advantageous in terms of data processing speed, data reliability is inevitably lost. While oversampling has the advantage of being able to take advantage of all of the data, large amounts of data require more resources to process the data, as more data is generated in the entire data.

두 번째 문제는 학습데이터 생성을 위한 데이터의 처리다. 학습데이터는 목표 변수에 영향을 끼치는 여러 특징점들의 집합으로 이루어진다. 이는 여러 종류의 데이터의 분석을 요구할 수도, 또는 빅데이터의 분석을 요구할 수도 있다. 이런 데이터 분석 및 처리 과정은 많은 하드웨어적 자원을 요구한다. 이것은 분석대상이 되는 데이터가 점차 커짐에 따라 처리속도, 요구자원 또한 계속적으로 증가하는 결과를 야기한다.The second problem is the processing of data for generating learning data. The learning data consists of a set of minutiae that affect the target variable. This may require analysis of different kinds of data, or may require analysis of big data. This data analysis and processing process requires a lot of hardware resources. This results in a continuous increase in the processing speed and the required resources as the data to be analyzed becomes larger.

일실시예에 따른 대용량 불균형 데이터 분류분석 시스템은 빅데이터를 전처리하는 데이터 전처리부, 상기 전처리된 빅데이터를 통합하여 학습데이터모델을 생성하고, 상기 생성된 학습데이터모델에 기초하여, 상기 빅데이터로부터 학습데이터를 생성하는 학습데이터 생성부, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 오버 샘플링 처리부, 및 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 분류 분석부를 포함하고, 상기 생성된 학습 모델을 이용하여 예측 결과를 출력할 수 있다.
일실시예에 따른 상기 학습데이터 생성부는 목표 변수에 상응하는 특징점들을 기반으로 상기 빅데이터로부터 상기 학습데이터를 생성할 수 있다.
일실시예에 따른 상기 학습데이터 생성부는 예측 변수로부터 목표 변수를 예측하는 상기 학습데이터모델을 생성할 수 있다.
일실시예에 따른 상기 예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함할 수 있다.
일실시예에 따른 상기 목표 변수는 교통 사고 여부에 대한 정보를 포함할 수 있다.
일실시예에 따른 상기 오버 샘플링 처리부는, 상기 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링할 수 있다.
일실시예에 따른 상기 분류 분석부는, 군집분석을 통하여 상기 오버 샘플링된 학습데이터를 복수의 군집으로 분류하고, 분류된 복수의 군집별로 분류분석을 수행할 수 있다.
일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 데이터 전처리부에서, 빅데이터를 전처리하는 단계, 학습데이터 생성부에서, 상기 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고, 상기 생성된 학습데이터모델에 기초하여, 상기 교통 빅데이터로부터 학습데이터를 생성하는 단계, 오버 샘플링 처리부에서, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 단계, 및 분류 분석부에서, 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 단계를 포함하고, 상기 생성된 학습 모델을 이용하여 예측 결과를 출력할 수 있다.
일실시예에 따른 상기 학습데이터를 생성하는 단계는, 목표 변수에 상응하는 특징점들을 기반으로 상기 빅데이터로부터 상기 학습데이터를 생성할 수 있다.
일실시예에 따른 상기 학습데이터를 생성하는 단계는, 예측 변수로부터 목표 변수를 예측할 수 있다.
일실시예에 따른 상기 예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함할 수 있다.
일실시예에 따른 상기 목표 변수는 교통 사고 여부에 대한 정보를 포함할 수 있다.
일실시예에 따른 상기 오버 샘플링하는 단계는, 상기 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링하는 단계를 포함할 수 있다.
일실시예에 따른 상기 분류 분석하여 학습 모델을 생성하는 단계는, 군집분석을 통하여 상기 오버 샘플링된 학습데이터를 복수의 군집으로 분류하고, 분류된 복수의 군집별로 분류분석을 수행하는 단계를 포함할 수 있다.
A large capacity unbalance data classification and analysis system according to an embodiment includes a data preprocessing unit for preprocessing big data, a learning data model is generated by integrating the preprocessed big data, and based on the generated learning data model, An oversampling processing unit for oversampling the generated learning data so as to match the generated learning data; and a classification unit for classifying and analyzing the oversampled learning data to generate a learning model And an analysis unit, and output the prediction result using the generated learning model.
The learning data generation unit may generate the learning data from the big data based on the minutiae corresponding to the target variable.
The learning data generation unit may generate the learning data model for predicting a target variable from a predictive variable.
The prediction parameter according to an embodiment may include at least one of a time of occurrence of a traffic accident, road situation information, and weather information.
The target variable according to one embodiment may include information on whether or not a traffic accident occurred.
The oversampling processing unit according to an embodiment may oversample accident data in the generated learning data.
The classification analyzer according to an exemplary embodiment may classify the oversampled learning data into a plurality of clusters through a cluster analysis, and perform classification analysis on the plurality of clusters classified.
In the large capacity unbalance data classification and analysis method according to an embodiment of the present invention, the data preprocessing unit preprocesses the big data and the learning data generation unit generates the learning data model by integrating the preprocessed traffic big data, Generating training data from the traffic big data based on a data model; oversampling the generated learning data to match an imbalance of the generated learning data in an oversampling processing section; And generating a learning model by classifying and analyzing the oversampled learning data, and outputting the prediction result using the generated learning model.
The step of generating the learning data according to an embodiment may generate the learning data from the big data based on the minutiae corresponding to the target variable.
The step of generating the learning data according to an embodiment may predict a target variable from a predicted variable.
The prediction parameter according to an embodiment may include at least one of a time of occurrence of a traffic accident, road situation information, and weather information.
The target variable according to one embodiment may include information on whether or not a traffic accident occurred.
The oversampling according to an exemplary embodiment may include oversampling the incident data among the generated learning data.
The step of generating the learning model by the classification analysis according to an embodiment may include classifying the oversampled learning data into a plurality of clusters through cluster analysis and performing classification analysis on the plurality of clusters classified .

도 1은 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 시스템을 설명하는 도면이다.
도 2는 본 발명의 일실시예에 따른 교통 및 사고 데이터의 사용 변수를 설명하는 도면이다.
도 3은 본 발명의 일실시예에 따른 학습데이터모델을 설명하는 도면이다.
도 4는 본 발명의 일실시예에 따른 군집분석 후 분류분석의 예를 설명하는 도면이다.
도 5는 본 발명의 일실시예에 따른 정오분류표 예를 설명하는 도면이다.
도 6은 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법을 설명하는 도면이다.
1 is a view for explaining a large capacity unbalance data classification and analysis system according to an embodiment of the present invention.
2 is a diagram for explaining usage parameters of traffic and accident data according to an exemplary embodiment of the present invention.
3 is a diagram for explaining a learning data model according to an embodiment of the present invention.
4 is a view for explaining an example of classification analysis after cluster analysis according to an embodiment of the present invention.
5 is a view for explaining an example of a noon classification table according to an embodiment of the present invention.
6 is a view for explaining a large capacity unbalance data classification analysis method according to an embodiment of the present invention.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.

본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 바람직한 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.In the following description of the present invention, detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. The terminologies used herein are terms used to properly represent preferred embodiments of the present invention, which may vary depending on the user, the intent of the operator, or the practice of the field to which the present invention belongs. Therefore, the definitions of these terms should be based on the contents throughout this specification. Like reference symbols in the drawings denote like elements.

본 발명과 종래 기술과의 차이점은 첨부된 도면을 참조한 상세한 설명과 특허청구범위를 통하여 명백하게 될 것이다. 특히, 본 발명은 특허청구범위에서 잘 지적되고 명백하게 청구된다. 그러나, 본 발명은 첨부된 도면과 관련해서 다음의 상세한 설명을 참조함으로써 가장 잘 이해될 수 있다. 도면에 있어서 동일한 참조부호는 다양한 도면을 통해서 동일한 구성요소를 나타낸다.
도 1은 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 시스템(100)을 설명하는 도면이다.
대용량 불균형 데이터 분류분석 시스템(100)은 Hadoop과 같은 소프트웨어를 을 기반으로 전체 시스템이 구성될 수 있다. 데이터 전처리, 학습데이터 생성, 오버 샘플링은 Hive와 함께 사용될 수 있다. 군집 분석과 분류 분석 두 단계는 예를 들어 Mahout과 같은 프로그램을 이용할 수 있다.
The differences between the present invention and the prior art will be apparent from the detailed description and claims that follow with reference to the accompanying drawings. In particular, the invention is well pointed out and distinctly claimed in the claims. The invention, however, may best be understood by reference to the following detailed description when taken in conjunction with the accompanying drawings. Like reference numerals in the drawings denote like elements throughout the various views.
1 is a diagram for explaining a large capacity unbalance data classification and analysis system 100 according to an embodiment of the present invention.
The large capacity imbalance data classification and analysis system 100 can be configured as an entire system based on software such as Hadoop. Data preprocessing, training data generation, and oversampling can be used with Hive. Cluster Analysis and Classification Analysis Two steps can be used, for example, programs such as Mahout.

삭제delete

삭제delete

Hive는 분산 스토리지에 저장된 대용량 데이터의 조회 및 관리를 용이하게 해주는 툴로써 HiveQL인 SQL과 흡사한 언어를 사용하여 데이터를 조회하는 구조를 갖고 있다. Mahout은 기계학습 라이브러리의 집합으로 MapReduce환경의 Hadoop에서 군집분석과 분류분석 알고리즘을 쉽게 구현할 수 있다.Hive is a tool that facilitates the retrieval and management of large amounts of data stored in distributed storage. It is structured to query data using a language similar to SQL, HiveQL. Mahout is a set of machine learning libraries that can easily implement cluster analysis and classification analysis algorithms in Hadoop in MapReduce environment.

이하에서는, 각 구성요소 별로 상세히 설명하며, 본 발명에서 실험하는 교통사고 예측 분류분석을 위해 수행할 작업들을 각 단계에 맞게 설명한다.Hereinafter, each component will be described in detail, and the tasks to be performed for the traffic accident prediction classification analysis to be tested in the present invention will be described according to each step.

구체적으로, 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 시스템(100)은 데이터 전처리부(110), 학습데이터 생성부(120), 오버 샘플링 처리부(130), 및 분류 분석부(140)를 포함할 수 있다.In detail, the large capacity unbalance data classification and analysis system 100 according to an embodiment of the present invention includes a data preprocessing unit 110, a learning data generation unit 120, an oversampling processing unit 130, and a classification analysis unit 140, . ≪ / RTI >

일실시예에 따른 데이터 전처리부(110)는 교통 빅데이터를 전처리할 수 있다.The data preprocessing unit 110 according to an exemplary embodiment may preprocess traffic big data.

고속도로 교통 빅데이터에서 학습을 위해 사용할 데이터의 변수 선택과 각 변수들의 이상 값을 처리하는 데이터 전처리가 필요하다. 학습에 사용할 데이터의 변수 선정은 각 변수의 특성과 전체 데이터에서 각 변수의 누락율을 고려하여 선정할 수 있다. 이상 값의 처리는 각 변수의 값을 고려하여 누락 또는 기본 값으로 대체할 수 있고, 사용하고자 하는 데이터들의 형식이 서로 다르기에 같은 포맷으로 맞추어 주는 과정 등이 데이터 전처리부(110)의 전처리 과정에서 수행될 수 있다.It is necessary to select variable of data to be used for learning in highway traffic big data and data preprocessing to process ideal value of each variable. The selection of the variables of the data to be used for learning can be selected by considering the characteristics of each variable and the missing ratio of each variable in the whole data. The process of the ideal value can be omitted or replaced with the default value in consideration of the value of each variable, and the process of adjusting the format of the data to be used in the same format as the format of the data to be used is different from the process of preprocessing the data preprocessing unit 110 .

교통 및 사고 원시데이터에서는 도 2의 표(200)와 같은 데이터를 최종적으로 사용할 수 있다. Data such as the table 200 of FIG. 2 may ultimately be used for traffic and accident source data.

도 2는 본 발명의 일실시예에 따른 교통 및 사고 데이터의 사용 변수를 설명하는 도면이다.2 is a diagram for explaining usage parameters of traffic and accident data according to an exemplary embodiment of the present invention.

표(200)에서 보는 바와 같이, 교통 데이터는 전체 변수를 사용하였으나, 사고 데이터에서는 사망자수, 중상자수, 경상자수, 사고자#1, 사고자#2의 값을 제외할 수 있는데, 이 변수들은 통일된 규칙이 없으며 기록자가 자연어로 서술한 점과 사고 발생 이전에 있어 사고에 영향을 미치기보다는 사고가 일어난 후에 결과를 나타내는 값들로써 사용되는 변수로 사용 변수에서는 배제할 수 있다.As shown in the table (200), the traffic data used the entire variables, but in the accident data, the values of the number of deaths, serious injuries, minor injuries, accidents # 1 and # 2 can be excluded. There is no unified rule, and it can be excluded from the use variable as a recorder's description in natural language and as a value used to represent the result after the accident rather than affecting the accident before the accident.

표(200)에서 보는 바와 같이, 위치표기는 교통 데이터의 VDS ID를 활용할 수 있고, 사고데이터에서는 이정을 사용하여 나타내고 있다. 두 데이터의 위치 표기를 같게 해주기 위해 사고데이터의 이정을 VDS ID로 변환하여 교통 데이터와 사고데이터가 매칭될 수 있다.As shown in the table 200, the location indication can utilize the VDS ID of the traffic data, and the accident data shows this using the map. In order to equalize the location of the two data, the data of the accident data is converted into the VDS ID so that the traffic data and the accident data can be matched.

다시 도 1을 참고하면, 일실시예에 따른 학습데이터 생성부(120)는 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고, 생성된 학습데이터모델에 기초하여, 상기 교통 빅데이터로부터 학습데이터를 생성할 수 있다.Referring again to FIG. 1, the learning data generation unit 120 according to an embodiment generates a learning data model by integrating the preprocessed traffic big data, and based on the generated learning data model, Data can be generated.

학습데이터를 생성하기 위해 전처리된 여러 데이터들을 합쳐 하나의 학습데이터모델을 생성하고 그에 맞게 데이터들을 변환하여 학습데이터를 생성할 수 있다. 학습데이터 생성 시 목표 변수에 영향을 미치는 특징점들을 고려하여야 한다. 학습데이터 생성에 있어 학습데이터의 모델을 만들며 데이터의 변수들을 효율적으로 사용하기 위해 ID 값 또는 인덱스 값을 활용할 수 있다.To generate the learning data, a plurality of pre-processed data may be combined to generate one learning data model, and the learning data may be generated by converting the data. Feature points affecting target variables should be considered when generating learning data. In the generation of learning data, a model of learning data can be created and an ID value or an index value can be utilized to efficiently use the data variables.

일례로, 목표 변수는 교통 사고 여부에 대한 정보를 포함할 수 있다.For example, the target variable may include information on whether or not a traffic accident occurred.

일실시예에 따른 학습데이터 생성부(120)는 전처리 된 교통 빅데이터를 갖고 고속도로 교통사고 예측 학습데이터모델을 도 3과 같이 생성할 수 있다.The learning data generation unit 120 according to an embodiment can generate a highway traffic accident prediction prediction learning data model with preprocessed traffic big data as shown in FIG.

도 3은 본 발명의 일실시예에 따른 학습데이터모델(300)을 설명하는 도면이다.3 is a diagram for explaining a learning data model 300 according to an embodiment of the present invention.

학습데이터모델(300)은 사고의 발생 시점으로부터 일정 시간(3분)동안 그 위치의 고속도로 상황에 의해서 사고가 발생했다는 가정 하에 만든 학습데이터모델이다. 학습데이터모델(300)은 사고가 발생한 시점을 나타내기 위해 발생 월과 요일을 사용하며, 시간대를 나타내기 위하여 6시간 단위(0 ~ 6시: 새벽, 6 ~ 12시: 오전, 12 ~ 18시: 오후, 18 ~ 24시: 밤)로 나누어 각 순번으로 나타낼 수 있다. 이는 학습 변수들이 결과에 영향을 미치는 것을 효과적으로 하기 위함이다. 또한 차로 수, 도로형태, 도로선형, 날씨를 통해 사고가 발생한 주변 요소를 나타내며, 각 차로별로 사고 발생 이전 3분간 교통 상황을 30초 단위로 나타내 사고 발생 이전의 도로 상황을 나타낸다. 요일, 사고유형, 도로형태, 도로선형, 날씨는 카테고리의 값을 가지며 이를 효율적으로 나타내기 위해 인덱스 번호를 대신하여 사용할 수 있다. 지금까지 설명한 변수들은 목표 변수를 예측하기 위해 사용하는 예측 변수들이다. The learning data model 300 is a learning data model created under the assumption that an accident occurred due to the highway situation at the position for a certain period of time (3 minutes) from the time of occurrence of the accident. The learning data model 300 uses the occurrence month and the day of the week to indicate the time when the accident occurred, and a 6-hour unit (0 to 6 o'clock: Dawn, 6 to 12 o'clock in the morning, 12 to 18 o'clock : Afternoon, 18-24: night), and can be expressed in each order. This is to ensure that the learning variables influence the outcome. In addition, it shows the number of cars, roads, roads, and surrounding elements in which the accident occurred through the weather. Each lane represents the traffic situation before the accident. The day of the week, incident type, road type, road alignment, and weather have category values and can be used in place of the index number to indicate this efficiently. The variables described so far are predictive variables used to predict the target variable.

예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함할 수 있다.The predictive parameter may include at least one of a time of occurrence of a traffic accident, road situation information, and weather information.

사고 학습데이터와 비사고 학습데이터를 구별하기 위해 이진 값을 갖는 사고 데이터 여부 변수를 이용할 수 있다. 이 변수는 분류분석을 통해 구하려는 목표변수가 된다. 학습할 때에는 이 값을 주어 학습을 진행하지만, 결과를 예측할 때에는 이 값을 제외한 다른 예측 변수들만을 가지고 결과를 예측할 수 있다.In order to distinguish accident learning data from non-accident learning data, an accident data presence variable having a binary value can be used. This variable is the target variable to be obtained through classification analysis. In learning, the learning is performed by giving this value. However, when predicting the result, it is possible to predict the result with only the other predictor except for this value.

일실시예에 따른 학습데이터 생성부(120)는 사고 학습데이터를 통해 전체 사고를 기반으로 사고가 발생한 VDS 위치의 사고발생 시점으로 학습데이터를 생성할 수 있다. 비사고 학습데이터는 각 사고마다 사고가 발생한 VDS 위치의 매월 시간대별로 하나의 데이터를 임의로 학습데이터를 생성한다. 하나의 사고 위치에서 720개(30개월 * 24시간)의 비사고 학습데이터가 생성된다. 사고가 발생하지 않은 구간에 대해서는 도로형태, 도로선형 등의 정보를 알 수가 없기 때문에 학습데이터 생성에서 배제할 수 있다.The learning data generation unit 120 according to the embodiment can generate the learning data at the time of the occurrence of the accident at the VDS location where the accident occurred based on the entire accident through the accident learning data. The non-accident learning data is generated by randomly generating one piece of data for each month in the VDS location where an accident occurs for each accident. 720 (30 months * 24 hours) non-accident learning data are generated at one accident location. Since the information such as the road shape and the road alignment can not be known for the section in which the accident has not occurred, it can be excluded from the learning data generation.

다시 도 1을 참고하면, 일실시예에 따른 오버 샘플링 처리부(130)는 생성된 학습데이터의 불균형을 맞추기 위해 생성된 학습데이터를 오버 샘플링할 수 있다.Referring again to FIG. 1, the oversampling processing unit 130 according to the embodiment may oversample the generated learning data to match the generated learning data.

생성된 학습데이터는 데이터의 불균형을 이루고 있다. 이런 불균형을 맞춰주기 위해 일실시예에 따른 오버 샘플링 처리부(130)는 학습데이터 생성 후 오버 샘플링 작업을 수행한다. The generated learning data is an imbalance of data. In order to compensate for such an imbalance, the oversampling processing unit 130 according to an embodiment performs oversampling operation after generating learning data.

비사고 데이터와 사고 데이터는 많은 데이터 양의 차이를 보이므로 오버 샘플링 처리부(130)를 통해 사고 데이터를 오버 샘플링하여 그 차이를 좁힐 수 있다. 오버 샘플링은 데이터에 노이즈를 발생시킴으로 인해 기존의 데이터에서 값들이 일부 변한 새로운 데이터를 얻는 방법과 기존에 존재하는 데이터를 중복적으로 사용하여 데이터를 늘리는 방법이 있다. 노이즈를 활용하는 방법은 새로운 데이터와 같은 현실성을 줄 수 있지만, 결과 분석시 노이즈 정도에 따른 결과 분석에 추가적인 계산을 요구하며 높은 복잡도를 야기한다. 또한, 데이터의 중복은 쉬운 방법으로 데이터를 증대 시킬 수 있지만, 데이터의 계속적인 반복은 데이터의 특성을 변화시킬 수 있다. 그렇기에 학습데이터의 일부분씩 증대시키며 학습을 진행하며, 정확도가 급격히 변하는 구간까지 데이터를 증대 시킬 수 있다.Since the non-accident data and the accident data show a large difference in the amount of data, the oversampling processor 130 can oversample the accident data to narrow the difference. Oversampling is a method of obtaining new data in which values are changed in existing data due to noise in data and a method of increasing data by using existing data redundantly. Using the noise can give the same reality as the new data, but it results in high complexity by requiring additional calculation to analyze the result according to the degree of noise in the result analysis. In addition, redundancy of data can increase data in an easy way, but continuous repetition of data can change the characteristics of the data. Therefore, it is possible to increase the data to a section where the learning data is increased and the accuracy is rapidly changed.

일실시예에 따른 분류 분석부(140)는 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성할 수 있다.The classification analyzer 140 according to an embodiment can generate a learning model by classifying and analyzing the oversampled learning data.

데이터는 각각의 고유의 특성을 띄고 있기 때문에 하나의 분류분석 방법으로 처리하는 것보다 일실시예에 따른 분류 분석부(140)를 이용한 군집분석을 통하여 데이터를 여러 개의 군집으로 나누고, 각 군집별로 분류분석을 수행하는 것이 더 높은 정확도를 가져올 수 있다. 이는 클래스를 나눔에 있어 각 군집의 특성이 영향을 미치는 것을 더 상세히 보일 수 있기 때문이다. Since the data has unique characteristics, the data is divided into several clusters by analyzing the clusters using the classification analyzer 140 according to one embodiment rather than by one classification analysis method, Performing the analysis can lead to higher accuracy. This is because it is possible to show in more detail how the characteristics of each cluster affect class sharing.

도 4는 이 내용을 간단한 예로 설명하고 있다. Figure 4 illustrates this with a simple example.

도 4는 본 발명의 일실시예에 따른 군집분석 후 분류분석의 예를 설명하는 도면이다.4 is a view for explaining an example of classification analysis after cluster analysis according to an embodiment of the present invention.

도 4에서 나오는 분류분석 모델은 모든 목표변수의 평균으로 목표변수 값을 예측하는 모델이다. 학습데이터는 흑색(410)과 백색(420)을 가지며 목표변수인 실수를 갖고 있다. 학습데이터로 흑색(410)이 3.5의 값을 갖는 데이터가 2개, 백색(420)이 각각 0.8, 0,9, 1.3의 값을 갖는 3개의 데이터가 존재한다. 이를 군집분석을 수행하지 않고 도면부호 430의 수식을 이용한 분류분석을 통해 백색(420)의 값을 예측한다면 목표변수(431)로서 2의 값을 예상할 수 있다. 이는 기존의 백색 값들과 비교했을 때, 이질적인 값이다. 그러나, 색을 기준으로 군집분석을 수행하고 도면부호 440의 수식을 이용한 각 군집별로 분류분석을 통해 백색 값을 예측한다면 목표변수(441)로서 1의 값을 예상할 수 있다. 기존의 백색 값들과 비교했을 때, 이전결과보다 조화로운 것을 알 수 있다.The classification analysis model shown in FIG. 4 is a model for predicting a target variable value as an average of all target variables. The learning data has black 410 and white 420 and has a target variable, real number. There are three pieces of data in which black 410 has two values of 3.5 and white 420 has values of 0.8, 0.9, and 1.3, respectively, as learning data. If the value of the white color 420 is predicted through the classification analysis using the equation 430 without performing the cluster analysis, a value of 2 can be expected as the target variable 431. This is a heterogeneous value when compared to existing white values. However, if the cluster analysis is performed based on the color and the white value is predicted through classification analysis for each cluster using the equation 440, a value of 1 can be expected as the target variable 441. Compared to the previous white values, it is more harmonious than the previous results.

다시 도 1을 참조하면, 일실시예에 따른 분류 분석부(140)는 군집 분석 시 나누고자 하는 군집의 수를 정해야하며, 각 군집에 데이터들이 비슷한 비율을 이루고 있는지를 확인해야 한다. 또한, 분류 분석부(140)는 나누어진 군집의 대표값을 찾는 작업을 수행할 수 있다.Referring again to FIG. 1, the classification analyzer 140 according to an exemplary embodiment should determine the number of clusters to be divided in the cluster analysis, and confirm whether the data are similar to each cluster. In addition, the classification analyzer 140 may perform a task of finding representative values of the divided clusters.

일실시예에 따른 분류 분석부(140)는 속도가 빠르며 이해와 구현이 쉽고, Hadoop 환경에서도 활용이 가능한 K-평균(K-means) 군집 알고리즘을 활용할 수 있다. K-평균 군집 알고리즘은 데이터들을 K개의 군집으로 분해하는 거리에 기반을 둔 군집 알고리즘이다. 군집 유사성은 군집에서 군집의 무게중심으로 볼 수 있는 객체들의 평균값을 측정하여 기준점에 가까운 곳의 데이터들을 하나의 군집으로 묶는 방법이다. 나누는 K개의 개수에 따라 결과가 편이하게 달라지기 때문에 나누는 수를 정하는 것이 중요하다. The classification analyzer 140 according to an embodiment can utilize a K-means clustering algorithm that is fast, easy to understand and implement, and utilizable in a Hadoop environment. The K-mean clustering algorithm is a distance-based clustering algorithm that decomposes the data into K clusters. The cluster similarity measures the average value of the objects that can be viewed as the center of gravity of the cluster in the cluster, and the data near the reference point is grouped into one cluster. It is important to determine the number of divisions because the result varies with the number of K divisions.

일실시예에 따른 분류 분석부(140)는 사고와 비사고 데이터를 Hadoop을 활용하여 K-평균 군집 알고리즘으로 군집분석할 수 있다. 나누는 수는 실험에 의한 경험적으로 결정될 수 있다.The classification analyzer 140 according to an embodiment can analyze the accident and accident data using a K-average clustering algorithm using Hadoop. The number of divisions can be determined experimentally.

분류분석에는 다양한 종류의 분석 방법이 있다. 데이터의 특색에 따라 분석 방법을 선택하여야 하며 단일 방법을 이외에도 복합적인 방법 또는 새로운 분류분석 방법을 제안하여 분석할 수 있다.There are various kinds of analysis methods for classification analysis. The analysis method should be selected according to the characteristics of the data, and a complex method or a new classification analysis method can be proposed and analyzed in addition to the single method.

생성된 학습데이터를 정한 분류분석 알고리즘을 통하여 학습 모델을 만들 수 있다. 학습 모델은 학습데이터들을 기반으로 데이터를 분류하는 기준과도 같으며, 이 모델을 활용하여 예측 변수만으로 이루어진 새로운 데이터가 들어왔을 때, 추정되는 목표변수 값을 정하여 결과를 예측할 수 있다.A learning model can be created through a classification analysis algorithm that defines the generated learning data. The learning model is the same as the criterion for classifying data based on learning data. When new data consisting only of predictive variables comes in using this model, the estimated target variable value can be determined and the result can be predicted.

본 발명에서는 예측하고자 하는 목표변수가 사고 또는 비사고로 구분되는 이진 값을 갖기 때문에 일실시예에 따른 분류 분석부(140)는 로지스틱회귀 분석 방법을 활용할 수 있다. 이진형으로 구분될 때에 로지스틱회귀 분석 방법을 활용하면 선형판별 분석 방법과 유사한 결과를 얻을 수 있다. 또한 로지스틱회귀 분석 방법은 대용량 데이터 계산에서 처리속도의 이점이 있다.In the present invention, since the target variable to be predicted has a binary value classified into an accident or an accident, the classification analyzer 140 according to an embodiment can utilize a logistic regression analysis method. When using logistic regression analysis method, it is possible to obtain similar results to linear discriminant analysis method. Logistic regression analysis also has the advantage of processing speed in large data calculations.

일실시예에 따른 분류 분석부(140)는 군집분석을 통해 생성 된 여러 군집 각각에 분류 분석을 수행할 수 있다. 군집마다 다른 로지스틱회귀 분석방법을 적용하며 그 결과들을 취합하여 정오분류표로 나타낼 수 있다.The classification analyzer 140 according to one embodiment may perform classification analysis on each of the plurality of clusters generated through the cluster analysis. Different logistic regression analysis methods are applied to each community and the results can be collected and displayed as a noon classification table.

도 5는 본 발명의 일실시예에 따른 정오분류표(500) 예를 설명하는 도면이다.5 is a view for explaining an example of the noon classification table 500 according to an embodiment of the present invention.

데이터마이닝 방법의 성능을 비교할 때에는 다양한 척도가 존재하는데, 일실시예에 따른 분류 분석부는 이중에서 전체정확도와 목표정확도를 측정 척도로 활용할 수 있다. 전체정확도와 목표정확도는 도 5의 정오분류표(500)를 활용할 수 있다.There are various scales when comparing the performance of the data mining method. The classification analyzing unit according to one embodiment can utilize both the total accuracy and the target accuracy as a measurement scale. The total accuracy and the target accuracy can utilize the noon classification table 500 of FIG.

정오분류표(500)에서 True positive(TP)는 실제 양인 클래스를 양으로 처리한 양을 나타내고 True negative(TN)는 실제 음인 클래스를 음으로 처리한 양을 나타낸다. 그 반대로 False negative(FN)은 실제 양인 클래스를 음으로 처리한 양을 나타내고 False positive(FP)은 실제 음인 클래스를 양으로 잘못 처리한 양을 나타낸다. 이를 기반으로 하여, [수학식 1]을 통해 전체정확도를 산출할 수 있다.
In the noon classification table (500), True positive (TP) represents the amount of positive quantities treated as positive quantities, and True negative (TN) represents the negative quantities of actual negative classes. False negative (FN), on the other hand, represents the amount of negatively processed classes and False positive (FP) represents the amount of incorrectly processed negative classes. Based on this, the total accuracy can be calculated through the equation (1).

[수학식 1][Equation 1]

Figure 112013114506151-pat00001

Figure 112013114506151-pat00001

목표 정확도는 Ture positive rate와 동일한

Figure 112013114506151-pat00002
으로 나타낼 수 있으며, 그 반대의 개념인 False positive rate인
Figure 112013114506151-pat00003
로 나타낼 수도 있다. 이 두 개념의 관계를 그래프로 나타내면 ROC 곡선(Receiver Operating Characteristic Curve)이 된다.Target accuracy is equal to Ture positive rate
Figure 112013114506151-pat00002
, And the opposite concept of false positive rate
Figure 112013114506151-pat00003
. A graph of the relationship between these two concepts becomes the ROC curve (Receiver Operating Characteristic Curve).

도 6은 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법을 설명하는 도면이다.6 is a view for explaining a large capacity unbalance data classification analysis method according to an embodiment of the present invention.

본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 데이터 전처리부를 통해, 교통 빅데이터를 전처리할 수 있다(단계 601).The large capacity unbalance data classification and analysis method according to an embodiment of the present invention can preprocess traffic big data through a data preprocessing unit (step 601).

본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 학습데이터 생성부를 통해, 전처리된 교통 빅데이터를 통합하여 학습데이터모델을 생성하고(단계 602), 생성된 학습데이터모델에 기초하여, 교통 빅데이터로부터 학습데이터를 생성할 수 있다(단계 603).In the large capacity unbalance data classification analysis method according to an embodiment of the present invention, a learning data model is created by integrating preprocessed traffic big data through a learning data generation unit (step 602), and based on the generated learning data model, Learning data can be generated from the big data (step 603).

예를 들어, 학습데이터를 생성하기 위해 목표 변수에 상응하는 특징점들을 기반으로 상기 교통 빅데이터로부터 학습데이터를 생성할 수 있다. 또한, 예측 변수로부터 목표 변수를 예측하는 상기 학습데이터모델을 생성하되, 예측 변수가 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함하도록 설정하고, 목표 변수가 교통 사고 여부에 대한 정보를 포함하도록 설정할 수 있다.For example, learning data may be generated from the traffic big data based on minutiae corresponding to a target variable to generate learning data. Also, the learning data model for predicting the target variable from the predictive variable is generated, and the predictive variable is set to include at least one of the occurrence time of the traffic accident, the road situation information, and the weather information, Can be set so as to include information on the information.

본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 오버 샘플링 처리부를 통해, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링할 수 있다(단계 604). 예를 들어, 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링할 수 있다. 이때, 관측 수가 작은 데이터들을 오버샘플링하기 때문에 데이터의 불균형 문제를 해결할 수 있다.The large capacity unbalance data classification and analysis method according to an embodiment of the present invention can oversample the generated learning data to match an imbalance of the generated learning data through an oversampling processor (step 604). For example, the large capacity unbalance data classification analysis method according to an embodiment can oversample accident data among the generated learning data. At this time, since the data having a small number of observations is oversampled, the problem of data unbalance can be solved.

또한, 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 분류 분석부에서, 상기 오버 샘플링된 학습데이터를 분류 분석 및/또는 군집 분석하여 학습 모델을 생성할 수 있다(단계 605). 또한, 분류 분석부가 생성한 학습 모델은 입력으로부터 사고 예측 결과를 출력할 수 있다. 예를 들어, 본 발명의 일실시예에 따른 대용량 불균형 데이터 분류분석 방법은 의사결정 나무(Decision tree), 신경망(Neural network), Support Vector Machines(SVM), 로지스틱 회귀 분석(Regularized logistic regression) 등을 활용할 수 있다.
이상에서 교통 빅데이터를 이용하는 경우를 예로서 설명하였으나, 본 발명은 이에 제한되지 않으며, 다른 유형의 빅테이터를 이용하는 경우에도 적용될 수 있다.
Also, in the large capacity unbalance data classification analysis method according to an embodiment of the present invention, the classification analysis unit may classify and / or analyze the oversampled learning data to generate a learning model (step 605). In addition, the learning model generated by the classification analyzer can output the accident prediction result from the input. For example, the large capacity unbalance data classification analysis method according to an embodiment of the present invention can be applied to a decision tree, a neural network, a support vector machine (SVM), a regularized logistic regression Can be utilized.
Although the case of using traffic big data has been described above as an example, the present invention is not limited thereto and can be applied to other types of big data.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (15)

대용량 불균형 데이터 분류분석 시스템에 있어서,
빅데이터를 전처리하는 데이터 전처리부;
상기 전처리된 빅데이터를 통합하여 학습데이터모델을 생성하고, 상기 생성된 학습데이터모델에 기초하여, 상기 빅데이터로부터 학습데이터를 생성하는 학습데이터 생성부;
상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 오버 샘플링 처리부; 및
상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 분류 분석부
를 포함하고,
상기 생성된 학습 모델을 이용하여 예측 결과를 출력하며,
상기 학습데이터 생성부는
예측 변수로부터 목표 변수를 예측하는 상기 학습데이터모델을 생성하는 대용량 불균형 데이터 분류분석 시스템.
In a large capacity imbalance data classification and analysis system,
A data preprocessing unit for preprocessing the big data;
A learning data generation unit for generating a learning data model by integrating the preprocessed big data and generating learning data from the big data based on the generated learning data model;
An oversampling processor for oversampling the generated training data to match the generated learning data; And
A classification analysis unit for classifying and analyzing the oversampled learning data to generate a learning model,
Lt; / RTI >
Outputs a prediction result using the generated learning model,
The learning data generation unit
And generates the learning data model for predicting the target variable from the predictive variable.
제1항에 있어서,
상기 학습데이터 생성부는 상기 목표 변수에 상응하는 특징점들을 기반으로 상기 빅데이터로부터 상기 학습데이터를 생성하는 대용량 불균형 데이터 분류분석 시스템.
The method according to claim 1,
Wherein the learning data generation unit generates the learning data from the big data based on the minutiae corresponding to the target variable.
삭제delete 제1항에 있어서,
상기 예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함하는 대용량 불균형 데이터 분류분석 시스템.
The method according to claim 1,
Wherein the prediction parameter includes at least one of a time of occurrence of a traffic accident, road condition information, and weather information.
제1항에 있어서,
상기 목표 변수는 교통 사고 여부에 대한 정보를 포함하는 대용량 불균형 데이터 분류분석 시스템.
The method according to claim 1,
Wherein the target variable includes information on whether or not a traffic accident has occurred.
제1항에 있어서,
상기 오버 샘플링 처리부는,
상기 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링하는 대용량 불균형 데이터 분류분석 시스템.
The method according to claim 1,
Wherein the oversampling processor comprises:
And oversampling the accident data among the generated learning data.
제1항에 있어서,
상기 분류 분석부는,
군집분석을 통하여 상기 오버 샘플링된 학습 데이터를 복수의 군집으로 분류하고, 분류된 복수의 군집별로 분류분석을 수행하는 대용량 불균형 데이터 분류분석 시스템.
The method according to claim 1,
Wherein the classification analyzer comprises:
Wherein the oversampled learning data is classified into a plurality of clusters and a classification analysis is performed for each of the plurality of clusters classified through cluster analysis.
대용량 불균형 데이터 분류분석 방법에 있어서,
데이터 전처리부에서, 빅데이터를 전처리하는 단계;
학습데이터 생성부에서, 상기 전처리된 빅데이터를 통합하여 학습데이터모델을 생성하고, 생성된 학습데이터모델에 기초하여, 상기 빅데이터로부터 학습데이터를 생성하는 단계;
오버 샘플링 처리부에서, 상기 생성된 학습데이터의 불균형을 맞추기 위해 상기 생성된 학습데이터를 오버 샘플링하는 단계; 및
분류 분석부에서, 상기 오버 샘플링된 학습데이터를 분류 분석하여 학습 모델을 생성하는 단계
를 포함하고,
상기 생성된 학습 모델을 이용하여 예측 결과를 출력하되,
상기 학습데이터를 생성하는 단계는,
예측 변수로부터 목표 변수를 예측하는 상기 학습데이터모델을 생성하는 단계
를 포함하는 대용량 불균형 데이터 분류분석 방법.
In a large capacity imbalance data classification analysis method,
In the data preprocessing unit, preprocessing the big data;
Generating a learning data model by integrating the preprocessed big data in the learning data generation unit and generating learning data from the big data based on the generated learning data model;
Oversampling the generated training data in order to adjust an imbalance of the generated learning data in an oversampling processing unit; And
The classification analysis unit classifies and analyzes the oversampled learning data to generate a learning model
Lt; / RTI >
Outputting a prediction result using the generated learning model,
Wherein the step of generating the learning data comprises:
Generating the learning data model for predicting a target variable from a predictive variable
The method comprising the steps of:
제8항에 있어서,
상기 학습데이터를 생성하는 단계는,
상기 목표 변수에 상응하는 특징점들을 기반으로 상기 빅데이터로부터 상기 학습데이터를 생성하는 단계
를 포함하는 대용량 불균형 데이터 분류분석 방법.
9. The method of claim 8,
Wherein the step of generating the learning data comprises:
Generating the learning data from the big data based on the minutiae corresponding to the target variable
The method comprising the steps of:
삭제delete 제8항에 있어서,
상기 예측 변수는 교통 사고의 발생 시점, 도로 상황 정보, 및 날씨 정보 중에서 적어도 하나를 포함하는 대용량 불균형 데이터 분류분석 방법.
9. The method of claim 8,
Wherein the predictive variable includes at least one of a time of occurrence of a traffic accident, road situation information, and weather information.
제8항에 있어서,
상기 목표 변수는 교통 사고 여부에 대한 정보를 포함하는 대용량 불균형 데이터 분류분석 방법.
9. The method of claim 8,
Wherein the target variable includes information on whether or not a traffic accident has occurred.
제8항에 있어서,
상기 오버 샘플링하는 단계는,
상기 생성된 학습데이터 중에서 사고 데이터를 오버 샘플링하는 단계
를 포함하는 대용량 불균형 데이터 분류분석 방법.
9. The method of claim 8,
Wherein said oversampling comprises:
Oversampling the accident data among the generated learning data
The method comprising the steps of:
제8항에 있어서,
상기 분류 분석하여 학습 모델을 생성하는 단계는,
군집분석을 통하여 상기 오버 샘플링된 학습 데이터를 복수의 군집으로 분류하고, 분류된 복수의 군집별로 분류분석을 수행하는 단계
를 포함하는 대용량 불균형 데이터 분류분석 방법.
9. The method of claim 8,
Wherein the step of classifying and analyzing the generated learning model comprises:
Classifying the oversampled learning data into a plurality of clusters through cluster analysis and performing classification analysis for each of the plurality of clusters classified
The method comprising the steps of:
제8항, 제9항, 제11항 내지 제14항 중에서 어느 한 항의 방법을 수행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for performing the method according to any one of claims 8, 9, 11,
KR1020130155808A 2013-12-13 2013-12-13 System and method for large unbalanced data classification based on hadoop KR101563406B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130155808A KR101563406B1 (en) 2013-12-13 2013-12-13 System and method for large unbalanced data classification based on hadoop

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130155808A KR101563406B1 (en) 2013-12-13 2013-12-13 System and method for large unbalanced data classification based on hadoop

Publications (2)

Publication Number Publication Date
KR20150069424A KR20150069424A (en) 2015-06-23
KR101563406B1 true KR101563406B1 (en) 2015-10-26

Family

ID=53516548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130155808A KR101563406B1 (en) 2013-12-13 2013-12-13 System and method for large unbalanced data classification based on hadoop

Country Status (1)

Country Link
KR (1) KR101563406B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200103494A (en) 2019-02-25 2020-09-02 서강대학교산학협력단 Method for oversampling minority category for training data
KR20200113397A (en) 2019-03-25 2020-10-07 동서대학교 산학협력단 Method of under-sampling based ensemble for data imbalance problem
KR102246456B1 (en) * 2020-06-12 2021-04-30 주식회사 아이원시스템 Intelligent edge unit device for road traffic site safety support

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644279A (en) * 2016-07-21 2018-01-30 阿里巴巴集团控股有限公司 The modeling method and device of evaluation model
KR102327913B1 (en) 2017-04-28 2021-11-19 엔에이치엔 주식회사 Method and system for analyzing data based on block
KR101982753B1 (en) * 2017-12-12 2019-05-27 (주)위세아이텍 Apparatus and method for predicting degree of risk of train accident
KR102249818B1 (en) * 2017-12-13 2021-05-10 재단법인대구경북과학기술원 Method and apparatus of generating training data based on distribution characteristics of training data
KR102144010B1 (en) * 2018-09-05 2020-08-12 성균관대학교산학협력단 Methods and apparatuses for processing data based on representation model for unbalanced data
KR102042645B1 (en) * 2018-12-21 2019-11-27 (주)위세아이텍 Apparatus and method for predicting line risk using compound model
CN109495327B (en) * 2018-12-28 2020-05-19 西安交通大学 User activity anomaly detection and flow prediction method based on big data analysis
KR102284356B1 (en) * 2019-01-31 2021-08-02 동서대학교 산학협력단 Data imbalance solution method using Generative adversarial network
CN109948732B (en) * 2019-03-29 2020-12-22 济南大学 Abnormal cell distant metastasis classification method and system based on unbalanced learning
CN113469251A (en) * 2021-07-02 2021-10-01 南京邮电大学 Method for classifying unbalanced data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
정한나 외 2인, '불균형 이분 데이터 분류분석을 위한 데이터마이닝 절차', Journal of the Korean Institute of Industrial Engineers Vol.36, No.1, 2010.03, pp.13-21

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200103494A (en) 2019-02-25 2020-09-02 서강대학교산학협력단 Method for oversampling minority category for training data
KR20200113397A (en) 2019-03-25 2020-10-07 동서대학교 산학협력단 Method of under-sampling based ensemble for data imbalance problem
KR102246456B1 (en) * 2020-06-12 2021-04-30 주식회사 아이원시스템 Intelligent edge unit device for road traffic site safety support

Also Published As

Publication number Publication date
KR20150069424A (en) 2015-06-23

Similar Documents

Publication Publication Date Title
KR101563406B1 (en) System and method for large unbalanced data classification based on hadoop
Neelakandan et al. RETRACTED ARTICLE: An automated exploring and learning model for data prediction using balanced CA-SVM
Peng et al. Examining imbalanced classification algorithms in predicting real-time traffic crash risk
US20210192586A1 (en) Systems and Methods for Detecting and Responding to Anomalous Traffic Conditions
CN104503874A (en) Hard disk failure prediction method for cloud computing platform
Morris et al. Effectiveness of resampling methods in coping with imbalanced crash data: Crash type analysis and predictive modeling
Abdelraouf et al. Utilizing attention-based multi-encoder-decoder neural networks for freeway traffic speed prediction
CN106528874A (en) Spark memory computing big data platform-based CLR multi-label data classification method
Aljanabi et al. Improved TLBO-JAYA algorithm for subset feature selection and parameter optimisation in intrusion detection system
AU2021396607B2 (en) Adversarial semi-supervised one-shot learning
Sundar et al. Out-of-distribution detection in multi-label datasets using latent space of β-vae
CN114580263A (en) Knowledge graph-based information system fault prediction method and related equipment
Saunier et al. Mining microscopic data of vehicle conflicts and collisions to investigate collision factors
Siddique et al. State-dependent self-adaptive sampling (SAS) method for vehicle trajectory data
Hassanat et al. Magnetic force classifier: a Novel Method for Big Data classification
KR102267487B1 (en) Method and apparatus for operating independent classification model using metadata
Sbai et al. A real-time decision support system for big data analytic: A case of dynamic vehicle routing problems
CN111583442A (en) Terminal policy configuration method and device, computer equipment and storage medium
Ait-Mlouk et al. Application of big data analysis with decision tree for road accident
US20060179021A1 (en) Using supervised classifiers with unsupervised data
Cruz et al. Learning gps point representations to detect anomalous bus trajectories
CN112396236B (en) Traffic flow prediction method, system, server and storage medium
Olewy et al. Classifying quality of web services using machine learning classification and cross validation techniques
Formosa et al. Appraising machine and deep learning techniques for traffic conflict prediction with class imbalance
Jagannathan Building cyber physical systems in the context of Smart Cities

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181015

Year of fee payment: 4