KR20160050562A

KR20160050562A - 예측 모델 생성 장치 및 방법

Info

Publication number: KR20160050562A
Application number: KR1020140148998A
Authority: KR
Inventors: 서지현; 이재영; 신동민; 안경준
Original assignee: 삼성에스디에스 주식회사
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2016-05-11
Also published as: US20160125292A1; KR102274069B1

Abstract

예측 모델 생성 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 각각 하나 이상의 예측인자값 및 타겟인자값을 포함하는 복수 개의 인스턴스로 구성되는 데이터로부터 예측 모델을 생성하기 위한 장치로서, 기 설정된 예측 주기별 상기 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성하는 전처리 모듈; 상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스로부터 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 예측 모델 생성 모듈; 및 상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산하는 후처리 모듈을 포함한다.

Description

예측 모델 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING PREDICTION MODEL}

본 발명의 실시예들은 과거의 데이터를 분석하여 미래에 발생할 어떠한 상황에 대한 결과를 예측하기 위한 예측 모델을 생성하기 위한 기술과 관련된다.

과거의 데이터를 분석하여 미래에 발생할 어떠한 상황에 대한 결과를 예측하기 위한 예측 모델에 사용되는 기법은 매우 다양하다. 데이터의 분포, 특성(Feature)들의 관계성 등에 따라 데이터 전처리 과정과 적합한 예측 기법이 다르며, 그에 따른 예측 정확도가 다르게 나타난다.

종래의 예측 모델들은, 특히 데이터의 분포가 특정 값에 과도하게 집중되어 있는 등 비정규 분포를 따르는 데이터의 경우 예측 정확도가 낮아진다는 문제점이 존재한다. 또한 데이터 값의 분포 범위가 크고 값의 출현이 드문 희소 데이터(Sparse Data) 경우, 기존의 예측 모델을 사용하여서는 예측 정확도를 높이기 쉽지 않으며, 억지로 예측 정확도를 높일 경우 과적합(over-fitting)된 모델을 생성할 가능성이 크다. 따라서, 기존의 예측 모델은 잘 정리된 이상적인 데이터에 대해서만 높은 적중률을 얻을 수 있는 한계점을 지니고 있다.

대한민국 공개특허공보 제10-2014-0083432호 (2014. 07. 04.)

본 발명의 실시예들은 비정규 분포를 따르는 희소 데이터를 이용한 예측 모델 생성시 예측 정확도를 향상할 수 있는 수단을 제공하기 위한 것이다.

예시적인 실시예에 따르면, 각각 하나 이상의 예측인자값 및 타겟인자값을 포함하는 복수 개의 인스턴스로 구성되는 데이터로부터 예측 모델을 생성하기 위한 장치로서, 기 설정된 예측 주기별 상기 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성하는 전처리 모듈; 상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스로부터 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 예측 모델 생성 모듈; 및 상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산하는 후처리 모듈을 포함하는 예측 모델 생성 장치가 제공된다.

상기 전처리 모듈은, 특정 예측 주기의 타겟인자값, 상기 특정 예측 주기와의 차이가 기 설정된 범위 이내인 하나 이상의 인접 타겟인자값, 및 각 타겟인자값 별 가중치를 이용하여 상기 특정 예측 주기의 타겟인자값의 가중 평균값을 계산할 수 있다.

상기 예측 모델 생성 모듈은, 상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스에 대한 회귀 분석을 통하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산할 수 있다.

상기 예측 모델 생성 모듈은, 상기 전처리된 타겟인자값에 따라 상기 복수 개의 인스턴스를 기 설정된 개수의 구간으로 분할하고, 분할된 각 구간별로 서로 다른 레이블(label)을 할당하는 분할부; 상기 레이블이 할당된 복수 개의 인스턴스로부터 분류기 모델을 생성하고, 상기 분류기 모델을 이용하여 상기 각 인스턴스별로 상기 각 레이블에 대한 소속도를 계산하는 분류기 모델 생성부; 및 상기 소속도 및 상기 전처리된 타겟인자값에 대한 회귀 분석을 통하여 회귀 모델을 생성하고, 상기 회귀 모델을 이용하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 회귀 모델 생성부를 포함할 수 있다.

상기 분할부는, 상기 각 구간별로 상기 복수 개의 인스턴스가 기 설정된 오차 허용 범위 내에서 균등한 개수로 분할되도록 상기 복수 개의 인스턴스를 분할할 수 있다.

상기 분류기 모델 생성부는, 서포트 벡터 머신(Support Vector Machine), 나이브 베이즈 분류(Naive Bayesian Classification) 또는 딥 러닝(Deep Learning) 중 어느 하나의 알고리즘을 이용하여 상기 분류기 모델을 생성할 수 있다.

다른 예시적인 실시예에 따르면, 각각 하나 이상의 예측인자값 및 타겟인자값을 포함하는 복수 개의 인스턴스로 구성되는 데이터로부터 예측 모델을 생성하기 위한 방법으로서, 기 설정된 예측 주기별 상기 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성하는 전처리 단계; 상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스로부터 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 예측 모델 생성 단계; 및 상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산하는 후처리 단계를 포함한다.

상기 전처리 단계는, 특정 예측 주기의 타겟인자값, 상기 특정 예측 주기와의 차이가 기 설정된 범위 이내인 하나 이상의 인접 타겟인자값, 및 각 타겟인자값 별 가중치를 이용하여 상기 특정 예측 주기의 타겟인자값의 가중 평균값을 계산할 수 있다.

상기 예측 모델 생성 단계는, 상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스에 대한 회귀 분석을 통하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산할 수 있다.

상기 예측 모델 생성 단계는, 상기 전처리된 타겟인자값에 따라 상기 복수 개의 인스턴스를 기 설정된 개수의 구간으로 분할하고, 분할된 각 구간별로 서로 다른 레이블(label)을 할당하는 분할 단계; 상기 레이블이 할당된 복수 개의 인스턴스로부터 분류기 모델을 생성하고, 상기 분류기 모델을 이용하여 상기 각 인스턴스별로 상기 각 레이블에 대한 소속도를 계산하는 분류기 모델 생성 단계; 및 상기 소속도 및 상기 전처리된 타겟인자값에 대한 회귀 분석을 통하여 회귀 모델을 생성하고, 상기 회귀 모델을 이용하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 회귀 모델 생성 단계를 더 포함할 수 있다.

상기 분할 단계는, 상기 각 구간별로 상기 복수 개의 인스턴스가 기 설정된 오차 허용 범위 내에서 균등한 개수로 분할되도록 상기 복수 개의 인스턴스를 분할할 수 있다.

상기 분류기 모델 생성 단계는, 서포트 벡터 머신(Support Vector Machine), 나이브 베이즈 분류(Naive Bayesian Classification) 또는 딥 러닝(Deep Learning) 중 어느 하나의 알고리즘을 이용하여 상기 분류기 모델을 생성할 수 있다.

다른 예시적인 실시예에 따르면, 하드웨어와 결합되어, 각각 하나 이상의 예측인자값 및 타겟인자값을 포함하는 복수 개의 인스턴스로 구성되는 데이터로부터 예측 모델을 생성하기 위한 컴퓨터 프로그램으로서, 기 설정된 예측 주기별 상기 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성하는 전처리 단계; 상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스로부터 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 예측 모델 생성 단계; 및 상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산하는 후처리 단계를 포함하는 단계들을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램이 제공된다.

본 발명의 실시예들에 따르면, 비정규 분포를 따르는 희소 데이터를 이용한 예측 모델 생성에 있어서 데이터의 분포를 의도적으로 변형하여 데이터의 편향도를 줄이고, 데이터의 구간 별 라벨링을 이용한 분류기 모델의 분류 결과, 즉 각 구간에 대한 소속도를 회귀 모델의 입력으로 사용하여 데이터의 차원을 축소함으로써 예측 모델의 예측 정확도를 향상할 수 있다.

또한 본 발명의 실시예들에 따를 경우 분류기 모델과 회귀 모델을 결합하여, 우선적으로 분류기 모델을 통하여 구간 별 소속도를 예측하고 이를 입력으로 하여 회귀 모델을 통해 예측 값을 구함으로써 예측 정확도를 더욱 높일 수 있다.

도 1은 본 발명의 일 실시예에 따른 예측 모델 생성 장치를 설명하기 위한 블록도
도 2는 본 발명의 일 실시예에 따른 예측 모델 생성 모듈의 상세 구성을 설명하기 위한 블록도
도 3은 본 발명의 일 실시예에 따른 예측 모델 생성 방법을 설명하기 위한 흐름도

이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

본 발명의 실시예들에 대한 설명에 앞서, 먼저 본 발명에서 사용되는 용어들의 의미를 기재하면 다음과 같다.

타겟인자(Target)는 예측 하고자 하는 대상의 속성을 의미한다.

예측인자(Predictor)는 상기 타겟인자의 예측에 사용되는 하나 이상의 속성값의 집합을 의미한다.

예측 주기는 타겟인자를 예측하고자 하는 기간의 단위로써, 예를 들어 월/주/요일 등이 될 수 있다.

입력 데이터는 예측인자와 타겟인자로 구성된 인스턴스들의 집합이며, 훈련 데이터와 테스트 데이터로 나뉠 수 있다. 이중 훈련 데이터는 예측 모델 생성을 위한 학습에 사용된다. 테스트 데이터는 상기 훈련 데이터로부터 도출된 모델의 성능을 평가하는 데 이용된다.

아래의 표 1은 훈련 데이터의 예시를 나타낸 것이다. 표 1에서 각 행(row)는 훈련 데이터를 구성하는 각 인스턴스(instance)를 나타낸다. 전술한 바와 같이, 훈련 데이터의 각 인스턴스는 예측에 사용되는 속성값인 예측인자와 예측하고자 하는 대상인 타겟인자로 이루어지며, 이는 테스트 데이터 또한 마찬가지이다.

표 1의 훈련 데이터는 특정 판매처의 특정 기간 동안에 판매한 물류 정보 및 수요량을 나타낸다. 물류 정보는 특정 기간 동안, 특정 판매처에 각 품목들을 판매한 정보로 품목 그룹, 품목, 배달처 코드, 판매처 코드, 년도, 주차, 요일 등을 포함하며, 예측인자로 사용된다. 타겟인자로 표시된 수요량은 예측 주기(본 예시에서는 일 단위로 예측함)에 특정 판매처에서 특정 배달처로 가는 특정 품목을 몇 개 판매하였는지를 나타낸다.

예측인자								타겟인자
품목그룹	품목	배달처 코드	판매처 코드	년도	주차	요일	…	수요량
AA	AA-AH2NMHB	6234480	2126323	2013	1	화요일	…	0
AA	AA-BS5N11W	3454063	2126323	2013	1	월요일	…	11
…	…	…	…	…	…	…	…	6
…	…	…	…	…	…	…	…	0
…	…	…	…	…	…	…	…	0
…	…	…	…	…	…	…	…	0
…	…	…	…	…	…	…	…	7
…	…	…	…	…	…	…	…	0
AC_AX	AC-347HPAWQ	2124229	2126323	2013	35	금요일	…	0

도 1은 본 발명의 일 실시예에 따른 예측 모델 생성 장치(100)를 설명하기 위한 블록도이다. 본 발명의 일 실시예에 따른 예측 모델 생성 장치(100)는 각각 하나 이상의 예측인자값 및 타겟인자값을 포함하는 복수 개의 인스턴스로 구성되는 훈련 데이터로부터 예측 모델을 생성하기 위한 장치를 의미한다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 예측 모델 생성 장치(100)는 전처리 모듈(102), 예측 모델 생성 모듈(104) 및 후처리 모듈(106)을 포함한다.전처리 모듈(102)은 기 설정된 예측 주기별 상기 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성한다.

예측 모델 생성 모듈(104)은 상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스로부터 상기 각 인스턴스별 타겟인자값의 예측값을 계산한다.

후처리 모듈(106)은 상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산한다.

이하에서는 상기와 같이 구성되는 본 발명의 일 실시예에 따른 예측 모델 생성 장치(100)의 각 구성요소들의 상세 구성을 설명하기로 한다.

훈련 데이터의 전처리

전처리 모듈(102)은 기 설정된 예측 주기별 상기 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성한다. 본 발명의 실시예들에서 훈련 데이터는 비정규 분포를 따르는 희소 데이터로서 데이터의 분포가 고르지 않고 특정 값에 과도하게 집중되어 있는 경우가 많다. 예를 들어, 상기 표 1에서 타겟인자인 일별 수요량의 경우 주문이 없는 날은 0의 값을 가지는 바, 다른 값에 비해 0에 타겟인자값이 집중되어 나타나게 된다. 이에 따라 본 발명의 실시예에서는 각 예측 주기별 타겟인자값에서 해당 예측 주기의 가중평균값을 감산하여 줌으로써 타겟인자값의 분포가 특정 값에 과도하게 집중되지 않도록 이를 적절히 분산하여 줄 수 있다.

일 실시예에서 전처리 모듈(102)은 특정 예측 주기의 타겟인자값, 상기 특정 예측 주기와의 차이가 기 설정된 범위 이내인 하나 이상의 인접 타겟인자값, 및 각 타겟인자값 별 가중치를 이용하여 상기 특정 예측 주기의 타겟인자값의 가중 평균값을 계산할 수 있다. 이때 상기 가중치는 예를 들어 가우시안 함수를 이용할 수 있다. 이를 수식으로 설명하면 다음과 같다.

(이때, X_d는 해당 주기의 타겟인자값, X_d _-1은 이전 주기의 타겟인자값, X_d ₊₁은 다음 주기의 타겟인자값, diff는 이전/다음 주기와 해당 주기의 주기 차이)

이때, g(x)는 이전/다음 주기의 타겟인자값에 대한 가중치를 계산하기 위한 분포 함수로써, 예를 들어 가우시안 함수를 사용할 수 있다. 만약 상기 g(x)가 가우시안 함수로 구성되는 경우에는 다음의 수학식 2와 같은 형태를 가질 수 있다.

(이때, σ는 표준편차)

즉, 상기 표 2에서 각 주 목요일의 판매량은 모두 0이나, 전/후일의 판매량을 반영한 가중 평균값을 고려할 경우 전처리된 값은 모두 달라지게 된다. 상기 수학식 1에서는 각 예측 주기의 이전 주기 및 다음 주기만을 고려하였으나, 실시예에 따라 전처리 모듈(102)은 각 예측 주기의 앞뒤로 K개(K는 1 이상의 정수)의 타겟인자값을 고려하여 상기 가중 평균값을 계산할 수 있다.

상기와 같이 가중 평균값이 계산되면, 다음으로 전처리 모듈(102)은 훈련 데이터의 각 인스턴스의 타겟인자값에서 해당 타겟인자값의 가중 평균값을 뺀 나머지 값으로 전처리된 타겟인자값을 생성한다. 전처리 모듈(102)은 상기와 같은 전처리를 통하여 타겟인자값의 분포가 특정 값에 과도하게 집중되는 희소 데이터의 편향 문제를 해결하고, 타겟인자값이 보다 고른 분포를 가지도록 할 수 있다.

예를 들어, 어떤 훈련 데이터의 타겟인자가 특정 물품의 일별 판매량이고, 최근 3주간 수, 목, 금의 판매량이 다음의 표 2와 같다고 가정하자.

주차	요일	판매량
1주차	수	13
	목	0
	금	4
2주차	수	2
	목	0
	금	5
3주차	수	7
	목	0
	금	5

상기 표 2의 판매량 및 전술한 수학식 1을 이용하여 각 주 목요일 판매량의 가중평균을 계산하면 다음과 같다.

1주차 목요일의 가중 평균(m₁) = (0 + g(-1)*13 + g(1)*4) / (1 + g(-1) + g(1)) = 2.428006

2주차 목요일의 가중 평균(m₂)= (0 + g(-1)*2 + g(1)*5) / (1 + g(-1) + g(1)) = 0.999767

3주차 목요일의 가중 평균(m₃)= (0 + g(-1)*7 + g(1)*5 / (1 + g(-1) + g(1)) = 1.713886

또한, 상기 가중평균으로부터 각 주 목요일 판매량의 전처리된 값은 다음과 같이 계산된 수 있다.

1주차 목요일의 전처리된 타겟인자값 = 0 - 2.428006 = -2.428006

2주차 목요일의 전처리된 타겟인자값 = 0 - 0.999767 = -0.999767

3주차 목요일의 전처리된 타겟인자값 = 0 - 1.713886 = -1.713886

아래의 표 3 및 표 4는 훈련 데이터의 타겟 인자값 및 이로부터 생성된 전처리된 타겟인자값(타겟')을 각각 예시한 것이다.

ROW_ID	Col_1	Col_2	Col_3	…	타겟
1					0
2					0
3					7
…
99					3
100					0

ROW_ID	Col_1	Col_2	Col_3	…	타겟'
1					-0.6
2					-4
3					4.8
…
99					0.6
100					0

예측 모델 생성

상기와 같은 타겟인자값에 대한 전처리가 완료되면, 다음으로 예측 모델 생성 모듈(104)은 상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스를 복수 개의 구간으로 나누고, 분류기 모델을 통해 계산된 상기 각 구간에 대한 소속도를 이용한 회귀 분석을 통하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산한다.

도 2는 본 발명의 일 실시예에 따른 예측 모델 생성 모듈(104)의 상세 구성을 설명하기 위한 블록도이다. 도시된 바와 같이, 본 발명의 일 실시예에 따른 예측 모델 생성 모듈(104)은 분할부(202), 분류기 모델 생성부(204) 및 회귀 모델 생성부(206)를 포함한다.

분할부(202)는 전처리 모듈(102)에서 전처리된 타겟인자값에 따라 복수 개의 인스턴스를 기 설정된 개수의 구간으로 분할하고, 분할된 각 구간별로 서로 다른 레이블(label)을 할당한다. 이 때, 각 레이블은 데이터의 구간을 나타내는 유일(Unique) 값이다. 분할 시 사용하는 기법으로는 N-quantiles, Log Linear 등의 기법을 이용할 수 있다.

일 실시예에서 분할부(202)는 상기 각 구간별로 상기 복수 개의 인스턴스가 균등한 개수로 분할되도록 상기 복수 개의 인스턴스를 분할할 수 있다. 즉, 분할부(202)는 각 구간별로 할당되는 인스턴스의 개수가 균등하게 되도록 각 구간별 타겟인자값의 범위를 조절할 수 있다. 이에 따라 각 구간별 타겟인자값의 범위의 크기는 모두 상이할 수 있다.

예를 들어, 상기 표 4의 훈련 데이터를 아래의 표 5와 같이 다섯 개의 구간으로 분할하고 각각 서로 다른 레이블(A, B, C, D, E)을 할당하면 표 6과 같다. 표 6에서 할당된 레이블은 "타겟''"으로 표시된 컬럼에 기재되어 있다.

구간	범위	데이터 개수
A	-5 ~ -3.5	23
B	-3.5 ~ 0	17
C	0 ~ 0.7	19
D	0.7 ~ 5	20
E	5 ~ 100	21

ROW_ID	Col_1	Col_2	Col_3	…	타겟''
1					B
2					A
3					D
…
99					C
100					C

한편, 상기 실시예에서 "균등"의 의미는 각 구간별 인스턴스의 개수가 완전히 동일한 것만을 의미하는 것은 아니며, 일정 범위 내에서 각 구간별 인스턴스의 개수는 상이할 수도 있다. 다시 말해, 분할부(202)는 분할된 각 구간별 인스턴스의 개수 차이가 기 설정된 오차 허용 범위 내인 경우 각 구간이 균등하게 분할된 것으로 판단할 수 있다. 예를 들어, 분할부(202)는 다음과 같이 복수 개의 인스턴스를 타겟인자값에 따라 4개의 구간으로 분할할 수 있다.

구간1(타겟인자값 -2.5 ~ 0): 21개

구간2(0 ~ 1): 24개

구간3(1 ~ 5): 19개

구간4(5 ~ 80): 20개

다른 실시예에서, 분할부(202)는 지수 함수 등을 이용하여 타겟인자값의 범위를 설정하고 이에 따라 복수 개의 인스턴스를 분할할 수 있다. 예를 들어, 분할부(202)는 다음과 같이 타겟인자값의 범위를 지수함수적으로 분할할 수 있다.

구간1: 타겟인자값 0 ~ 1

구간2: 1 ~ 10

구간3: 10 ~ 100

즉, 본 발명의 실시예들은 특정한 분할 방식에 한정되는 것은 아님을 유의한다.

다음으로, 분류기 모델 생성부(204)는 상기 레이블이 할당된 복수 개의 인스턴스로부터 분류기 모델을 생성하고, 상기 분류기 모델을 이용하여 상기 각 인스턴스별로 상기 각 레이블에 대한 소속도를 계산한다. 일 실시예에서, 분류기 모델 생성부(204)는 서포트 벡터 머신(Support Vector Machine), 나이브 베이즈 분류(Naive Bayesian Classification) 또는 딥 러닝(Deep Learning) 중 어느 하나의 알고리즘을 이용하여 상기 분류기 모델을 생성할 수 있으나, 이는 예시적인 것으로서 본 발명의 실시예들은 특정한 분류기 모델에 한정되는 것은 아니다. 또한, 필요에 따라 분류기 모델 생성부(204)는 각 레이블 별 분산을 예측인자로 추가하여 상기 분류기 모델을 생성할 수 있다.

아래의 표 7은 분류기 모델 생성부(204)에서 표 6의 데이터를 이용하여 생성한 각 인스턴스별 소속도를 예시한 것이다. 표 7에서 각각 A, B, C, D, E로 표시된 컬럼의 값은 해당 인스턴스의 각 레이블에 대한 소속도를 의미한다.

ROW_ID	A	B	C	D	E	타겟'
1	0.08	0.7	0.15	0.05	0.02	-0.6
2	0.65	0.3	0.02	0.02	0.01	-4
3	0.04	0.05	0.06	0.7	0.15	4.8
…
99	0.1	0.1	0.6	0.1	0.1	0.6
100	0.01	0.06	0.9	0.02	0.01	0

다음으로, 회귀 모델 생성부(206)는 상기 소속도 및 상기 전처리된 타겟인자값에 대한 회귀 분석(상관 분석)을 통하여 회귀 모델을 생성하고, 상기 회귀 모델을 이용하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산한다. 회귀 모델 생성부(206)는 분류기 모델 생성부(204)의 출력 데이터인 각 레이블 별 소속도를 예측인자로 가지는 입력 데이터를 이용하여 회귀 모델을 학습한다. 이 때, 필요에 따라 회귀 모델 생성부(206)는 각 레이블 별 분산을 예측 인자로 추가하여 학습 할 수 있다. 회귀 모델로는 회귀 트리(Regression Tree), GLM 등을 사용할 수 있으나, 이는 예시적인 것으로서 본 발명의 실시예들은 특정한 회귀 모델에 한정되는 것은 아니다.

아래의 표 8은 표 7의 데이터를 이용하여 생성된 각 인스턴스별 타겟인자값의 예측값을 예시한 것이다.

ROW_ID	예측 값
1	-0.4
2	-3.3
3	5
…
99	0.3
100	0.1

전술한 바와 같이, 본 발명의 일 실시예에서 예측 모델 생성 모듈(104)은 N개의 예측인자를 이용하여 레이블을 분류할 수 있는 분류기 모델을 학습한 후, 훈련 데이터를 K개의 레이블에 대한 소속도로 표현하고, 상기 소속도를 회귀 모델 생성 시에 사용하는 입력 데이터로 사용한다. 즉, 분류기 모델 생성부(204)는 훈련 데이터의 분포를 명확하게 구분하기 어려운 기존 N개의 예측인자 대신 기계가 판단하기에 더 명확한 K개의 예측인자로 변형하게 되며, 훈련 데이터가 예측인자의 개수(N)보다 적은 K개의 레이블에 대한 소속도로 표현되는 경우(즉, K < N)에는 훈련 데이터의 차원 축소의 효과를 가져온다. 이에 따라 본 발명의 실시예들에 따를 경우 분류기 모델을 통하여 얻은 레이블의 소속도를 각 예측인자로부터 파생된 의미 있는 특성으로 활용함으로써 예측의 정확도를 높일 수 있다.

예측 데이터 후처리

상기와 같은 과정을 거쳐 예측 모델이 생성되면, 후처리 모듈(106)은 상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산하는 데이터의 후처리 작업을 수행한다. 즉, 후처리 모듈(106)은 예측 모델 생성 모듈(104)에서 생성한 회귀 모델의 예측 데이터에 전처리 과정에서 제거된 가중 평균값을 다시 더해줌으로써 데이터의 분포를 복구시키게 된다.

아래의 표 9는 표 8의 예측 값에 표 4에서 제거된 가중 평균값을 더하여 생성된 최종 예측 값을 표 3의 타겟인자값과 비교하여 기재한 것이다.

ROW_ID	타겟	최종 예측 값
1	0	0.2
2	0	0.7
3	7	7.2
…
99	3	2.7
100	0	0.1

한편, 본 발명의 일 실시예에 따른 예측 모델 생성 장치(100)는 테스트 모듈(미도시)를 더 포함할 수 있다. 상기 테스트 모듈은 훈련 데이터로 구축한 모델에 테스트 데이터를 대입한 후, 테스트 데이터에 대한 예측 결과와 실제 결과를 비교하여 생성된 예측 모델의 성능을 측정한다. 상기 테스트 데이터의 형태는 훈련 데이터의 형태와 동일하다.

테스트 모듈은 다양한 성능 측정 방식을 이용하여 상기 예측 모델의 성능을 측정할 수 있다. 예를 들어, 테스트 모듈은 RMSE(Root Mean Square Error) 방법을 사용하여, 학습한 모델이 예측한 값과 테스터 데이터의 타겟 값의 차이를 계산하고 이로부터 예측 모델의 성능을 측정하도록 구성될 수 있다.

도 3은 본 발명의 일 실시예에 따른 예측 모델 생성 방법(300)을 설명하기 위한 흐름도이다.

단계 302에서, 전처리 모듈(102)은 기 설정된 예측 주기별 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성한다.

단계 304에서, 예측 모델 생성 모듈(102)의 분할부(202)는 상기 전처리된 타겟인자값에 따라 복수 개의 인스턴스를 기 설정된 개수의 구간으로 분할하고, 분할된 각 구간별로 서로 다른 레이블(label)을 할당한다.

단계 306에서, 예측 모델 생성 모듈(102)의 분류기 모델 생성부(204)는 상기 레이블이 할당된 복수 개의 인스턴스로부터 분류기 모델을 생성하고, 상기 분류기 모델을 이용하여 각 인스턴스별 각 레이블에 대한 소속도를 계산한다.

단계 308에서, 예측 모델 생성 모듈(102)의 회귀 모델 생성부(206)는 상기 소속도 및 상기 전처리된 타겟인자값에 대한 회귀 분석을 통하여 회귀 모델을 생성하고, 상기 회귀 모델을 이용하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산한다.

단계 310에서, 후처리 모듈(106)은 상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산하는 후처리를 수행한다.

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

100: 예측 모델 생성 장치
102: 전처리 모듈
104: 예측 모델 생성 모듈
106: 후처리 모듈
202: 분할부
204: 분류기 모델 생성부
206: 회귀 모델 생성부

Claims

각각 하나 이상의 예측인자값 및 타겟인자값을 포함하는 복수 개의 인스턴스로 구성되는 데이터로부터 예측 모델을 생성하기 위한 장치로서,
기 설정된 예측 주기별 상기 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성하는 전처리 모듈;
상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스로부터 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 예측 모델 생성 모듈; 및
상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산하는 후처리 모듈을 포함하는 예측 모델 생성 장치.
청구항 1에 있어서,
상기 전처리 모듈은,
특정 예측 주기의 타겟인자값, 상기 특정 예측 주기와의 차이가 기 설정된 범위 이내인 하나 이상의 인접 타겟인자값, 및 각 타겟인자값 별 가중치를 이용하여 상기 특정 예측 주기의 타겟인자값의 가중 평균값을 계산하는, 예측 모델 생성 장치.
청구항 1에 있어서,
상기 예측 모델 생성 모듈은,
상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스에 대한 회귀 분석을 통하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는, 예측 모델 생성 장치.
청구항 3에 있어서,
상기 예측 모델 생성 모듈은,
상기 전처리된 타겟인자값에 따라 상기 복수 개의 인스턴스를 기 설정된 개수의 구간으로 분할하고, 분할된 각 구간별로 서로 다른 레이블(label)을 할당하는 분할부;
상기 레이블이 할당된 복수 개의 인스턴스로부터 분류기 모델을 생성하고, 상기 분류기 모델을 이용하여 상기 각 인스턴스별로 상기 각 레이블에 대한 소속도를 계산하는 분류기 모델 생성부; 및
상기 소속도 및 상기 전처리된 타겟인자값에 대한 회귀 분석을 통하여 회귀 모델을 생성하고, 상기 회귀 모델을 이용하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 회귀 모델 생성부를 포함하는, 예측 모델 생성 장치.
청구항 4에 있어서,
상기 분할부는,
상기 각 구간별로 상기 복수 개의 인스턴스가 기 설정된 오차 허용 범위 내에서 균등한 개수로 분할되도록 상기 복수 개의 인스턴스를 분할하는, 예측 모델 생성 장치.
청구항 4에 있어서,
상기 분류기 모델 생성부는,
서포트 벡터 머신(Support Vector Machine), 나이브 베이즈 분류(Naive Bayesian Classification) 또는 딥 러닝(Deep Learning) 중 어느 하나의 알고리즘을 이용하여 상기 분류기 모델을 생성하는, 예측 모델 생성 장치.
각각 하나 이상의 예측인자값 및 타겟인자값을 포함하는 복수 개의 인스턴스로 구성되는 데이터로부터 예측 모델을 생성하기 위한 방법으로서,
기 설정된 예측 주기별 상기 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성하는 전처리 단계;
상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스로부터 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 예측 모델 생성 단계; 및
상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산하는 후처리 단계를 포함하는 예측 모델 생성 방법.
청구항 7에 있어서,
상기 전처리 단계는,
특정 예측 주기의 타겟인자값, 상기 특정 예측 주기와의 차이가 기 설정된 범위 이내인 하나 이상의 인접 타겟인자값, 및 각 타겟인자값 별 가중치를 이용하여 상기 특정 예측 주기의 타겟인자값의 가중 평균값을 계산하는, 예측 모델 생성 방법.
청구항 7에 있어서,
상기 예측 모델 생성 단계는,
상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스에 대한 회귀 분석을 통하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는, 예측 모델 생성 방법.
청구항 9에 있어서,
상기 예측 모델 생성 단계는,
상기 전처리된 타겟인자값에 따라 상기 복수 개의 인스턴스를 기 설정된 개수의 구간으로 분할하고, 분할된 각 구간별로 서로 다른 레이블(label)을 할당하는 분할 단계;
상기 레이블이 할당된 복수 개의 인스턴스로부터 분류기 모델을 생성하고, 상기 분류기 모델을 이용하여 상기 각 인스턴스별로 상기 각 레이블에 대한 소속도를 계산하는 분류기 모델 생성 단계; 및
상기 소속도 및 상기 전처리된 타겟인자값에 대한 회귀 분석을 통하여 회귀 모델을 생성하고, 상기 회귀 모델을 이용하여 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 회귀 모델 생성 단계를 더 포함하는, 예측 모델 생성 방법.
청구항 10에 있어서,
상기 분할 단계는,
상기 각 구간별로 상기 복수 개의 인스턴스가 기 설정된 오차 허용 범위 내에서 균등한 개수로 분할되도록 상기 복수 개의 인스턴스를 분할하는, 예측 모델 생성 방법.
청구항 10에 있어서,
상기 분류기 모델 생성 단계는,
서포트 벡터 머신(Support Vector Machine), 나이브 베이즈 분류(Naive Bayesian Classification) 또는 딥 러닝(Deep Learning) 중 어느 하나의 알고리즘을 이용하여 상기 분류기 모델을 생성하는, 예측 모델 생성 방법.
하드웨어와 결합되어, 각각 하나 이상의 예측인자값 및 타겟인자값을 포함하는 복수 개의 인스턴스로 구성되는 데이터로부터 예측 모델을 생성하기 위한 컴퓨터 프로그램으로서,
기 설정된 예측 주기별 상기 타겟인자값의 가중 평균값을 계산하고, 상기 타겟인자값에서 상기 가중 평균값을 감산하여 전처리된 타겟인자값을 생성하는 전처리 단계;
상기 전처리된 타겟인자값이 포함된 상기 복수 개의 인스턴스로부터 상기 각 인스턴스별 타겟인자값의 예측값을 계산하는 예측 모델 생성 단계; 및
상기 각 인스턴스별 타겟인자값의 예측값에 상기 전처리부에서 감산된 상기 가중 평균값을 가산하는 후처리 단계를 포함하는 단계들을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램.