KR101976689B1

KR101976689B1 - 데이터 모델링을 위한 변수 자동생성방법 및 그 장치

Info

Publication number: KR101976689B1
Application number: KR1020180151225A
Authority: KR
Inventors: 김지훈; 최유리; 유두열
Original assignee: 주식회사 솔리드웨어
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2019-05-09
Also published as: WO2020111423A1

Abstract

데이터 모델링을 위한 변수 자동생성방법 및 그 장치가 개시된다. 변수자동생성장치는 예측하고자 하는 타겟변수와 통계정보의 각 변수 사이의 상관관계를 분석하고, 통계정보의 변수들 중 타겟변수와 상관관계가 높은 순으로 복수 개의 변수를 후보변수로 선택하고, 후보변수에서 일정 개수의 변수를 임의 추출하고 서로 결합하여 새로운 변수를 생성하고, 새로운 변수 및 새로운 변수에 대한 값을 통계정보에 저장한다.

Description

데이터 모델링을 위한 변수 자동생성방법 및 그 장치{Method and apparatus for automatically generating variables for data modeling}

본 발명은 데이터 모델링에 관한 것으로, 보다 상세하게는 데이터 모델링에 사용되는 다양한 변수를 자동으로 생성하는 방법 및 그 장치에 관한 것이다.

데이터 모델링에서 적절한 변수를 생성하는 피쳐 엔지니어링(feature engineering)은 매우 중요한 과정이다. 예측모델을 위한 변수는 대부분 해당 데이터 분야의 지식이 있는 전문가의 휴리스틱(heuristic)한 판단으로 생성된다. 예를 들어, 성별, 나이, 소득, 기존대출건수, 기존대출금액 등의 통계자료를 이용하여 신용평가 모델을 만든다고 가정하자. 이때 통계자료에 존재하는 각 변수를 그대로 사용하여 신용평가 모델을 만들 수도 있지만 해당 분야의 전문가가 기존대출금액을 소득으로 나눈 새로운 변수를 만들어 신용평가 모델을 보다 정확하고 정밀하게 만들 수 있다. 그러나 이러한 변수의 생성은 해당 분야 전문가의 주관적인 경험에 따라 만들어야 하는 한계가 존재하며, 더구나 수백 또는 수천 개의 변수가 존재하는 통계자료의 경우에 전문가가 이들 각 변수의 관계를 찾아 새로운 변수를 만든다는 것은 현실적으로 거의 불가능하다.

PCA(Principal Component Analysis) 또는 LDA(Linear Discriminant Analysis) 등을 이용하여 변수를 자동으로 생성하는 방법이 존재한다. 그러나 이러한 자동 변수 생성 방법은 계산 효율성 향상을 목표로 하고 있어 예측 모델에 실질적으로 도움이 되는 변수를 만드는데 한계가 있다. 특히 차원 축소(dimensionality reduction)를 이용하면 해당 변수의 설명력을 상실하는 문제점이 존재한다. 예를 들어, 앞서 설명한 신용평가 모델에서 나이와 대출금액에 대해 PCA를 적용하여 새로운 변수를 만들면 이는 분산이 가장 큰 방향을 기저(basis)로 하는 새로운 변수가 된다. 새로운 변수는 나이와 대출금액의 분포에서 분산이 큰 방향을 의미하는데 사용자가 이러한 변수의 의미를 직관적으로 떠올리기 어려운 문제점이 있다.

본 발명의 실시 예가 이루고자 하는 기술적 과제는, 데이터 모델링에 실질적으로 도움이 되는 변수를 자동 생성하는 방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 데이터 모델링을 위한 변수 자동생성방법의 일 예는, 예측하고자 하는 타겟변수와 통계정보의 각 변수 사이의 상관관계를 분석하는 단계; 상기 통계정보의 변수들 중 상기 타겟변수와 상관관계가 높은 순으로 복수 개의 변수를 후보변수로 선택하는 단계; 상기 후보변수에서 일정 개수의 변수를 임의 추출하는 단계; 상기 임의 추출한 변수들 사이의 결합을 통해 새로운 변수를 생성하는 단계; 및 상기 새로운 변수를 상기 통계정보에 저장하는 단계;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 데이터 모델링을 위한 변수자동생성장치의 일 예는, 통계정보를 기초로 예측하고자 하는 타겟변수와 상기 통계정보의 각 변수 사이의 상관관계를 분석하는 상관관계분석부; 상기 통계정보의 변수들 중 상기 타겟변수와 상관관계가 높은 순으로 복수 개의 변수들을 후보변수로 선택하는 후보변수선별부; 상기 후보변수에서 임의 추출한 변수들 사이의 결합을 통해 새로운 변수를 생성하는 변수생성부; 및 상기 새로운 변수를 상기 통계정보에 저장하는 데이터저장부;를 포함한다.

본 발명의 실시 예에 따르면, 사용자의 개입 없이 원 데이터에 존재하는 변수를 통해 새로운 변수를 자동으로 생성할 수 있다. 원 데이터에 포함된 변수가 수백 또는 수천 개 이상인 경우에도 예측모델에 실질적으로 도움이 되는 변수를 생성할 수 있다. 원 데이터에 포함된 변수들 중에서 확률적으로 선별된 후보변수를 활용하므로 다양한 변수를 생성할 수 있다. 또한, 전체 변수가 아닌 선별된 후보변수를 활용하므로 다양한 변수 생성을 위한 불필요한 연산을 효과적으로 줄일 수 있다.

도 1은 본 발명의 실시 예에 따른 변수자동생성장치와 통계정보데이터베이스의 일 예를 도시한 도면,
도 2는 본 발명의 실시 예에 따른 통계정보의 일 예를 도시한 도면,
도 3은 본 발명의 실시 예에 따른 변수 자동생성방법의 일 예를 도시한 흐름도,
도 4는 본 발명의 실시 예에 따라 타겟변수와 통계정보의 각 변수 사이의 상관관계를 파악하는 방법의 일 예를 도시한 도면,
도 5는 본 발명의 실시 예에 따른 후보변수로부터 새로운 변수 생성에 사용할 변수를 선별하는 방법의 일 예를 도시한 도면,
도 6은 본 발명의 실시 예에 따라 후보변수로부터 추출한 변수들 사이의 결합을 통해 새로운 변수를 생성하는 방법의 일 예를 도시한 도면,
도 7은 본 발명의 실시 예에 따라 새롭게 생성된 변수를 정의하는 다항식의 가중치 및 바이어스를 결정하는 방법의 일 예를 도시한 도면,
도 8은 본 발명의 실시 예에 따른 룰 방식으로 변수를 결합하는 방법의 일 예를 도시한 도면,
도 9는 본 발명의 실시 예에 따라 새로운 변수가 생성된 통계정보의 일 예를 도시한 도면, 그리고,
도 10은 본 발명의 실시 예에 따른 변수자동생성장치의 구성의 일 예를 도시한 도면이다.

이하에서, 첨부된 도면들을 참조하여 본 발명의 실시 예에 따른 데이터 모델링을 위한 변수 자동생성방법 및 그 장치에 대해 상세히 살펴본다.

도 1은 본 발명의 실시 예에 따른 변수자동생성장치와 통계정보데이터베이스의 일 예를 도시한 도면이다.

도 1을 참조하면, 변수자동생성장치(100)는 통계정보데이터베이스(110)에 저장된 통계정보의 변수를 기초로 데이터 모델링을 위한 적어도 하나 이상의 새로운 변수를 자동생성한다.

변수자동생성장치(100)는 메모리, 프로세서, 입출력장치 등을 포함하는 컴퓨팅 장치로 구현될 수 있다. 예를 들어, 메모리는 변수 자동생성 알고리즘이 구현된 소프트웨어 프로그램을 로딩하고, 프로세서는 메모리에 로딩된 소프트웨어 프로그램을 수행하여 본 실시 예에 따른 새로운 변수를 생성할 수 있다. 변수 자동생성 방법의 일 예가 도 3에 도시되어 있다.

통계정보데이터베이스(110)는 각종 통계정보를 저장한다. 여기서, 통계정보는 적어도 하나 이상의 변수에 대한 정보를 포함하는 데이터집합을 의미한다. 예를 들어, 은행 고객에 대한 통계정보는 성별, 나이, 소득, 기존대출건수, 기존대출금액 등을 변수로 하는 정보를 포함할 수 있다. 통계정보의 일 예가 도 2에 도시되어 있다.

도 2는 본 발명의 실시 예에 따른 통계정보의 일 예를 도시한 도면이다.

도 2를 참조하면, 통계정보(200)는 적어도 하나 이상의 변수(210)에 대한 정보를 포함하는 적어도 하나 이상의 샘플(230)을 포함한다. 또한, 통계정보(200)는 데이터 모델링(즉, 예측모델)을 통해 예측하고자 하는 타겟변수(220)를 포함할 수 있다. 예를 들어, 도 1에서 살핀 은행 고객에 대한 통계정보에서, 타겟변수(220)는 고객신용도일 수 있다.

도 3은 본 발명의 실시 예에 따른 변수 자동생성방법의 일 예를 도시한 흐름도이다.

도 3을 참조하면, 변수자동생성장치(100)는 타겟변수와 통계정보의 각 변수 사이의 상관관계를 파악한다(S300). 예를 들어, 도 2의 예에서, 변수자동생성장치(100)는 타겟변수 Y(220)와 통계정보의 각 변수 X1,...Xm(210) 사이의 상관관계를 파악한다. 변수사이의 상관관계파악의 일 예가 도 4에 도시되어 있다.

변수자동생성장치(100)는 타겟변수와 상관관계가 높은 일정 개수의 변수를 후보변수로 선택한다(S310). 타겟변수와 통계정보의 각 변수 사이의 상관관계를 기초로 5개의 후보변수를 선택하는 일 예가 도 5에 도시되어 있다. 후보변수의 개수는 실시 예에 따라 다양하게 설정될 수 있다.

후보변수가 결정되면, 변수자동생성장치(100)는 후보변수에서 일정 개수의 변수를 무작위 추출한다(S320). 도 5에는 5개의 후보변수 중에서 3개를 임의 추출하는 예가 도시되어 있다. 후보변수에서 추출하는 변수의 개수는 실시 예에 따라 다양하게 설정될 수 있다.

일 실시 예로, 변수자동생성장치(100)는 각 후보변수에 대해 동일한 추출 확률을 적용하여 일정 개수의 변수를 추출할 수 있다. 다른 실시 예로, 변수자동생성장치(100)는 타겟변수와 상관관계가 높은 변수가 더 잘 추출될 수 있도록 상관관계의 크기에 따라 각 후보변수에 서로 다른 추출 확률을 부여할 수 있다. 예를 들어, 상관관계가 높을수록 더 높은 추출 확률을 부여할 수 있다. 각 후보변수에 서로 다른 추출확률을 부여하여 추출하는 방법의 일 예에 대해 도 5에서 살펴본다.

변수자동생성장치(100)는 후보변수에서 추출한 일정 개수의 변수를 서로 결합하여 새로운 변수를 생성한다(S330). 변수 사이의 결합은 선형 방식, 곱셈 방식, 나눗셈 방식 또는 룰(rule) 방식 등 다양할 수 있다. 다양한 변수 결합 방법의 예가 도 6 및 도 8에 도시되어 있다.

변수자동생성장치(100)는 새로운 변수를 통계정보에 저장한다. 즉, 변수자동생성장치(100)는 각 샘플에 대한 새로운 변수의 값을 파악하여 통계정보에 반영한다. 예를 들어, 새로운 변수 G1,G2,...,G5가 생성되었다면, 변수자동생성장치(100)는 도 9와 같이 통계정보데이터베이스(110)의 통계정보에 각 샘플별 해당 변수의 값을 파악하여 저장한다.

본 실시 예에 따라 새롭게 생성된 변수는 타겟변수를 예측하는 데이터 모델링(즉, 예측모델)에 활용된다. 예를 들어, 머신러닝 등을 포함한 종래의 다양한 모델링 방법은 새롭게 생성된 변수를 활용하여 보다 정확한 예측모델을 생성할 수 있다.

도 4는 본 발명의 실시 예에 따라 타겟변수와 통계정보의 각 변수 사이의 상관관계를 파악하는 방법의 일 예를 도시한 도면이다.

도 2 및 도 4를 함께 참조하면, 변수자동생성장치(100)는 타겟변수 Y(220)와 통계정보의 각 변수 X1,...,Xm(210) 사이의 상관관계를 파악한다. 예를 들어, 변수자동생성장치(100)는 f-test를 이용하여 타겟변수(220)에 대한 각 변수(210)의 상대적 중요도를 파악할 수 있다. f-test 외의 다양한 방법이 본 실시 예에 적용될 수 있다.

변수자동생성장치(100)는 통계정보의 변수들(210) 중 타겟변수(220)와 상관관계가 높은 순으로 복수 개의 변수를 후보변수로 선택할 수 있다. 예를 들어, 후보변수의 개수가 5개로 정의되고 타겟변수와 상관관계가 높은 순서가 X3,X4,X5,X1,X2이면, 변수자동생성장치(100)는 도 5와 같이 X3,X4,X5,X1,X2를 후보변수로 선별한다.

도 5는 본 발명의 실시 예에 따른 후보변수로부터 새로운 변수 생성에 사용할 변수를 선별하는 방법의 일 예를 도시한 도면이다.

도 5를 참조하면, 후보변수(500)는 X3,X4,X5,X1,X2이다. 변수자동생성장치(100)는 후보변수(500)에서 일정 개수의 변수를 임의 추출(530)한다. 임의 추출하는 변수의 개수는 실시 예에 따라 다양하게 설정될 수 있으며, 본 실시 예는 3개라고 정의한다.

변수자동생성장치(100)는 후보변수(500)에서 3개의 변수를 무작위로 추출할 때 각 변수의 추출확률을 서로 다르게 할 수 있다. 이를 위해 먼저, 변수자동생성장치(100)는 상관관계가 높은 순으로 후보변수(500)를 순차적으로 배열하고 각 후보변수(500)에 순차적으로 5,4,3,2,1의 중요도(510)를 부여할 수 있다. 여기서 중요도(510)는 각 후보변수(500) 사이의 상대적 중요도를 나타내는 값으로 다양한 형태로 표현될 수 있다. 예를 들어, 5개의 후보변수(500)에 상관관계의 크기에 따라 10,8,6,4,2를 부여하거나, 100, 50, 25, 12, 5와 같이 부여하는 등 실시 예에 따라 부여하는 중요도 값의 크기는 다양하게 변형 가능하다.

변수자동생성장치(100)는 각 후보변수(500)에 부여된 중요도(5100에 따라 각 후보변수(500)의 추출 확률을 서로 다르게 부여할 수 있다. 본 실시 예와 같이 5,4,3,2,1의 중요도(510)가 부여된 경우에 확률적인 접근을 위해 총 합이 1이 되도록 중요도(510)를 정규화(520)할 수 있다. 즉, 각 후보변수(500)의 중요도(510)를 중요도 총합(15=5+4+3+2=1)으로 나누어 정규화(520)할 수 있다. 예를 들어, 상관관계가 가장 높은 후보변수 X3는 5/15로 정규화(520)된다.

변수자동생성장치(100)는 정규화(520)된 값을 추출 확률로 이용하여 일정 개수( 실시 예는 3개)의 변수를 무작위 추출(530)한다. 본 실시 예에서 후보변수X3는 (5/15 * 100)%의 추출확률을 가지며, 후보변수 X1은 (2/15 * 100)%의 추출확률을 가진다. 추출확률에 따라 각 후보변수가 선택될 확률이 서로 달라진다. 구슬을 예로 들면, 후보변수X3를 나타내는 구슬이 5개, 후보변수X4를 나타내는 구술이 4개, 후보변수X5를 나타내는 구슬이 3개, 후보변수X1을 나타내는 구슬이 2개, 후보변수X2를 나타내는 구슬이 1개 든 주머니(총 15개(=중요도 총합)의 구슬)에서 무작위로 구슬을 꺼내는 것과 동일하다.

도 6은 본 발명의 실시 예에 따라 후보변수로부터 추출한 변수들 사이의 결합을 통해 새로운 변수를 생성하는 방법의 일 예를 도시한 도면이다.

도 6을 참조하면, 변수 결합 방식은 추출한 변수들의 전부 또는 일부를 선형으로 결합하는 선형방식(600)과, 변수들에 곱셈, 나눗셈 등의 각종 연산 방법을 적용하여 결합하는 방식(610,620)과, 의사결정나무를 이용하는 규칙(rule) 방식(630) 등이 존재한다.

이하에서, 도 5의 예에서 후보변수(500)로부터 추출한 세 개의 변수 X3,X4,X2를 기준으로 설명한다.

선형방식(600)은 추출한 변수들(X3,X4,X2) 중 적어도 두 개 이상의 변수를 선형으로 결합하여 새로운 변수(G1)를 생성한다. 본 실시 예는 세 개의 변수(X3,X4,X2) 모두를 선형으로 결합하는 예를 도시하고 있으나, 변수자동생성장치(100)는 X3와 X4의 선형결합으로 이루어진 새로운 변수, X4와 X2의 선형결합으로 이루어진 새로운 변수, X3와 X2의 선형결합으로 이루어진 새로운 변수 등을 생성할 수 있다. 만약 후보변수로부터 추출한 변수의 개수가 많다면 이들 변수의 조합 방법도 많아진다. 이 경우에 변수자동생성장치(100)는 일정 개수 이하의 새로운 변수만을 생성할 수 있다.

나눗셈 방식(610)은 두 개 이상의 변수 사이의 나눗셈을 통해 새로운 변수(G2)를 생성한다. 변수를 나누는 방식은 매우 다양할 수 있다. 본 실시 예는, X3/X4, X3/X2, X2/X4의 세 항으로 구성된 다항식을 새로운 변수(G2)로 생성하는 예를 도시하고 있으나, (X2*X3)/X4, X2/(X3*X4) 등 변수들 사이를 나누는 방식은 매우 많이 존재할 수 있으며, 또한 나눗셈으로 구성된 항을 한 개로 구성할지 복수 개로 구성할지 매우 많은 조합 형태가 존재할 수 있다. 변수자동생성장치(100)는 나눗셈 방식의 조합 가능한 모든 방법을 각각 새로운 변수로 생성할 수 있으나, 일정 개수(예를 들어, 10개 또는 100개 등)의 새로운 변수가 생성되면 새로운 변수의 생성을 종료하도록 할 수도 있다.

곱셈 방식(620)은 두 개 이상의 변수 사이의 곱셈을 통해 새로운 변수(G3)를 생성한다. 곱셈 방식을 이용한 새로운 변수 생성 방법은 앞서 살핀 나눗셈 방식과 같이 매우 다양한 조합 방법이 존재한다. 변수자동생성장치9100)는 곱셈 방식의 조합 가능한 모든 방법을 각각 새로운 변수로 생성할 수 있으나, 일정 개수(예를 들어, 10개 또는 100개 등)의 새로운 변수가 생성되면 새로운 변수의 생성을 종료하도록 할 수 있다.

변수를 결합하여 생성되는 새로운 변수는 다항식으로 표현된다. 이때 다항식의 각 항의 변수에 대한 가중치(W₃,W₃'W₃",W₄,W₄'W₄",W₂,W₂',W₂") 및 바이어스(bias)는 새로운 변수와 타겟변수 사이의 회귀분석을 통해 결정될 수 있다. 이에 대한 일 예가 도 7에 도시되어 있다.

규칙방식(630)은 의사결정나무를 이용하는 방법으로 이에 대해서는 도 8에서 다시 살펴본다.

본 실시 예의 변수 결합 방법은 이해를 돕기 위한 하나의 예이며, 본 발명이 반드시 이에 한정되는 것은 아니며 실시 예에 따라 다양한 방법의 변수 결합 방법이 본 실시 예에 적용될 수 있다. 예를 들어, 변수자동생성장치(100)는 선형방식, 나눗셈방식, 곱셉방식을 서로 조합하여 새로운 변수를 생성할 수도 있다.

도 7은 본 발명의 실시 예에 따라 새롭게 생성된 변수를 정의하는 다항식의 가중치 및 바이어스를 결정하는 방법의 일 예를 도시한 도면이다.

도 6 및 도 7을 참조하면, 후보변수에서 임의 추출한 변수들을 결합하여 만들어지는 다항식이 새로운 변수(G1,G2,G3)가 된다. 본 실시 예는 선형방식(600)으로 결합된 새로운 변수(G1)를 구성하는 다항식의 각 항의 가중치(W₃,X₄,X₂)와 바이어스를 구하는 예를 도시하고 있다.

변수자동생성장치(100)는 새로운 변수를 구성하는 다항식(700)과 타겟변수(200)로 이루어진 모델을 회귀분석하여 가중치 및 바이어스를 결정할 수 있다. 예를 들어, 변수자동생성장치(100)는 회귀분석방법으로 릿지 회귀분석(ridge regression)을 이용할 수 있다. 이 외에도 타겟변수(200)와 다항식(700)으로 구성된 모델을 분석하는 다양한 회귀분석이 방법이 본 실시 예에 적용될 수 있다.

도 8은 본 발명의 실시 예에 따른 룰 방식으로 변수를 결합하는 방법의 일 예를 도시한 도면이다.

도 8을 참조하면, 변수자동생성장치(100)는 후보변수에서 추출한 변수(도 5의 X3,X4,X2)에 대한 조건을 노드로 하는 의사결정나무(decision tree)를 생성할 수 있다. 의사결정나무를 생성하는 종래의 다양한 방법이 본 실시 예에 적용될 수 있다. 변수장동생성장치(100)는 각 변수의 배치 위치(루트 노드(800), 자식 노드(810,820) 등)와 조건 등에 따라 복수 개의 의사결정나무를 생성할 수 있다. 다만, 계산량 등을 고려하여 변수자동생성장치(100)는 일정 개수의 의사결정나무만을 생성할 수 있다.

의사결정나무가 생성되면, 변수자동생성장치(100)는 도 2에서 살펴본 통계정보의 각 샘플을 의사결정나무에 따라 분류하여 각 리프(830,840,850,860)에 해당하는 샘플을 파악한다. 그리고 변수자동생성장치(100)는 각 리프에 속한 샘플들의 타겟변수의 평균을 구하고, 평균이 가장 높거나 가장 낮은 리프로 향하는 경로(870,880)의 노드 조건을 새로운 변수(G4,G5)로 생성한다.

본 실시 예에서, 제2 리프(840)의 각 샘플의 평균이 가장 높고, 제4 리프(860)의 각 샘플의 평균이 가장 낮다면, 제2 리프(840)로 향하는 경로(870)의 조건(W3>0.2 & X4>=1.5)과 제4 리프(860)로 향하는 경로의 조건(W3<=0.2 & X2<=0.1)을 각각 새로운 변수(G4,G5)로 생성한다.

변수자동생성장치(100)는 규칙 방식(630)으로 결정된 새로운 변수(G4,G5)를 도 9와 같이 통계정보에 반영하고, 각 샘플이 해당 변수의 조건을 만족하는지 여부를 기 정의된 값(예를 들어, 플래그)으로 통계정보에 입력할 수 있다. 예를 들어, 변수자동생성장치(100)는 새로운 변수(G4,G5)의 조건을 만족하는 샘플에 대해 '1'을 부여하고 조건을 만족하지 않은 샘픔에 대해 '0'의 값을 부여할 수 있다.

도 9는 본 발명의 실시 예에 따라 새로운 변수가 생성된 통계정보의 일 예를 도시한 도면이다.

도 9를 참조하면, 변수자동생성장치(100)는 새롭게 생성된 변수들(G1,G2,G3,G4,G5)(900)를 통계정보에 반영하고, 각 샘플에 대해 새로운 변수의 값(910)을 파악하여 저장한다.

도 10은 본 발명의 실시 예에 따른 변수자동생성장치의 구성의 일 예를 도시한 도면이다.

도 10을 참조하면, 변수자동생성장치(100)는 상관관계분석부(1000), 후보변수생성부(1010), 변수생성부(1020) 및 데이터저장부(1030)를 포함한다.

상관관계분석부(1000)는 예측하고자 하는 타겟변수와 통계정보의 각 변수 사이의 상관관계를 분석한다. 상관관계의 분석방법으로 f-test가 이용될 수 있다.

후보변수생성부(1010)는 통계정보의 변수들 중 타겟변수와 상관관계가 높은 순으로 복수 개의 변수를 후보변수로 선택한다. 후보변수생성부(1010)는 각 후보변수에 상관관계의 순서로 서로 다른 추출 확률을 부여하고 임의 추출할 수 있다. 예를 들어, 상관관계가 높은 후보변수에 더 높은 추출 확률을 부여하여 상관관계가 높은 후보변수가 더 잘 추출될 수 있도록 한다.

변수생성부(1020)는 후보변수에서 일정 개수의 변수를 임의 추출하고, 임의 추출한 변수들 사이의 결합을 통해 새로운 변수를 생성한다. 변수생성부(1020)는 임의 추출한 변수들 사이의 덧셈, 곱셈 또는 나눗셈으로 구성된 항을 포함하는 다항식을 새로운 변수로 생성하거나, 도 8과 같은 의사결정나무를 이용하여 새로운 변수를 생성할 수 있다. 변수생성부(1020)는 다항식으로 구성된 새로운 변수의 경우에 새로운 변수와 타겟변수 사이의 회귀분석을 통해 다항식의 바이어스 및 각 항의 가중치를 파악할 수 있다.

데이터저장부(1030)는 새로운 변수에 대한 값을 계산하여 통계정보에 저장한다. 새로운 변수가 의사결정나무를 이용하여 생성된 조건문 형태인 경우에, 데이터저장부(1030)는 각 샘플이 새로운 변수에 포함된 각 노드 조건을 만족하는지 여부를 기 정의된 숫자 또는 문자로 통계정보에 표시할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

예측하고자 하는 타겟변수와 통계정보의 각 변수 사이의 상관관계를 분석하는 단계;
상기 통계정보의 변수들 중 상기 타겟변수와 상관관계가 높은 순으로 복수 개의 변수를 후보변수로 선택하는 단계;
상관관계의 크기에 따라 각 후보변수에 부여된 추출확률을 기초로 상기 후보변수에서 일정 개수의 변수를 임의 추출하는 단계;
상기 임의 추출한 변수들 사이의 결합을 통해 새로운 변수를 생성하는 단계; 및
상기 새로운 변수를 상기 통계정보에 저장하는 단계;를 포함하는 것을 특징으로 하는 데이터 모델링을 위한 변수 자동생성방법.
제 1항에 있어서, 상기 임의 추출하는 단계는,
상기 후보변수에 대해 상관관계의 순서로 서로 다른 추출 확률을 부여하는 단계; 및
상기 추출 확률에 따라 변수를 임의 추출하는 단계;를 포함하는 것을 특징으로 하는 데이터 모델링을 위한 변수 자동생성방법.
제 1항에 있어서, 상기 새로운 변수를 생성하는 단계는,
상기 임의 추출한 변수들 사이의 결합을 통해 생성되는 복수의 항으로 구성된 다항식과 상기 타겟변수 사이의 회귀분석을 통해 상기 다항식의 바이어스 및 각 항의 가중치를 파악하는 단계; 및
상기 바이어스 및 가중치가 반영된 다항식을 새로운 변수로 생성하는 단계;를 포함하는 것을 특징으로 데이터 모델링을 위한 변수 자동생성방법.
제 3항에 있어서,
상기 다항식은 상기 임의 추출한 변수들 사이의 덧셈, 곱셈 또는 나눗셈으로 구성된 항을 포함하는 것을 특징으로 하는 데이터 모델링을 위한 변수 자동생성방법.
제 1항에 있어서,
상기 새로운 변수를 생성하는 단계는,
상기 임의 추출한 각 변수에 대한 조건을 노드로 하는 적어도 하나 이상의 의사결정나무를 생성하는 단계;
상기 의사결정나무의 각 리프에 대한 타겟변수의 평균을 산출하는 단계;
상기 평균이 가장 높거나 낮은 리프로 향하는 경로의 노드 조건을 새로운 변수로 생성하는 단계;를 포함하고,
상기 통계정보에 저장하는 단계는,
기 정의된 숫자 또는 문자로 상기 새로운 변수에 포함된 각 노드 조건의 만족 여부를 상기 통계정보에 표시하는 단계;를 포함하는 것을 특징으로 하는 데이터 모델링을 위한 변수 자동생성방법.
통계정보를 기초로 예측하고자 하는 타겟변수와 상기 통계정보의 각 변수 사이의 상관관계를 분석하는 상관관계분석부;
상기 통계정보의 변수들 중 상기 타겟변수와 상관관계가 높은 순으로 복수 개의 변수들을 후보변수로 선택하는 후보변수선별부;
상관관계의 크기에 따라 각 후보변수에 부여된 추출확률을 기초로 상기 후보변수에서 일정 개수의 변수를 임의 추출하고, 임의 추출한 변수들 사이의 결합을 통해 새로운 변수를 생성하는 변수생성부; 및
상기 새로운 변수를 상기 통계정보에 저장하는 데이터저장부;를 포함하는 것을 특징으로 하는 변수자동생성장치.
제 6항에 있어서, 상기 후보변수선별부는,
상기 후보변수에 대해 상관관계의 순서로 서로 다른 추출 확률을 부여하여 추출하는 것을 특징으로 하는 변수자동생성장치.
제 6항에 있어서, 상기 변수생성부는,
상기 임의 추출한 변수들 사이의 결합을 통해 생성되는 복수의 항으로 구성된 다항식과 상기 타겟변수 사이의 회귀분석을 통해 상기 다항식의 바이어스 및 각 항의 가중치를 파악하고, 상기 바이어스 및 가중치가 반영된 다항식을 새로운 변수로 생성하는 것을 특징으로 하는 변수자동생성장치.
제 6항에 있어서, 상기 변수생성부는,
상기 임의 추출한 각 변수에 대한 조건을 노드로 하는 적어도 하나 이상의 의사결정나무를 생성하고, 상기 의사결정나무의 각 리프에 대한 타겟변수의 평균이 가장 높거나 낮은 리프로 향하는 경로의 노드 조건을 새로운 변수로 생성하는 것을 특징으로 하는 변수자동생성장치.
제 1항 내지 제 5항 중 어느 한 항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.