KR102404983B1

KR102404983B1 - 릿지 회귀를 이용한 변수 선택 장치 및 방법

Info

Publication number: KR102404983B1
Application number: KR1020200051256A
Authority: KR
Inventors: 이진행; 조태근
Original assignee: 이진행; 조태근
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2022-06-13
Also published as: KR20210132847A

Abstract

본 발명은 릿지 회귀를 이용한 변수 선택 장치 및 방법에 관한 것으로서, 보다 상세하게는, 통계 모델 또는 머신 러닝 알고리즘을 이용해 데이터 분석을 수행하는 경우 릿지 회귀(Ridge Regression) 및 이와 연계되는 변수 선별 방법을 조합함으로써, 모델 생성에 이용되는 변수를 선택할 수 있는 릿지 회귀를 이용한 변수 선택 장치 및 방법에 관한 것이다.

Description

릿지 회귀를 이용한 변수 선택 장치 및 방법{DEVICE AND METHOD FOR VARIABLE SELECTION USING RIDGE REGRESSION}

빅데이터 시대가 도래하면서, 다뤄지고 있는 데이터가 기하급수적으로 늘고 있다. 이에 따라 대용량 데이터를 어떻게 효과적으로 처리할 것인가의 연구가 활발하게 진행되고 있다. 고차원 데이터 변수 선택방법(Feature selection)은 기계학습(Machine learning) 및 패턴인식분야에서 중요한 이슈 중 하나로, 원본 데이터에서 가장 좋은 성능을 보여줄 수 있는 데이터의 부분 집합을 찾는 방법이다. 이러한 특징 선택 방법은 고차원 데이터 분석 시 반드시 고려해야 될 문제 중 하나이며, 데이터 마이닝(Data mining) 분야에서 중요한 분야로 발전했다.

이러한 데이터 마이닝 및 머신 러닝 방법으로서, 모델 생성을 통한 데이터 분석 방법이 이용되고 있다. 여기에서, 데이터 마이닝 및 머신 러닝 모델은 다양하게 선택되는 변수에 기초하여 생성되는 결과물로서, 해당 모델의 평가 결과가 좋지 않은 경우에는 회귀 재분석을 위해 변수 선택 과정부터 다시 시작되어야 하므로, 가장 적절한 변수를 빠른 시간 내에 선택하는 것이 관건이라고 할 수 있다.

이와 관련하여, 통계 모델 중 회귀 모델에서 이용되는 방법론 중 하나로서 릿지 회귀(Ridge regression)가 있으며, 상기 릿지 회귀는 주요하지 않은 변수에 대한 영향도를 대부분 감소시킴으로써, 회귀 모델의 복잡도를 줄일 수 있는 효과가 있다. 이에 따라, 릿지 회귀를 데이터 마이닝 및 머신 러닝 과정에 확장 적용하면 상술한 효과를 기대할 수 도 있다.

그러나, 릿지 회귀를 이용하여 회귀 분석을 수행할 경우, 데이터를 표현하는 일부 변수들의 영향도를 대부분 감소시킬 수 있지만, 회귀 모델을 생성하는 경우 해당 변수의 영향도가 감소될 뿐 변수가 제외되는 것은 아니기 때문에, 이러한 릿지 회귀를 단독으로 적용하여 변수를 선택하기 위한 방법으로 활용하기는 어려우며, 변수 간의 우선 순위를 결정하지 못하는 등의 문제도 있다.

이와 관련하여, 선행문헌인 한국공개특허 제10-2016-0009012호는 프라이버시-보호 추천을 위한 방법 및 시스템으로서, 행렬 분해 및 릿지 회귀에 기초하여 평가 기여 사용자들 및 비 기여 사용자들에게 블라인드 방식으로 추천들을 제공하는 방법 및 시스템을 개시하고 있다. 그러나, 행렬 분해 동작에 원래 참여하지 않았던 새로운 사용자에게 추천들을 제공하기 위해 추천 시스템이 릿지 회귀를 채용한 부분을 다룰 뿐, 이를 통계 모델 생성과 관련하여 변수를 선택하는데 이용하려는 방법을 제시하고 있는 것은 아니다.

한국공개특허 제10-2016-0009012호

본 발명은 상술한 문제점을 해결하기 위해 고안된 것으로서, 회귀 모델 생성에 이용되는 릿지 회귀 및 릿지 회귀가 나타내는 단점을 보완하기 위한 변수 선별 방법들을 조합하고, 상기 조합된 변수 선별 방법을 통해 통계 모델 및 기계학습 모델 생성 시 이용되는 변수를 적절하게 선택할 수 있는 릿지 회귀를 이용한 변수 선택 장치 및 방법을 제공하고자 한다.

본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 방법은 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 단계, 상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 단계, 상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 단계, 상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합하는 단계 및 상기 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 위해 사용할 변수를 최종 선택하는 단계를 포함할 수 있으며, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를 릿지 회귀(Ridge Regression)를 이용하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를, 변수 각각에 대해서 산출되는 정보 가치(IV, Information Value)값에 기초하여 상기 변수 각각에 대한 중요도를 결정하고, 상기 결정된 중요도를 토대로 제거할 변수를 선택하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 변수 각각에 대해서 산출되는 정보 가치값에 기초하여 상기 각 변수 각각에 대한 중요도를 결정하는 단계는 하기 수학식 1에 의해 산출되는 값을 상기 정보 가치값으로 결정하는 단계를 포함할 수 있다.

[수학식 1]

(여기에서, IV는 정보 가치값이고,

는 비발생 사건의 백분율값이며,

는 발생 사건의 백분율값임)

일 실시예에서, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를, 결정 트리(Decision Tree)를 이용하는 머신 러닝을 통해 변수를 분류함으로써 제거할 변수를 선별 하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 결정 트리를 이용하는 머신 러닝을 통해 변수를 분류하는 단계는 변수의 특성 중요도(Feature Importance)에 기초하여 각 변수를 분류하는 단계를 포함할 수 있다.

일 실시예에서, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를, 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.

일 실시예에서, 상기 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 단계는 제공되는 변수를 이용하여 회귀 모델을 생성하는 단계 및 상기 생성된 회귀 모델의 예측값과 실제값을 비교하고, 상기 예측값 및 실제값 간의 차이가 가장 작은 변수부터 순차적으로 선택하는 단계를 포함할 수 있다.

일 실시예에서, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를, 선형 및 비선형(Linear and Non-Linear) 회귀분석 중 적어도 하나를 수행하여 각 변수에 대한 잔차를 측정하고, 상기 잔차가 소정의 값 이상인 변수를 제거하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 장치는 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 데이터 수집부, 상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 파생 데이터 생성부, 상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 변수 추출부, 상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합하는 변수 선별 방법 조합부 및 상기 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 생성할 변수를 최종 선택하는 변수 선택부를 포함하되, 상기 변수 선별 방법 조합부는 상기 조합되는 변수 선별 방법 중 하나를 릿지 회귀(Ridge Regression)를 이용하는 변수 선별 방법으로 구성할 수 있다.

본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 장치 및 방법은 릿지 회귀 및 릿지 회귀와 조합되는 변수 선별 방법을 이용함으로써, 기존 릿지 회귀만을 이용하는 방법보다 더 주요한 변수만을 선별하여 정확도 높은 통계 모델 및 기계학습 모델을 생성할 수 있는 효과가 있다.

본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 장치 및 방법은 릿지 회귀 및 릿지 회귀와 조합되는 변수 선별 방법을 이용하여 각 변수에 대한 중요도를 판단할 수 있으므로, 변수 간의 우선순위를 용이하게 결정할 수 있으며, 결정된 우선순위를 토대로 통계 모델 생성에 이용할 변수의 개수를 유동적으로 선택하여 조절할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 방법을 통해 통계 모델을 생성할 변수를 선택하게 되는 과정을 설명하기 위한 도면이다.
도 3 내지 도 6은 본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 방법을 통해 조합될 수 있는 변수 선별 방법 및 조합된 변수 선별 방법을 통해 변수를 제거하는 과정을 설명하기 위한 도면이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

또한, 명세서에 기재된 "...부"의 용어는 하나 이상의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 장치의 구성을 도시한 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 장치(100)는 통계 분석을 위한 통계 모델 생성에 이용되는 변수를 선택하는 장치로서, 데이터 수집부(110), 파생 데이터 생성부(120), 변수 추출부(130), 변수 선별 방법 조합부(140) 및 변수 선택부(150)를 포함하여 구성될 수 있다.

도 1에 도시된 릿지 회귀를 이용한 변수 선택 장치(100)의 구성은 일 실시예에 따른 것이고, 그 구성요소들이 도 1에 도시된 실시예에 한정되는 것은 아니며, 필요에 따라 일부 구성요소가 부가, 변경 또는 삭제될 수 있다.

데이터 수집부(110)는 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합할 수 있다.

여기에서, 정형 데이터는 형태가 있으며 연산 가능한 데이터를 의미할 수 있으며, 비정형 데이터는 형태가 없고 연산 가능하지 않은 데이터를 의미할 수 있다. 예를 들어, 비정형 데이터는 텍스트, 영상, 음성 등의 형태로 나타내는 데이터를 포함할 수 있다.

파생 데이터 생성부(120)는 데이터 수집부(110)에서 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성할 수 있다.

여기에서, 상술한 비정형 데이터의 경우에는 데이터의 구성을 통계치 또는 그래프 등의 방식으로 표현하는 과정을 통해 정형화될 수 있으며, 정형화된 데이터를 토대로 통계 분석에 이용하기 위한 파생 데이터가 생성될 수 있다.

변수 추출부(130)는 파생 데이터 생성부(120)에서 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출할 수 있다.

여기에서, 추출된 전체 변수는 통계 분석을 위해 모두 사용되지 않는 것이 일반적이며, 다양한 변수 선택 방법론에 따라 선택되는 변수만으로 통계 모델을 생성함으로써, 통계 분석을 수행하게 된다. 통계 분석은 선택 또는 입력되는 변수를 이용하여 예측하려는 변수의 실제값과 가장 근접하는 예측값을 도출해내는 통계 모델을 생성하는 것을 목표로 할 수 있으며, 기본적으로 입력 변수를 하나씩 추가 또는 삭제하여 타겟 변수를 설명하는 정도를 측정하는 방법, 입력 변수를 하나씩 추가해보는 방법, 및 전체 입력 변수 중 하나씩 소거해보는 방법 등을 사용할 수 있다.

변수 선별 방법 조합부(140)는 변수 추출부(130)에서 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합할 수 있다.

여기에서, 본 발명의 바람직한 실시예에 따르면 변수 선별 방법 조합부(140)는 상기 적어도 두 개 이상 조합되는 변수 선별 방법 중 하나를, 릿지 회귀를 이용하는 변수 선별 방법으로 구성할 수 있다.

여기에서, 상기 릿지 회귀를 이용하는 변수 선별 방법은, 통계 모델 생성 시 주요하다고 판단되지 않은 변수의 계수를 0에 가깝게 만들어 영향도를 대폭 감소시킴으로써, 불필요하다고 판단되는 특징을 거의 포함되지 않도록 할 수 있다.

또한, 상술한 릿지 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 다른 변수 선별 방법에 대해서는 아래에 설명하고자 한다.

본 발명의 바람직한 실시예에 따르면 릿지 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 변수 선별 방법으로서, 변수 각각에 대해서 산출되는 정보 가치(IV, Information Value)값에 기초하여 상기 변수 각각에 대한 중요도를 결정하고, 상기 결정된 중요도를 토대로 제거할 변수를 선택하는 방법이 있을 수 있다. 상기 정보 가치값에 기초하여 각 변수에 대한 중요도를 결정하는 방법은 예를 들면, 0이상에서 0.02미만의 정보 가치값을 갖는 변수는 중요도 없음으로, 0.02이상에서 0.1미만의 정보 가치값을 갖는 변수는 중요도 낮음으로, 0.1이상에서 0.3미만의 정보 가치값을 갖는 변수는 중요도 중간으로, 0.3이상에서 0.5미만의 정보 가치값을 갖는 변수는 중요도 높음으로, 0.5이상에서 1까지의 정보 가치값을 갖는 변수는 중요도 매우 높음으로 결정할 수 있다.

또한, 상기 정보 가치값은 하기 수학식 1에 의해 산출되는 값으로 결정될 수 있다.

[수학식 1]

(여기에서, IV는 정보 가치값이고,

는 비발생 사건의 백분율값이며,

는 발생 사건의 백분율값임)

또한, 상술한 정보 가치값을 이용하는 변수 선별 방법은 예측하려는 대상이 구매 여부 등과 같이 발생 사건 또는 비발생 사건(이진법에서의 1 또는 0)으로 구분될 수 있는 경우에서 사용될 수 있다.

이어서, 본 발명의 바람직한 실시예에 따르면 따르면 릿지 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 변수 선별 방법으로서, 결정 트리(Decision Tree)를 이용하는 머신 러닝을 통해 변수를 분류함으로써 제거할 변수를 선택하는 방법이 있을 수 있다.

여기에서, 상기 결정 트리를 이용하는 변수 분류 방법은 변수가 나타내는 특성 중요도(Feature Importance)에 기초하여 각 변수를 분류할 수 있다.

또한, 본 발명의 바람직한 실시예에 따르면 상기 결정 트리 계열의 모델에 포함되는 엑스트라 트리(Extra-Tree) 또는 랜덤 포레스트(Random Forest) 등 의사결정나무(Classification and Regression Tree, CART) 계열 모델들을　이용하여 변수를 분류할 수 있다.

또한, 상술한 특성 중요도를 이용하는 변수 선별 방법은 예측하려는 대상이 구매 여부 등과 같이 발생 사건 또는 비발생 사건(이진법에서의 1 또는 0)으로 구분될 수 있는 경우에서 사용될 수 있다.

이어서, 본 발명의 바람직한 실시예에 따르면 릿지 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 변수 선별 방법으로서, 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 방법이 있을 수 있다.

여기에서, 상기 분산을 이용한 변수 선택 방법은 먼저 제공되는 변수를 이용하여 통계 모델을 생성한 다음, 생성된 통계 모델의 예측값과 실제값을 비교했을 때, 상기 예측값 및 실제값 간의 차이가 가장 작은 변수부터 순차적으로 선택하는 방법으로 구성될 수 있다.

또한, 상술한 분산을 이용하는 변수 선별 방법은 예측하려는 대상이 주식 가격 또는 매출 등과 같이 연속되는 숫자로 표현되는 분야인 경우 사용될 수 있다.

이어서, 본 발명의 바람직한 실시예에 따르면 릿지 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 변수 선별 방법으로서, 선형 및 비선형(Linear and Non-Linear) 회귀분석 중 적어도 하나를 수행하여 각 변수에 대한 잔차를 측정하고, 상기 잔차가 소정의 값 이상인 변수를 제거하는 방법이 있을 수 있다.

여기에서, 상기 선형 및 비선형 회귀분석은 제공되는 변수 중 임의의 변수를 입력값으로 설정하고, 예측하고자 하는 변수를 예측값으로 설정하여 수행할 수 있다. 예를 들어, 상술한 입력값(x)이 로그의 진수에 위치하도록 설정하고, 예측값(y)과의 관계를 분석하는 회귀분석을 수행할 수 있다. 이 때, 수행되는 회귀분석을 통해 도출되는 예측값(y)과 실제값의 잔차를 측정하고, 잔차가 가장 큰 변수부터 순차적으로 제거하거나 또는 소정의 값 이상의 잔차가 나타나는 변수를 모두 제거하는 방법 등을 통해 주요하지 않은 것으로 판단되는 변수를 제거할 수 있다.

또한, 상술한 선형 및 비선형 회귀분석 중 적어도 하나를 이용하는 변수 선별 방법은 예측하려는 대상이 주식 가격 또는 매출 등과 같이 연속되는 숫자로 표현되는 분야인 경우 사용될 수 있다.

상술한 바를 참조하면, 본 발명의 바람직한 실시예로서 릿지 회귀와 정보 가치값을 이용한 변수 선별 방법의 조합, 릿지 회귀와 결정 트리를 이용한 변수 선별 방법의 조합, 릿지 회귀와 분산을 이용한 변수 선별 방법의 조합 및 릿지 회귀와 선형 및 비선형 회귀분석 중 적어도 하나를 이용한 변수 선별 방법의 조합이 제시될 수 있다.

한편, 본 발명의 일 실시예에 따른 변수 선별 방법의 조합이 상술된 조합에 한정되는 것은 아니며, 통계 모델의 정확도를 향상시키기 위한 목적 등으로 인해 세 개 이상의 변수 선별 방법들이 조합될 수 있다. 또한, 상기 언급된 바와 같이 조합되는 변수 선별 방법들의 변수 선별 순서가 고정되어 있는 것은 아니다. 예를 들어, 릿지 회귀와 정보 가치값을 이용한 변수 선별 방법의 조합의 경우에서, 릿지 회귀를 이용한 변수 선별 방법을 먼저 적용하여 일부 변수를 선별한 다음 정보 가치값을 이용한 변수 선별 방법을 적용하여 다시 일부 변수를 선별함으로써 최종적으로 통계 모델 생성에 이용할 변수를 선택할 수 있으며, 정보 가치값을 이용한 변수 선별 방법을 먼저 적용하여 일부 변수를 선별한 다음 릿지 회귀를 이용한 변수 선별 방법을 적용하여 다시 일부 변수를 선별함으로써 최종적으로 통계 모델 생성에 이용할 변수를 선택할 수 있다.

변수 선택부(150)는 변수 선별 방법 조합부(140)에서 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 생성할 변수를 최종 선택할 수 있다.

정리하면, 상술한 변수 선별 방법들의 조합에 대한 실시예를 통해 추출된 전체 변수 중 일부 변수가 제거될 수 있으며, 제거되지 않은 변수들이 선택되어 통계 모델 생성에 이용될 수 있다.

다음으로는, 본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 방법을 순서대로 설명하고자 한다.

도 2는 본 발명의 일 실시예에 따른 릿지 회귀를 이용한 변수 선택 장치를 통해 통계 모델 생성에 이용할 변수를 선택하는 방법을 설명하기 위한 순서도이다.

도 2를 참조하면, 먼저 통계 분석이 이루어지기 위한 기초가 되는 정형 데이터 및 비정형 데이터가 수집되어 취합되어야 하며, 이러한 취합된 데이터를 이용하기 위해서는 파생 데이터가 생성되어야 한다(S101).

다음으로, 파생 데이터가 생성되면 상기 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출할 수 있다(S102).

다음으로, 통계 모델을 생성하기 위해 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하는 작업이 필요하며, 변수 선별을 위해 주요하지 않은 변수를 제거하기 위한 변수 선별 방법들이 조합되어 사용될 수 있다(S103).

다음으로, 본 발명의 일 실시예에 따라 조합되는 변수 선별 방법들을 통해 상기 추출된 전체 변수 중 일부 변수가 제거될 수 있으며, 변수 선별 방법들의 조합은 본 발명의 일 실시예로서 한정되는 것은 아니다(S104).

다음으로, 조합된 변수 선별 방법을 통해 제거되지 않은 변수 전체 또는 일부를 선택하여 통계 모델을 생성할 수 있다(S105).

도 3 내지 도 6은 본 발명의 바람직한 실시예에 따라 조합되는 변수 선별 방법들을 이용하여 일부 변수를 제거하고, 통계 모델을 생성할 변수를 최종 선택하게 되는 과정을 나타내는 순서도이다.

도 3 내지 도 6에 나타나는 릿지 회귀를 이용한 변수 선택 과정은 대부분 서로 동일하나 본 발명의 실시예에 따라 릿지 회귀와 조합되는 변수 제거 방법(S203, S303, S403 및 S503)서로 다르게 제시되었다.

전술한 릿지 회귀를 이용한 변수 선택 방법은 도면에 제시된 순서도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 릿지 회귀를 이용한 변수 선택 장치
110: 데이터 수집부
120: 파생 데이터 생성부
130: 변수 추출부
140: 변수 선별 방법 조합부
150: 변수 선택부

Claims

변수 선택 장치에 의해 각 단계가 수행되는 릿지 회귀를 이용한 변수 선택 방법에 있어서,
데이터 수집부를 통해, 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 단계;
파생 데이터 생성부를 통해, 상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 단계;
변수 추출부를 통해, 상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 단계;
변수 선별 방법 조합부를 통해, 상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합하는 단계; 및
변수 선택부를 통해, 상기 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 위해 사용할 변수를 최종 선택하는 단계;를 포함하되,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 변수 선별 방법 조합부를 통해, 상기 조합되는 변수 선별 방법 중 하나를 릿지 회귀(Ridge regression)를 이용하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
릿지 회귀를 이용한 변수 선택 방법.
제1항에 있어서,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 선별 방법 중 하나를, 변수 각각에 대해서 산출되는 정보 가치(IV, Information Value)값에 기초하여 상기 변수 각각에 대한 중요도를 결정하고, 상기 결정된 중요도를 토대로 제거할 변수를 선택하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
릿지 회귀를 이용한 변수 선택 방법.
제2항에 있어서,
상기 변수 각각에 대해서 산출되는 정보 가치값에 기초하여 상기 각 변수 각각에 대한 중요도를 결정하는 단계는,
하기 수학식 1에 의해 산출되는 값을 상기 정보 가치값으로 결정하는 단계;를 포함하는 것을 특징으로 하는,
릿지 회귀를 이용한 변수 선택 방법.

[수학식 1]

(여기에서, IV는 정보 가치값이고,
는 비발생 사건의 백분율값이며,
는 발생 사건의 백분율값임)
제1항에 있어서,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 선별 방법 중 하나를, 결정 트리(Decision Tree)를 이용하는 머신 러닝을 통해 변수를 분류함으로써 제거할 변수를 선별 하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
릿지 회귀를 이용한 변수 선택 방법.
제4항에 있어서,
상기 결정 트리를 이용하는 머신 러닝을 통해 변수를 분류하는 단계는,
변수의 특성 중요도(Feature importance)에 기초하여 각 변수를 분류하는 단계;를 포함하는 것을 특징으로 하는,
릿지 회귀를 이용한 변수 선택 방법.
제1항에 있어서,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 선별 방법 중 하나를, 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
릿지 회귀를 이용한 변수 선택 방법.
제6항에 있어서,
상기 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 단계는,
제공되는 변수를 이용하여 회귀 모델을 생성하는 단계; 및
상기 생성된 회귀 모델의 예측값과 실제값을 비교하고, 상기 예측값 및 실제값 간의 차이가 가장 작은 변수부터 순차적으로 선택하는 단계;를 포함하는 것을 특징으로 하는,
릿지 회귀를 이용한 변수 선택 방법.
제1항에 있어서,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 선별 방법 중 하나를, 선형 및 비선형(Linear and Non-Linear) 회귀분석 중 적어도 하나를 수행하여 각 변수에 대한 잔차를 측정하고, 상기 잔차가 소정의 값 이상인 변수를 제거하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
릿지 회귀를 이용한 변수 선택 방법.
통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 데이터 수집부;
상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 파생 데이터 생성부;
상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 변수 추출부;
상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합하는 변수 선별 방법 조합부; 및
상기 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 생성할 변수를 최종 선택하는 변수 선택부;를 포함하되,
상기 변수 선별 방법 조합부는,
상기 조합되는 변수 선별 방법 중 하나를 릿지 회귀(Ridge Regression)를 이용하는 변수 선별 방법으로 구성하는 것을 특징으로 하는,
릿지 회귀를 이용한 변수 선택 장치.