KR102404982B1 - Device and method for variable selection using elastic net regression - Google Patents

Device and method for variable selection using elastic net regression Download PDF

Info

Publication number
KR102404982B1
KR102404982B1 KR1020200051265A KR20200051265A KR102404982B1 KR 102404982 B1 KR102404982 B1 KR 102404982B1 KR 1020200051265 A KR1020200051265 A KR 1020200051265A KR 20200051265 A KR20200051265 A KR 20200051265A KR 102404982 B1 KR102404982 B1 KR 102404982B1
Authority
KR
South Korea
Prior art keywords
variable
variable selection
variables
elastic net
selection method
Prior art date
Application number
KR1020200051265A
Other languages
Korean (ko)
Other versions
KR20210132852A (en
Inventor
이진행
조태근
Original Assignee
이진행
조태근
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이진행, 조태근 filed Critical 이진행
Priority to KR1020200051265A priority Critical patent/KR102404982B1/en
Publication of KR20210132852A publication Critical patent/KR20210132852A/en
Application granted granted Critical
Publication of KR102404982B1 publication Critical patent/KR102404982B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

본 발명은 엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법에 관한 것으로서, 보다 상세하게는, 통계 모델 또는 머신 러닝 알고리즘을 이용해 데이터 분석을 수행하는 경우 엘라스틱 넷 회귀(Elastic Net Regression) 및 이와 연계되는 변수 선별 방법을 조합함으로써, 모델 생성에 이용되는 변수를 선택할 수 있는 엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for selecting a variable using elastic net regression, and more particularly, when data analysis is performed using a statistical model or a machine learning algorithm, elastic net regression and variable selection associated therewith It relates to a variable selection apparatus and method using elastic net regression that can select variables used for model generation by combining methods.

Description

엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법{DEVICE AND METHOD FOR VARIABLE SELECTION USING ELASTIC NET REGRESSION}Device and method for variable selection using elastic net regression {DEVICE AND METHOD FOR VARIABLE SELECTION USING ELASTIC NET REGRESSION}

본 발명은 엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법에 관한 것으로서, 보다 상세하게는, 통계 모델 또는 머신 러닝 알고리즘을 이용해 데이터 분석을 수행하는 경우 엘라스틱 넷 회귀(Elastic Net Regression) 및 이와 연계되는 변수 선별 방법을 조합함으로써, 모델 생성에 이용되는 변수를 선택할 수 있는 엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for selecting a variable using elastic net regression, and more particularly, when data analysis is performed using a statistical model or a machine learning algorithm, elastic net regression and variable selection associated therewith It relates to a variable selection apparatus and method using elastic net regression that can select variables used for model generation by combining methods.

빅데이터 시대가 도래하면서, 다뤄지고 있는 데이터가 기하급수적으로 늘고 있다. 이에 따라 대용량 데이터를 어떻게 효과적으로 처리할 것인가의 연구가 활발하게 진행되고 있다. 고차원 데이터 변수 선택방법(Feature Selection)은 기계학습(Machine Learning) 및 패턴인식분야에서 중요한 이슈 중 하나로, 원본 데이터에서 가장 좋은 성능을 보여줄 수 있는 데이터의 부분 집합을 찾는 방법이다. 이러한 특징 선택 방법은 고차원 데이터 분석 시 반드시 고려해야 될 문제 중 하나이며, 데이터 마이닝(Data Mining) 분야에서 중요한 분야로 발전했다.With the advent of the big data era, the amount of data being handled is increasing exponentially. Accordingly, research on how to effectively process large amounts of data is being actively conducted. The high-dimensional data variable selection method (Feature Selection) is one of the important issues in machine learning and pattern recognition, and it is a method of finding a subset of data that can show the best performance from the original data. This feature selection method is one of the issues that must be considered when analyzing high-dimensional data, and has developed into an important field in the data mining field.

이러한 데이터 마이닝 및 머신 러닝 방법으로서, 모델 생성을 통한 데이터 분석 방법이 이용되고 있다. 여기에서, 데이터 마이닝 및 머신 러닝 모델은 다양하게 선택되는 변수에 기초하여 생성되는 결과물로서, 해당 모델의 평가 결과가 좋지 않은 경우에는 회귀 재분석을 위해 변수 선택 과정부터 다시 시작되어야 하므로, 가장 적절한 변수를 빠른 시간 내에 선택하는 것이 관건이라고 할 수 있다.As such a data mining and machine learning method, a data analysis method through model generation is used. Here, data mining and machine learning models are results generated based on variously selected variables. If the evaluation results of the models are not good, the process of selecting variables for regression reanalysis must be started again, so the most appropriate variables are selected. It can be said that it is the key to make a selection within a short time.

이와 관련하여, 통계 모델 중 회귀 모델에서 이용되는 방법론 중 하나로서 엘라스틱 넷 회귀(Elastic Net Regression)가 있으며, 상기 엘라스틱 넷 회귀는 회귀 모델의 복잡도를 감소시키기 위해 주요하지 않은 변수를 제거하는 라소 회귀(LASSO Regression) 및 주요하지 않은 변수에 대한 영향도를 대부분 감소시키는 릿지 회귀(Ridge Regression)의 특징이 복합된 방법론이다. 이에 따라, 엘라스틱 넷 회귀를 데이터 마이닝 및 머신 러닝 과정에 확장 적용하면 상술한 효과를 기대할 수 도 있다.In this regard, as one of the methodologies used in the regression model among statistical models, there is an elastic net regression, and the elastic net regression is a lasso regression ( LASSO Regression) and Ridge Regression, which reduces most of the influence on insignificant variables, are combined. Accordingly, if elastic net regression is extended and applied to data mining and machine learning processes, the above-described effects can be expected.

그러나, 엘라스틱 넷 회귀를 이용하여 회귀 분석을 수행할 경우, 데이터를 표현하는 일부 변수들을 제거하거나 일부 변수들의 영향도를 감소시킬 수 있지만, 변수 간의 우선 순위를 결정하지는 못하며, 이에 따라, 회귀 모델 생성 시 상황에 따라 변수를 변경하여 선택하기 어려운 문제가 발생한다.However, when regression analysis is performed using elastic net regression, some variables representing data may be removed or the influence of some variables may be reduced, but priorities between variables cannot be determined, and accordingly, a regression model is generated It is difficult to select by changing the variable depending on the city situation.

이와 관련하여, 선행문헌인 한국공개특허 제10-2017-0093878호는 고차 변수 선택 모델을 이용하여 주요 파라미터를 결정하는 방법을 개시하고 있다. 그러나, 고차 변수 선택 모델이 엘라스틱 넷(Elastic net), 순방향 단계 별 회귀(Forward-stagewise Regression) 및 최소각 회귀(Least angle Regression) 중 하나를 포함할 수 있고, 그 중에서 엘라스틱 넷 회귀 모델을 이용해 주요 파라미터 리스트를 결정할 수 있다는 부분에 대해서만 언급하고 있으며, 상술한 엘라스틱 넷 회귀를 이용해 모델을 생성하는 경우에서 나타나는 문제점을 해결하기 위한 방안을 제시하고 있는 것은 아니다.In this regard, Korean Patent Laid-Open No. 10-2017-0093878, which is a prior document, discloses a method for determining a main parameter using a higher-order variable selection model. However, the high-order variable selection model may include one of elastic net, forward-stagewise regression, and least angle regression. It only mentions the part that the parameter list can be determined, and does not suggest a method for solving the problem that occurs in the case of generating a model using the aforementioned elastic net regression.

한국공개특허 제10-2017-0093878호Korean Patent Publication No. 10-2017-0093878

본 발명은 상술한 문제점을 해결하기 위해 고안된 것으로서, 회귀 모델 생성에 이용되는 엘라스틱 넷 회귀 및 엘라스틱 넷 회귀가 나타내는 문제점을 보완하기 위한 변수 선별 방법들을 조합하고, 상기 조합된 변수 선별 방법을 통해 통계 모델 및 기계학습 모델 생성 시 이용되는 변수를 적절하게 선택할 수 있는 엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법을 제공하고자 한다.The present invention is devised to solve the above-described problems, and combines variable selection methods to compensate for the problems indicated by elastic net regression and elastic net regression used to generate a regression model, and a statistical model through the combined variable selection method and to provide an apparatus and method for selecting a variable using elastic net regression that can appropriately select a variable used when generating a machine learning model.

본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 방법은 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 단계, 상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 단계, 상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 단계, 상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합하는 단계 및 상기 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 위해 사용할 변수를 최종 선택하는 단계를 포함할 수 있으며, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를 엘라스틱 넷 회귀(Elastic Net Regression)를 이용하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.The variable selection method using elastic net regression according to an embodiment of the present invention comprises the steps of collecting and combining structured data and unstructured data, which are the basis of statistical analysis, and the statistical analysis based on the collected structured data and unstructured data. Generating derived data for use, extracting all variables used for generating a statistical model based on the generated derived data, and a variable selection method for selecting variables determined to be important among the extracted total variables. It may include combining at least two or more and finally selecting a variable to be used for generating a statistical model by removing some of the total variables through the combined variable selection method, wherein the variable selection method is performed at least The combining of two or more may include configuring one of the combined variable selection methods as a variable selection method using elastic net regression.

일 실시예에서, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를, 변수 각각에 대해서 산출되는 정보 가치(IV, Information Value)값에 기초하여 상기 변수 각각에 대한 중요도를 결정하고, 상기 결정된 중요도를 토대로 제거할 변수를 선택하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.In an embodiment, the step of combining at least two or more variable selection methods includes applying one of the combined variable selection methods to each of the variables based on an information value (IV) value calculated for each variable. The method may include determining the importance of a variable and configuring it as a variable selection method of selecting a variable to be removed based on the determined importance.

일 실시예에서, 상기 변수 각각에 대해서 산출되는 정보 가치값에 기초하여 상기 각 변수 각각에 대한 중요도를 결정하는 단계는 하기 수학식 1에 의해 산출되는 값을 상기 정보 가치값으로 결정하는 단계를 포함할 수 있다.In an embodiment, determining the importance for each of the variables based on the information value calculated for each of the variables includes determining the value calculated by Equation 1 below as the information value can do.

[수학식 1][Equation 1]

Figure 112020043624993-pat00001
Figure 112020043624993-pat00001

(여기에서, IV는 정보 가치값이고,

Figure 112020043624993-pat00002
는 비발생 사건의 백분율값이며,
Figure 112020043624993-pat00003
는 발생 사건의 백분율값임)(where IV is the information value,
Figure 112020043624993-pat00002
is the percentage of non-occurring events,
Figure 112020043624993-pat00003
is the percentage value of the occurrence)

일 실시예에서, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를, 결정 트리(Decision Tree)를 이용하는 머신 러닝을 통해 변수를 분류함으로써 제거할 변수를 선별 하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.In one embodiment, the step of combining at least two or more of the variable selection methods is to select a variable to be removed by classifying the variable through machine learning using a decision tree using one of the combined variable selection methods. It may include the step of configuring the variable selection method.

일 실시예에서, 상기 결정 트리를 이용하는 머신 러닝을 통해 변수를 분류하는 단계는 변수의 특성 중요도(Feature Importance)에 기초하여 각 변수를 분류하는 단계를 포함할 수 있다.In an embodiment, classifying the variable through machine learning using the decision tree may include classifying each variable based on a feature importance of the variable.

일 실시예에서, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를, 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.In one embodiment, the step of combining at least two or more variable selection methods comprises configuring one of the combined variable selection methods as a variable selection method for sequentially selecting the variables determined to be important using variance may include

일 실시예에서, 상기 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 단계는 제공되는 변수를 이용하여 회귀 모델을 생성하는 단계 및 상기 생성된 회귀 모델의 예측값과 실제값을 비교하고, 상기 예측값 및 실제값 간의 차이가 가장 작은 변수부터 순차적으로 선택하는 단계를 포함할 수 있다.In one embodiment, the step of sequentially selecting the variable determined to be important using the variance comprises generating a regression model using the provided variable and comparing the predicted value and the actual value of the generated regression model, The method may include sequentially selecting a variable having the smallest difference between the predicted value and the actual value.

일 실시예에서, 상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는 상기 조합되는 변수 선별 방법 중 하나를, 선형 및 비선형(Linear and Non-Linear) 회귀분석 중 적어도 하나를 수행하여 각 변수에 대한 잔차를 측정하고, 상기 잔차가 소정의 값 이상인 변수를 제거하는 변수 선별 방법으로 구성하는 단계를 포함할 수 있다.In an embodiment, the step of combining at least two or more of the variable selection methods includes performing at least one of linear and non-linear regression analysis for one of the combined variable selection methods for each variable. The method may include measuring the residual and configuring it as a variable selection method in which the variable having the residual is greater than or equal to a predetermined value is removed.

본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 장치는 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 데이터 수집부, 상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 파생 데이터 생성부, 상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 변수 추출부, 상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합하는 변수 선별 방법 조합부 및 상기 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 생성할 변수를 최종 선택하는 변수 선택부를 포함하되, 상기 변수 선별 방법 조합부는 상기 조합되는 변수 선별 방법 중 하나를 엘라스틱 넷 회귀(Elastic Net Regression)를 이용하는 변수 선별 방법으로 구성할 수 있다.A variable selection device using elastic net regression according to an embodiment of the present invention includes a data collection unit that collects and aggregates structured data and unstructured data that are the basis of statistical analysis, and the statistics based on the collected structured data and unstructured data. A derived data generation unit that generates derived data for use in analysis, a variable extraction unit that extracts all variables used for generating a statistical model based on the generated derived data, and a variable that is determined to be important among the extracted total variables A variable selection method combining unit that combines at least two or more variable selection methods for selection, and a variable selection that finally selects a variable for generating a statistical model by removing some of the total variables through the combined variable selection method The variable selection method combination unit may configure one of the combined variable selection methods as a variable selection method using elastic net regression.

본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법은 엘라스틱 넷 회귀 및 엘라스틱 넷 회귀와 조합되는 변수 선별 방법을 이용함으로써, 기존 엘라스틱 넷 회귀만을 이용하는 방법보다 더 주요한 변수만을 선별하여 정확도 높은 통계 모델 및 기계학습 모델을 생성할 수 있는 효과가 있다.The apparatus and method for selecting a variable using elastic net regression according to an embodiment of the present invention uses a variable selection method combined with elastic net regression and elastic net regression, so that only more important variables are selected than the existing method using only elastic net regression. It has the effect of generating high-accuracy statistical models and machine learning models.

본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 장치 및 방법은 엘라스틱 넷 회귀 및 엘라스틱 넷 회귀와 조합되는 변수 선별 방법을 이용하여 각 변수에 대한 중요도를 판단할 수 있으므로, 변수 간의 우선순위를 용이하게 결정할 수 있으며, 결정된 우선순위를 토대로 통계 모델 생성에 이용할 변수의 개수를 유동적으로 선택하여 조절할 수 있는 효과가 있다.The apparatus and method for selecting a variable using elastic net regression according to an embodiment of the present invention can determine the importance of each variable by using a variable selection method combined with elastic net regression and elastic net regression. can be easily determined, and the number of variables to be used for generating a statistical model can be flexibly selected and controlled based on the determined priority.

도 1은 본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 방법을 통해 통계 모델을 생성할 변수를 선택하게 되는 과정을 설명하기 위한 도면이다.
도 3 내지 도 6은 본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 방법을 통해 조합될 수 있는 변수 선별 방법 및 조합된 변수 선별 방법을 통해 변수를 제거하는 과정을 설명하기 위한 도면이다.
1 is a block diagram illustrating the configuration of a variable selection device using elastic net regression according to an embodiment of the present invention.
2 is a diagram for explaining a process of selecting a variable for generating a statistical model through a variable selection method using elastic net regression according to an embodiment of the present invention.
3 to 6 are diagrams for explaining a variable selection method that can be combined through a variable selection method using elastic net regression and a process of removing a variable through the combined variable selection method according to an embodiment of the present invention. .

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.The present invention will be described in detail with reference to the accompanying drawings as follows. Here, repeated descriptions, well-known functions that may unnecessarily obscure the gist of the present invention, and detailed descriptions of configurations will be omitted. The embodiments of the present invention are provided in order to more completely explain the present invention to those of ordinary skill in the art. Accordingly, the shapes and sizes of elements in the drawings may be exaggerated for clearer description.

명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated.

또한, 명세서에 기재된 "...부"의 용어는 하나 이상의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, the term "...unit" described in the specification means a unit that processes one or more functions or operations, which may be implemented as hardware or software or a combination of hardware and software.

도 1은 본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 장치의 구성을 도시한 블록도이다.1 is a block diagram illustrating the configuration of a variable selection device using elastic net regression according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 장치(100)는 통계 분석을 위한 통계 모델 생성에 이용되는 변수를 선택하는 장치로서, 데이터 수집부(110), 파생 데이터 생성부(120), 변수 추출부(130), 변수 선별 방법 조합부(140) 및 변수 선택부(150)를 포함하여 구성될 수 있다.Referring to FIG. 1 , an apparatus 100 for selecting a variable using elastic net regression according to an embodiment of the present invention is an apparatus for selecting a variable used to generate a statistical model for statistical analysis, and includes a data collection unit 110, It may be configured to include a derived data generating unit 120 , a variable extracting unit 130 , a variable selection method combining unit 140 , and a variable selecting unit 150 .

도 1에 도시된 엘라스틱 넷 회귀를 이용한 변수 선택 장치(100)의 구성은 일 실시예에 따른 것이고, 그 구성요소들이 도 1에 도시된 실시예에 한정되는 것은 아니며, 필요에 따라 일부 구성요소가 부가, 변경 또는 삭제될 수 있다.The configuration of the variable selection apparatus 100 using elastic net regression shown in FIG. 1 is according to an embodiment, and the components are not limited to the embodiment shown in FIG. 1 , and some components may be It may be added, changed or deleted.

데이터 수집부(110)는 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합할 수 있다.The data collection unit 110 may collect and collect structured data and unstructured data that are the basis of statistical analysis.

여기에서, 정형 데이터는 형태가 있으며 연산 가능한 데이터를 의미할 수 있으며, 비정형 데이터는 형태가 없고 연산 가능하지 않은 데이터를 의미할 수 있다. 예를 들어, 비정형 데이터는 텍스트, 영상, 음성 등의 형태로 나타내는 데이터를 포함할 수 있다.Here, the structured data may refer to data that has a form and can be calculated, and the unstructured data may refer to data that has no form and is not operable. For example, the unstructured data may include data represented in the form of text, image, voice, or the like.

파생 데이터 생성부(120)는 데이터 수집부(110)에서 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성할 수 있다.The derived data generator 120 may generate derived data for use in the statistical analysis based on the structured data and the unstructured data collected by the data collector 110 .

여기에서, 상술한 비정형 데이터의 경우에는 데이터의 구성을 통계치 또는 그래프 등의 방식으로 표현하는 과정을 통해 정형화될 수 있으며, 정형화된 데이터를 토대로 통계 분석에 이용하기 위한 파생 데이터가 생성될 수 있다.Here, in the case of the above-described unstructured data, the data structure may be standardized through a process of expressing the data structure in a statistical value or a graph manner, and derived data for use in statistical analysis may be generated based on the standardized data.

변수 추출부(130)는 파생 데이터 생성부(120)에서 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출할 수 있다.The variable extracting unit 130 may extract all variables used for generating a statistical model based on the derived data generated by the derived data generating unit 120 .

여기에서, 추출된 전체 변수는 통계 분석을 위해 모두 사용되지 않는 것이 일반적이며, 다양한 변수 선택 방법론에 따라 선택되는 변수만으로 통계 모델을 생성함으로써, 통계 분석을 수행하게 된다. 통계 분석은 선택 또는 입력되는 변수를 이용하여 예측하려는 변수의 실제값과 가장 근접하는 예측값을 도출해내는 통계 모델을 생성하는 것을 목표로 할 수 있으며, 기본적으로 입력 변수를 하나씩 추가 또는 삭제하여 타겟 변수를 설명하는 정도를 측정하는 방법, 입력 변수를 하나씩 추가해보는 방법, 및 전체 입력 변수 중 하나씩 소거해보는 방법 등을 사용할 수 있다.Here, it is common that all extracted variables are not used for statistical analysis, and statistical analysis is performed by generating a statistical model only with variables selected according to various variable selection methodologies. Statistical analysis can aim to create a statistical model that derives the predicted value that is closest to the actual value of the variable to be predicted using the selected or input variable. Basically, the target variable is selected by adding or deleting input variables one by one A method of measuring the degree of explanation, a method of adding input variables one by one, and a method of eliminating one of all input variables can be used.

변수 선별 방법 조합부(140)는 변수 추출부(130)에서 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합할 수 있다.The variable selection method combination unit 140 may combine at least two variable selection methods for selecting a variable determined to be important among all the variables extracted by the variable extraction unit 130 .

여기에서, 본 발명의 바람직한 실시예에 따르면 변수 선별 방법 조합부(140)는 상기 적어도 두 개 이상 조합되는 변수 선별 방법 중 하나를, 엘라스틱 넷 회귀를 이용하는 변수 선별 방법으로 구성할 수 있다.Here, according to a preferred embodiment of the present invention, the variable selection method combination unit 140 may configure one of the variable selection methods in which at least two or more are combined as a variable selection method using elastic net regression.

여기에서, 상기 엘라스틱 넷 회귀를 이용하는 변수 선별 방법은, 통계 모델 생성 시 주요하다고 판단되지 않은 변수의 계수를 0으로 만들어 제외시키거나 또는 0에 가깝게 만들어 영향도를 대폭 감소시킴으로써, 불필요하다고 판단되는 특징을 거의 포함되지 않도록 할 수 있다.Here, in the variable screening method using the elastic net regression, coefficients of variables that are not judged to be important when generating a statistical model are excluded by making them 0 or close to 0 to significantly reduce the influence, so that the characteristics are judged to be unnecessary can be made to be rarely included.

또한, 상술한 엘라스틱 넷 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 다른 변수 선별 방법에 대해서는 아래에 설명하고자 한다.In addition, another variable selection method that can be combined with the above-described method for selecting a variable using elastic net regression will be described below.

본 발명의 바람직한 실시예에 따르면 엘라스틱 넷 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 변수 선별 방법으로서, 변수 각각에 대해서 산출되는 정보 가치(IV, Information Value)값에 기초하여 상기 변수 각각에 대한 중요도를 결정하고, 상기 결정된 중요도를 토대로 제거할 변수를 선택하는 방법이 있을 수 있다. 상기 정보 가치값에 기초하여 각 변수에 대한 중요도를 결정하는 방법은, 예를 들면, 0이상에서 0.02미만의 정보 가치값을 갖는 변수는 중요도 없음으로, 0.02이상에서 0.1미만의 정보 가치값을 갖는 변수는 중요도 낮음으로, 0.1이상에서 0.3미만의 정보 가치값을 갖는 변수는 중요도 중간으로, 0.3이상에서 0.5미만의 정보 가치값을 갖는 변수는 중요도 높음으로, 0.5이상에서 1까지의 정보 가치값을 갖는 변수는 중요도 매우 높음으로 결정할 수 있다.According to a preferred embodiment of the present invention, as a variable selection method that can be combined with a variable selection method using elastic net regression, the importance of each variable based on the information value (IV) value calculated for each variable There may be a method of determining , and selecting a variable to be removed based on the determined importance. The method of determining the importance for each variable based on the information value is, for example, a variable having an information value of 0 to less than 0.02 has no importance, and having an information value of 0.02 or more to less than 0.1 Variables with an information value of 0.1 to less than 0.3 were considered as low importance, variables with an information value of 0.1 to less than 0.3 as medium importance, and a variable with an information value from 0.3 to less than 0.5 as high importance, and information values ranging from 0.5 to 1. It can be determined that the variable has very high importance.

또한, 상기 정보 가치값은 하기 수학식 1에 의해 산출되는 값으로 결정될 수 있다.Also, the information value may be determined as a value calculated by Equation 1 below.

[수학식 1][Equation 1]

Figure 112020043624993-pat00004
Figure 112020043624993-pat00004

(여기에서, IV는 정보 가치값이고,

Figure 112020043624993-pat00005
는 비발생 사건의 백분율값이며,
Figure 112020043624993-pat00006
는 발생 사건의 백분율값임)(where IV is the information value,
Figure 112020043624993-pat00005
is the percentage of non-occurring events,
Figure 112020043624993-pat00006
is the percentage value of the occurrence)

또한, 상술한 정보 가치값을 이용하는 변수 선별 방법은 예측하려는 대상이 구매 여부 등과 같이 발생 사건 또는 비발생 사건(이진법에서의 1 또는 0)으로 구분될 수 있는 경우에서 사용될 수 있다.In addition, the variable selection method using the above-described information value can be used when the object to be predicted can be classified into an occurrence event or a non-occurrence event (1 or 0 in the binary system) such as whether or not a purchase is made.

이어서, 본 발명의 바람직한 실시예에 따르면 따르면 엘라스틱 넷 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 변수 선별 방법으로서, 결정 트리(Decision Tree)를 이용하는 머신 러닝을 통해 변수를 분류함으로써 제거할 변수를 선택하는 방법이 있을 수 있다.Next, according to a preferred embodiment of the present invention, as a variable selection method that can be combined with a variable selection method using elastic net regression, a variable to be removed is selected by classifying the variable through machine learning using a decision tree. There may be a way to do it.

여기에서, 상기 결정 트리를 이용하는 변수 분류 방법은 변수가 나타내는 특성 중요도(Feature Importance)에 기초하여 각 변수를 분류할 수 있다.Here, the variable classification method using the decision tree may classify each variable based on a feature importance indicated by the variable.

또한, 본 발명의 바람직한 실시예에 따르면 상기 결정 트리 계열의 모델에 포함되는 엑스트라 트리(Extra-Tree) 또는 랜덤 포레스트(Random Forest) 등 의사결정나무(Classification and Regression Tree, CART) 계열 모델들을 이용하여 변수를 분류할 수 있다.In addition, according to a preferred embodiment of the present invention, the decision tree (Classification and Regression Tree, CART) series models such as Extra-Tree or Random Forest included in the decision tree series model are used. Variables can be classified.

또한, 상술한 특성 중요도를 이용하는 변수 선별 방법은 예측하려는 대상이 구매 여부 등과 같이 발생 사건 또는 비발생 사건(이진법에서의 1 또는 0)으로 구분될 수 있는 경우에서 사용될 수 있다.In addition, the variable selection method using the above-described characteristic importance may be used in a case in which the object to be predicted can be classified into an occurrence event or a non-occurrence event (1 or 0 in the binary system), such as whether or not a purchase is made.

이어서, 본 발명의 바람직한 실시예에 따르면 엘라스틱 넷 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 변수 선별 방법으로서, 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 방법이 있을 수 있다.Next, according to a preferred embodiment of the present invention, as a variable selection method that can be combined with a variable selection method using elastic net regression, there may be a method of sequentially selecting the variables determined to be important using variance.

여기에서, 상기 분산을 이용한 변수 선택 방법은 먼저 제공되는 변수를 이용하여 통계 모델을 생성한 다음, 생성된 통계 모델의 예측값과 실제값을 비교했을 때, 상기 예측값 및 실제값 간의 차이가 가장 작은 변수부터 순차적으로 선택하는 방법으로 구성될 수 있다.Here, in the variable selection method using the variance, a statistical model is first generated using the provided variables, and then, when the predicted value and the actual value of the generated statistical model are compared, the variable with the smallest difference between the predicted value and the actual value It can be configured by a method of sequentially selecting from

또한, 상술한 분산을 이용하는 변수 선별 방법은 예측하려는 대상이 주식 가격 또는 매출 등과 같이 연속되는 숫자로 표현되는 분야인 경우 사용될 수 있다.In addition, the variable selection method using the above-described variance may be used when the target to be predicted is a field expressed as a continuous number, such as stock price or sales.

이어서, 본 발명의 바람직한 실시예에 따르면 엘라스틱 넷 회귀를 이용하는 변수 선별 방법과 조합될 수 있는 변수 선별 방법으로서, 선형 및 비선형(Linear and Non-Linear) 회귀분석 중 적어도 하나를 수행하여 각 변수에 대한 잔차를 측정하고, 상기 잔차가 소정의 값 이상인 변수를 제거하는 방법이 있을 수 있다.Next, according to a preferred embodiment of the present invention, as a variable selection method that can be combined with a variable selection method using elastic net regression, at least one of linear and non-linear regression analysis is performed for each variable. There may be a method of measuring the residual and removing a variable having the residual equal to or greater than a predetermined value.

여기에서, 상기 선형 및 비선형 회귀분석은 제공되는 변수 중 임의의 변수를 입력값으로 설정하고, 예측하고자 하는 변수를 예측값으로 설정하여 수행할 수 있다. 예를 들어, 상술한 입력값(x)이 로그의 진수에 위치하도록 설정하고, 예측값(y)과의 관계를 분석하는 회귀분석을 수행할 수 있다. 이 때, 수행되는 회귀분석을 통해 도출되는 예측값(y)과 실제값의 잔차를 측정하고, 잔차가 가장 큰 변수부터 순차적으로 제거하거나 또는 소정의 값 이상의 잔차가 나타나는 변수를 모두 제거하는 방법 등을 통해 주요하지 않은 것으로 판단되는 변수를 제거할 수 있다.Here, the linear and nonlinear regression analysis may be performed by setting an arbitrary variable among provided variables as an input value and setting a variable to be predicted as a predicted value. For example, regression analysis may be performed in which the above-described input value (x) is set to be located in a logarithmic base, and a relationship with the predicted value (y) is analyzed. At this time, a method of measuring the residual between the predicted value (y) and the actual value derived through the regression analysis performed, and sequentially removing the variable with the largest residual or removing all variables with a residual greater than or equal to a predetermined value, etc. It is possible to remove variables that are judged to be insignificant.

또한, 상술한 선형 및 비선형 회귀분석 중 적어도 하나를 이용하는 변수 선별 방법은 예측하려는 대상이 주식 가격 또는 매출 등과 같이 연속되는 숫자로 표현되는 분야인 경우 사용될 수 있다.In addition, the variable selection method using at least one of the aforementioned linear and nonlinear regression analysis may be used when a target to be predicted is a field expressed as a continuous number, such as stock price or sales.

상술한 바를 참조하면, 본 발명의 바람직한 실시예로서 엘라스틱 넷 회귀와 정보 가치값을 이용한 변수 선별 방법의 조합, 엘라스틱 넷 회귀와 결정 트리를 이용한 변수 선별 방법의 조합, 엘라스틱 넷 회귀와 분산을 이용한 변수 선별 방법의 조합 및 엘라스틱 넷 회귀와 선형 및 비선형 회귀분석 중 적어도 하나를 이용한 변수 선별 방법의 조합이 제시될 수 있다.Referring to the above, as a preferred embodiment of the present invention, a combination of elastic net regression and a variable selection method using an information value value, a combination of elastic net regression and a variable selection method using a decision tree, and a variable using elastic net regression and variance Combinations of screening methods and combinations of variable screening methods using at least one of elastic net regression and linear and non-linear regression analysis may be presented.

한편, 본 발명의 일 실시예에 따른 변수 선별 방법의 조합이 상술된 조합에 한정되는 것은 아니며, 통계 모델의 정확도를 향상시키기 위한 목적 등으로 인해 세 개 이상의 변수 선별 방법들이 조합될 수 있다. 또한, 상기 언급된 바와 같이 조합되는 변수 선별 방법들의 변수 선별 순서가 고정되어 있는 것은 아니다. 예를 들어, 엘라스틱 넷 회귀와 정보 가치값을 이용한 변수 선별 방법의 조합의 경우에서, 엘라스틱 넷 회귀를 이용한 변수 선별 방법을 먼저 적용하여 일부 변수를 선별한 다음 정보 가치값을 이용한 변수 선별 방법을 적용하여 다시 일부 변수를 선별함으로써 최종적으로 통계 모델 생성에 이용할 변수를 선택할 수 있으며, 정보 가치값을 이용한 변수 선별 방법을 먼저 적용하여 일부 변수를 선별한 다음 엘라스틱 넷 회귀를 이용한 변수 선별 방법을 적용하여 다시 일부 변수를 선별함으로써 최종적으로 통계 모델 생성에 이용할 변수를 선택할 수 있다.Meanwhile, the combination of the variable selection methods according to an embodiment of the present invention is not limited to the above-described combination, and three or more variable selection methods may be combined for the purpose of improving the accuracy of the statistical model. In addition, as mentioned above, the variable selection order of the combined variable selection methods is not fixed. For example, in the case of a combination of elastic net regression and a variable selection method using information value values, the variable selection method using elastic net regression is first applied to select some variables, and then the variable selection method using the information value is applied. Finally, by selecting some variables again, variables to be used for statistical model generation can be finally selected. By selecting some variables, it is possible to finally select a variable to be used in generating a statistical model.

변수 선택부(150)는 변수 선별 방법 조합부(140)에서 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 생성할 변수를 최종 선택할 수 있다.The variable selection unit 150 may finally select a variable for generating a statistical model by removing some of the total variables through the variable selection method combined in the variable selection method combination unit 140 .

정리하면, 상술한 변수 선별 방법들의 조합에 대한 실시예를 통해 추출된 전체 변수 중 일부 변수가 제거될 수 있으며, 제거되지 않은 변수들이 선택되어 통계 모델 생성에 이용될 수 있다.In summary, some of the total variables extracted through the embodiment of the combination of the above-described variable selection methods may be removed, and variables that are not removed may be selected and used to generate a statistical model.

다음으로는, 본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 방법을 순서대로 설명하고자 한다.Next, a variable selection method using elastic net regression according to an embodiment of the present invention will be described in order.

도 2는 본 발명의 일 실시예에 따른 엘라스틱 넷 회귀를 이용한 변수 선택 장치를 통해 통계 모델 생성에 이용할 변수를 선택하는 방법을 설명하기 위한 순서도이다.2 is a flowchart illustrating a method of selecting a variable to be used in generating a statistical model through a variable selection device using elastic net regression according to an embodiment of the present invention.

도 2를 참조하면, 먼저 통계 분석이 이루어지기 위한 기초가 되는 정형 데이터 및 비정형 데이터가 수집되어 취합되어야 하며, 이러한 취합된 데이터를 이용하기 위해서는 파생 데이터가 생성되어야 한다(S101).Referring to FIG. 2 , structured data and unstructured data, which are the basis for statistical analysis, must first be collected and aggregated, and derived data must be generated in order to use the collected data ( S101 ).

다음으로, 파생 데이터가 생성되면 상기 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출할 수 있다(S102).Next, when the derived data is generated, all variables used for generating a statistical model may be extracted based on the derived data ( S102 ).

다음으로, 통계 모델을 생성하기 위해 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하는 작업이 필요하며, 변수 선별을 위해 주요하지 않은 변수를 제거하기 위한 변수 선별 방법들이 조합되어 사용될 수 있다(S103).Next, in order to generate a statistical model, it is necessary to select a variable determined to be important among all extracted variables, and variable selection methods for removing non-significant variables for variable selection may be combined and used (S103). ).

다음으로, 본 발명의 일 실시예에 따라 조합되는 변수 선별 방법들을 통해 상기 추출된 전체 변수 중 일부 변수가 제거될 수 있으며, 변수 선별 방법들의 조합은 본 발명의 일 실시예로서 한정되는 것은 아니다(S104).Next, some of the extracted total variables may be removed through the variable selection methods combined according to an embodiment of the present invention, and the combination of the variable selection methods is not limited as an embodiment of the present invention ( S104).

다음으로, 조합된 변수 선별 방법을 통해 제거되지 않은 변수 전체 또는 일부를 선택하여 통계 모델을 생성할 수 있다(S105).Next, a statistical model may be generated by selecting all or some of the variables that are not removed through the combined variable screening method (S105).

도 3 내지 도 6은 본 발명의 바람직한 실시예에 따라 조합되는 변수 선별 방법들을 이용하여 일부 변수를 제거하고, 통계 모델을 생성할 변수를 최종 선택하게 되는 과정을 나타내는 순서도이다.3 to 6 are flowcharts illustrating a process of removing some variables using combined variable selection methods according to a preferred embodiment of the present invention and finally selecting a variable for generating a statistical model.

도 3 내지 도 6에 나타나는 엘라스틱 넷 회귀를 이용한 변수 선택 과정은 대부분 서로 동일하나 본 발명의 실시예에 따라 엘라스틱 넷 회귀와 조합되는 변수 제거 방법(S203, S303, S403 및 S503)서로 다르게 제시되었다.The variable selection process using elastic net regression shown in FIGS. 3 to 6 is mostly the same, but the variable removal methods (S203, S303, S403 and S503) combined with elastic net regression according to an embodiment of the present invention are presented differently.

전술한 엘라스틱 넷 회귀를 이용한 변수 선택 방법은 도면에 제시된 순서도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다.The variable selection method using the aforementioned elastic net regression has been described with reference to the flowchart shown in the drawings. For simplicity, the method has been shown and described as a series of blocks, but the invention is not limited to the order of the blocks, and some blocks may occur with other blocks in a different order or at the same time as shown and described herein. Also, various other branches, flow paths, and orders of blocks may be implemented that achieve the same or similar result. Also, not all illustrated blocks may be required for implementation of the methods described herein.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although the above has been described with reference to preferred embodiments of the present invention, those skilled in the art can variously modify and change the present invention within the scope without departing from the spirit and scope of the present invention as set forth in the claims below. You will understand that it can be done.

100: 엘라스틱 넷 회귀를 이용한 변수 선택 장치
110: 데이터 수집부
120: 파생 데이터 생성부
130: 변수 추출부
140: 변수 선별 방법 조합부
150: 변수 선택부
100: Variable selection device using elastic net regression
110: data collection unit
120: Derived data generation unit
130: variable extraction unit
140: variable selection method combination unit
150: variable selection unit

Claims (9)

변수 선택 장치에 의해 각 단계가 수행되는 엘라스틱 넷 회귀를 이용한 변수 선택 방법에 있어서,
데이터 수집부를 통해, 통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 단계;
파생 데이터 생성부를 통해, 상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 단계;
변수 추출부를 통해, 상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 단계;
변수 선별 방법 조합부를 통해, 상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합하는 단계; 및
변수 선택부를 통해, 상기 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 위해 사용할 변수를 최종 선택하는 단계;를 포함하되,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 변수 선별 방법 조합부를 통해, 상기 조합되는 변수 선별 방법 중 하나를 엘라스틱 넷 회귀(Elastic Net Regression)를 이용하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
엘라스틱 넷 회귀를 이용한 변수 선택 방법.
In the variable selection method using elastic net regression in which each step is performed by the variable selection device,
Collecting and collecting structured data and unstructured data, which are the basis of statistical analysis, through the data collecting unit;
generating, through a derived data generator, derived data for use in the statistical analysis based on the collected structured data and unstructured data;
extracting, through a variable extraction unit, all variables used for generating a statistical model based on the generated derived data;
combining at least two variable selection methods for selecting a variable determined to be important among all the extracted variables through a variable selection method combination unit; and
Final selection of a variable to be used for statistical model generation by removing some of the total variables through the variable selection unit through the combined variable selection method;
The step of combining at least two or more of the variable selection methods comprises:
Through the variable selection method combining unit, one of the variable selection methods to be combined is configured as a variable selection method using Elastic Net Regression; characterized in that it comprises;
Variable selection method using elastic net regression.
제1항에 있어서,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 선별 방법 중 하나를, 변수 각각에 대해서 산출되는 정보 가치(IV, Information Value)값에 기초하여 상기 변수 각각에 대한 중요도를 결정하고, 상기 결정된 중요도를 토대로 제거할 변수를 선택하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
엘라스틱 넷 회귀를 이용한 변수 선택 방법.
According to claim 1,
The step of combining at least two or more of the variable selection methods comprises:
In one of the combined variable selection methods, a variable that determines the importance of each variable based on an information value (IV) value calculated for each variable, and selects a variable to be removed based on the determined importance Comprising a selection method; characterized in that it comprises,
Variable selection method using elastic net regression.
제2항에 있어서,
상기 변수 각각에 대해서 산출되는 정보 가치값에 기초하여 상기 각 변수 각각에 대한 중요도를 결정하는 단계는,
하기 수학식 1에 의해 산출되는 값을 상기 정보 가치값으로 결정하는 단계;를 포함하는 것을 특징으로 하는,
엘라스틱 넷 회귀를 이용한 변수 선택 방법.

[수학식 1]
Figure 112020043624993-pat00007

(여기에서, IV는 정보 가치값이고,
Figure 112020043624993-pat00008
는 비발생 사건의 백분율값이며,
Figure 112020043624993-pat00009
는 발생 사건의 백분율값임)
3. The method of claim 2,
The step of determining the importance for each of the variables based on the information value calculated for each of the variables includes:
Determining the value calculated by the following Equation 1 as the information value value; characterized in that it comprises,
Variable selection method using elastic net regression.

[Equation 1]
Figure 112020043624993-pat00007

(where IV is the information value,
Figure 112020043624993-pat00008
is the percentage of non-occurring events,
Figure 112020043624993-pat00009
is the percentage value of the occurrence)
제1항에 있어서,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 선별 방법 중 하나를, 결정 트리(Decision Tree)를 이용하는 머신 러닝을 통해 변수를 분류함으로써 제거할 변수를 선별 하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
엘라스틱 넷 회귀를 이용한 변수 선택 방법.
According to claim 1,
The step of combining at least two or more of the variable selection methods comprises:
Constructing one of the combined variable selection methods as a variable selection method for selecting a variable to be removed by classifying the variable through machine learning using a decision tree;
Variable selection method using elastic net regression.
제4항에 있어서,
상기 결정 트리를 이용하는 머신 러닝을 통해 변수를 분류하는 단계는,
변수의 특성 중요도(Feature Importance)에 기초하여 각 변수를 분류하는 단계;를 포함하는 것을 특징으로 하는,
엘라스틱 넷 회귀를 이용한 변수 선택 방법.
5. The method of claim 4,
Classifying variables through machine learning using the decision tree includes:
Classifying each variable based on the feature importance (Feature Importance) of the variable; characterized in that it comprises,
Variable selection method using elastic net regression.
제1항에 있어서,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 선별 방법 중 하나를, 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
엘라스틱 넷 회귀를 이용한 변수 선택 방법.
According to claim 1,
The step of combining at least two or more of the variable selection methods comprises:
Constructing one of the combined variable selection methods as a variable selection method for sequentially selecting the variables determined to be important using variance;
Variable selection method using elastic net regression.
제6항에 있어서,
상기 분산을 이용하여 상기 주요하다고 판단되는 변수를 순차적으로 선택하는 단계는,
제공되는 변수를 이용하여 회귀 모델을 생성하는 단계; 및
상기 생성된 회귀 모델의 예측값과 실제값을 비교하고, 상기 예측값 및 실제값 간의 차이가 가장 작은 변수부터 순차적으로 선택하는 단계;를 포함하는 것을 특징으로 하는,
엘라스틱 넷 회귀를 이용한 변수 선택 방법.
7. The method of claim 6,
The step of sequentially selecting the variables determined to be important using the variance includes:
generating a regression model using the provided variables; and
Comparing the predicted value and the actual value of the generated regression model, and sequentially selecting the variable having the smallest difference between the predicted value and the actual value;
Variable selection method using elastic net regression.
제1항에 있어서,
상기 변수 선별 방법을 적어도 두 개 이상 조합하는 단계는,
상기 조합되는 변수 선별 방법 중 하나를, 선형 및 비선형(Linear and Non-Linear) 회귀분석 중 적어도 하나를 수행하여 각 변수에 대한 잔차를 측정하고, 상기 잔차가 소정의 값 이상인 변수를 제거하는 변수 선별 방법으로 구성하는 단계;를 포함하는 것을 특징으로 하는,
엘라스틱 넷 회귀를 이용한 변수 선택 방법.
According to claim 1,
The step of combining at least two or more of the variable selection methods comprises:
Variable selection in which residuals for each variable are measured by performing at least one of linear and non-linear regression analysis in one of the combined variable screening methods, and variables having the residuals greater than or equal to a predetermined value are removed Comprising the method comprising;
Variable selection method using elastic net regression.
통계 분석의 기초가 되는 정형 데이터 및 비정형 데이터를 수집하여 취합하는 데이터 수집부;
상기 취합된 정형 데이터 및 비정형 데이터에 기초하여 상기 통계 분석에 이용하기 위한 파생 데이터를 생성하는 파생 데이터 생성부;
상기 생성된 파생 데이터에 기초하여 통계 모델 생성에 이용되는 전체 변수를 추출하는 변수 추출부;
상기 추출된 전체 변수 중 주요하다고 판단되는 변수를 선별하기 위한 변수 선별 방법을 적어도 두 개 이상 조합하는 변수 선별 방법 조합부; 및
상기 조합된 변수 선별 방법을 통해 상기 전체 변수 중 일부 변수를 제거함으로써, 통계 모델 생성을 생성할 변수를 최종 선택하는 변수 선택부;를 포함하되,
상기 변수 선별 방법 조합부는,
상기 조합되는 변수 선별 방법 중 하나를 엘라스틱 넷 회귀(Elastic Net Regression)를 이용하는 변수 선별 방법으로 구성하는 것을 특징으로 하는,
엘라스틱 넷 회귀를 이용한 변수 선택 장치.
a data collection unit that collects and collects structured data and unstructured data that are the basis of statistical analysis;
a derived data generator for generating derived data for use in the statistical analysis based on the collected structured data and unstructured data;
a variable extraction unit for extracting all variables used for generating a statistical model based on the generated derived data;
a variable selection method combination unit for combining at least two or more variable selection methods for selecting a variable determined to be important among all the extracted variables; and
A variable selection unit that finally selects a variable for generating a statistical model by removing some of the total variables through the combined variable selection method;
The variable selection method combination unit,
Characterized in that one of the combined variable selection methods is configured as a variable selection method using Elastic Net Regression,
Variable selection device using elastic net regression.
KR1020200051265A 2020-04-28 2020-04-28 Device and method for variable selection using elastic net regression KR102404982B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200051265A KR102404982B1 (en) 2020-04-28 2020-04-28 Device and method for variable selection using elastic net regression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200051265A KR102404982B1 (en) 2020-04-28 2020-04-28 Device and method for variable selection using elastic net regression

Publications (2)

Publication Number Publication Date
KR20210132852A KR20210132852A (en) 2021-11-05
KR102404982B1 true KR102404982B1 (en) 2022-06-02

Family

ID=78507823

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200051265A KR102404982B1 (en) 2020-04-28 2020-04-28 Device and method for variable selection using elastic net regression

Country Status (1)

Country Link
KR (1) KR102404982B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230087097A (en) * 2021-12-09 2023-06-16 주식회사 카카오뱅크 Method for operating credit scoring model using two-stage logistic regression

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10361105B2 (en) 2014-12-03 2019-07-23 Kla-Tencor Corporation Determining critical parameters using a high-dimensional variable selection model
KR102044205B1 (en) * 2015-12-30 2019-11-13 주식회사 솔리드웨어 Target information prediction system using big data and machine learning and method thereof

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Classifications in R: Response Modeling/Credit Scoring/Credit Rating using Machine Learning Techniques", http://rstudio-pubs-static.s3.amazonaws.com/, 2016.
"Comparison of Variable Selection Methods for Clinical Predictive Modeling", HHS Public Access, 2019.
"제조 공정에서 센서와 머신러닝을 활용한 불량예측 방안에 대한 연구", Entrue Journal of Information Technology 2019 vol.17, no.1, 통권 36호(pp. 89-98), 2019.

Also Published As

Publication number Publication date
KR20210132852A (en) 2021-11-05

Similar Documents

Publication Publication Date Title
AU2021203338A1 (en) Automated Model Development Process
CN111311401A (en) Financial default probability prediction model based on LightGBM
JP6102947B2 (en) Image processing apparatus and feature detection method
CN106503863A (en) Based on the Forecasting Methodology of the age characteristicss of decision-tree model, system and terminal
KR101968309B1 (en) SYSTEM AND METHOD FOR text classification
KR102352036B1 (en) Device and method for variable selection using stochastic gradient descent
US20060184474A1 (en) Data analysis apparatus, data analysis program, and data analysis method
JP2004157814A (en) Decision tree generating method and model structure generating device
KR102404982B1 (en) Device and method for variable selection using elastic net regression
CN109977977B (en) Method for identifying potential user and corresponding device
KR102404983B1 (en) Device and method for variable selection using ridge regression
Bhadouria et al. A study on genetic expression programming-based approach for impulse noise reduction in images
KR102404907B1 (en) Device and method for variable selection using lasso
KR20150125511A (en) Method and apparatus for processing graph compression
CN115169705A (en) Distribution time length prediction method and device, storage medium and computer equipment
Abbasi et al. A support vector machine-based method for LPV-ARX identification with noisy scheduling parameters
JP2006155427A (en) Device, method, and program of metrizing operational risk
KR20220039118A (en) Device and method for variable selection using weighted information value
JP2015064625A (en) Image processing apparatus, image processing method, and program
KR102357475B1 (en) Energy Theft Detecting System And Method Using Improved GBTD Algorithm
CN108764991B (en) Supply chain information analysis method based on K-means algorithm
CN113297289A (en) Method and device for extracting business data from database and electronic equipment
JP2021124949A (en) Machine learning model compression system, pruning method, and program
KR101924832B1 (en) Apparatus and method for classifying nodes
CN116451771B (en) Image classification convolutional neural network compression method and core particle device data distribution method

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant