KR20200125029A - Method and apparatus for regression analysis - Google Patents
Method and apparatus for regression analysis Download PDFInfo
- Publication number
- KR20200125029A KR20200125029A KR1020190048680A KR20190048680A KR20200125029A KR 20200125029 A KR20200125029 A KR 20200125029A KR 1020190048680 A KR1020190048680 A KR 1020190048680A KR 20190048680 A KR20190048680 A KR 20190048680A KR 20200125029 A KR20200125029 A KR 20200125029A
- Authority
- KR
- South Korea
- Prior art keywords
- missing value
- training
- data
- regression analysis
- missing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
Description
본 기재는 데이터에 대한 회귀 분석을 수행하는 방법 및 장치에 관한 것이다.The present disclosure relates to a method and apparatus for performing regression analysis on data.
빅데이터에 대한 회귀 분석기 및 분류기는 많은 결측치를 포함하는 고용량 및 고차원 데이터에 대한 정확한 예측 성능을 나타내야 한다. 기존의 회귀 분석기 및 분류기는 결측 데이터를 이용 불가능하게 하거나 비효율적으로 처리하는 경우가 많고, 다수의 결측 데이터로 인해 예측 모델의 성능을 저하시키는 문제가 있다.Regression analyzers and classifiers for big data must exhibit accurate prediction performance for high-volume and high-dimensional data containing many missing values. Existing regression analyzers and classifiers often make missing data unavailable or process inefficiently, and there is a problem of deteriorating the performance of a predictive model due to a large number of missing data.
한 실시예는 데이터에 대한 회귀 분석을 수행하는 방법을 제공한다.One embodiment provides a method of performing regression analysis on data.
한 실시예는 데이터에 대한 회귀 분석을 수행하는 장치를 제공한다.An embodiment provides an apparatus for performing regression analysis on data.
한 실시예에 따르면, 데이터에 대한 회귀 분석을 수행하는 방법이 제공된다. 상기 회귀 분석 방법은 제1 결측치를 포함하는 훈련 데이터에 기반하여 결측치 대체 학습 모델을 생성하는 단계, 입력 데이터에 제2 결측치가 포함될 때 상기 결측치 대체 학습 모델을 이용하여 상기 제2 결측치를 대체하는 단계, 그리고 상기 제2 결측치가 대체된 입력 데이터에 기반하여 목표 데이터를 예측하는 단계를 포함한다.According to one embodiment, a method of performing regression analysis on data is provided. The regression analysis method includes generating a missing value replacement learning model based on training data including a first missing value, replacing the second missing value using the missing value replacement learning model when a second missing value is included in the input data And predicting target data based on the input data in which the second missing value has been replaced.
상기 결측치 대체 학습 모델을 생성하는 단계는, 상기 오토인코더를 훈련하는 단계 이후, 상기 오토인코더의 하이퍼파라미터를 조정하여 훈련을 반복하고, 복수의 후보 결측치 대체 학습 모델을 생성하는 단계를 포함할 수 있다.The generating of the missing value replacement learning model may include, after the training of the autoencoder, repeating training by adjusting a hyperparameter of the autoencoder, and generating a plurality of candidate missing value replacement learning models. .
상기 결측치 대체 학습 모델을 생성하는 단계는, 상기 후보 결측치 대체 학습 모델을 생성하는 단계 이후, 교차 검증을 통해 상기 복수의 후보 결측치 대체 학습 모델 중 하나의 결측치 대체 학습 모델을 선택하는 단계를 포함할 수 있다.Generating the missing value replacement learning model may include, after generating the candidate missing value replacement learning model, selecting one of the plurality of candidate missing value replacement learning models through cross-validation. have.
상기 오토인코더를 훈련하는 단계는, 최적화 기법을 이용하여 상기 제1 결측치를 포함하는 훈련 데이터와 복원 데이터 간의 크로스-엔트로피(cross-entropy)를 감소시키는 방향으로 상기 오토인코더를 훈련할 수 있다.In the training of the autoencoder, the autoencoder may be trained in a direction of reducing cross-entropy between training data including the first missing value and reconstructed data using an optimization technique.
상기 최적화 기법은 경사하강법(Gradient Descent)일 수 있다.The optimization technique may be gradient descent.
상기 하이퍼파라미터는 은닉층의 개수, 은닉 요소의 개수, 및 드롭아웃 비율 중 하나일 수 있다.The hyperparameter may be one of the number of hidden layers, the number of hidden elements, and a dropout ratio.
한 실시예에 따르면, 데이터에 대한 회귀 분석을 수행하는 장치가 제공된다. 상기 회귀 분석 장치는 결측치를 포함하는 훈련 데이터에 기반하여 결측치 대체 학습 모델을 생성하는 훈련부, 입력 데이터에 결측치가 포함될 때 상기 결측치 대체 학습 모델을 이용하여 상기 입력 데이터에 포함된 결측치를 대체값으로 대체하는 결측치 대체부, 그리고 상기 대체값을 포함하는 입력 데이터에 기반하여 목표 데이터를 예측하는 예측부를 포함한다.According to an embodiment, an apparatus for performing regression analysis on data is provided. The regression analysis device is a training unit that generates a missing value replacement learning model based on training data including missing values, and when the input data contains missing values, the missing value included in the input data is replaced with a replacement value using the missing value replacement learning model. And a predictor for predicting target data based on input data including the missing value replacement unit and the replacement value.
상기 훈련부는, 상기 훈련 데이터를 생성하고, 상기 훈련 데이터를 이용하여 오토인코더를 훈련시킬 수 있다.The training unit may generate the training data and train the autoencoder using the training data.
상기 훈련부는, 상기 오토인코더의 하이퍼파라미터를 조정하여 상기 훈련을 반복하고, 복수의 후보 결측치 대체 학습 모델을 생성할 수 있다.The training unit may repeat the training by adjusting hyperparameters of the autoencoder, and may generate a plurality of candidate missing value replacement learning models.
상기 훈련부는, 교차 검증을 통해 상기 복수의 후보 결측치 대체 학습 모델 중 하나의 결측치 대체 학습 모델을 선택할 수 있다.The training unit may select one missing value replacement learning model from among the plurality of candidate missing value replacement learning models through cross-validation.
상기 훈련부는, 최적화 기법을 이용하여 상기 훈련 데이터와 복원 데이터 간의 크로스-엔트로피(cross-entropy)를 감소시키는 방향으로 상기 오토인코더를 훈련시킬 수 있다.The training unit may train the autoencoder in a direction of reducing cross-entropy between the training data and the restoration data by using an optimization technique.
상기 최적화 기법은 경사하강법(Gradient Descent)일 수 있다.The optimization technique may be gradient descent.
상기 하이퍼파라미터는 은닉층의 개수, 은닉 요소의 개수, 및 드롭아웃 비율 중 하나일 수 있다.The hyperparameter may be one of the number of hidden layers, the number of hidden elements, and a dropout ratio.
한 실시예에 따르면, 데이터에 대한 회귀 분석을 수행하는 장치가 제공된다. 상기 회귀 분석 장치는 프로세서 및 메모리를 포함하고, 상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여, 제1 결측치를 포함하는 훈련 데이터에 기반하여 결측치 대체 학습 모델을 생성하는 단계, 입력 데이터에 제2 결측치가 포함될 때 상기 결측치 대체 학습 모델을 이용하여 상기 제2 결측치를 대체하는 단계, 그리고 상기 제2 결측치가 대체된 입력 데이터에 기반하여 목표 데이터를 예측하는 단계를 수행할 수 있다.According to an embodiment, an apparatus for performing regression analysis on data is provided. The regression analysis apparatus includes a processor and a memory, and the processor executes a program stored in the memory to generate a missing value replacement learning model based on training data including a first missing value, and a second missing value in the input data When is included, replacing the second missing value using the missing value replacement learning model, and predicting target data based on input data in which the second missing value has been replaced may be performed.
다수의 결측치를 포함하는 고차원 대용량 빅데이터에 대한 회귀 분석 및 분류시 그래디언트 부스팅 기반 예측 모델의 결측치에 의한 성능 저하를 방지할 수 있고, 낮은 지연율과 높은 처리율을 보장할 수 있다.When regression analysis and classification of high-dimensional large-scale big data including a large number of missing values is performed, performance degradation due to missing values of a gradient boosting-based predictive model can be prevented, and low latency and high throughput can be guaranteed.
고차원 데이터에 대한 결측치 대체 능력을 향상시킬 수 있다.The ability to substitute missing values for high-dimensional data can be improved.
도 1은 한 실시예에 따른 회귀 분석 장치의 블록도이다.
도 2 및 도 3은 한 실시예에 따른 회귀 분석 방법의 흐름도이다.
도 4 및 도 5는 다른 실시예에 따른 회귀 분석 방법의 흐름도이다.
도 6은 결측치를 대체한 데이터를 이용하여 회귀 분석을 수행하는 방법의 흐름도이다.
도 7은 한 실시예에 따른 회귀 분석 장치를 나타내는 블록도이다.1 is a block diagram of an apparatus for regression analysis according to an embodiment.
2 and 3 are flowcharts of a regression analysis method according to an embodiment.
4 and 5 are flowcharts of a regression analysis method according to another embodiment.
6 is a flowchart of a method of performing a regression analysis using data replacing missing values.
7 is a block diagram illustrating a regression analysis apparatus according to an embodiment.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement the embodiments of the present invention. However, the present invention may be implemented in various different forms and is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are assigned to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part "includes" a certain component, it means that other components may be further included rather than excluding other components unless specifically stated to the contrary.
도 1은 한 실시예에 따른 회귀 분석 장치의 블록도이다. 도 2 및 도 3은 한 실시예에 따른 회귀 분석 방법의 흐름도이다.1 is a block diagram of an apparatus for regression analysis according to an embodiment. 2 and 3 are flowcharts of a regression analysis method according to an embodiment.
도 1 및 도 2를 참조하면, 한 실시예에 따른 회귀 분석 장치는, 훈련부(100), 결측치 대체부(210), 예측부(220)를 포함한다. 1 and 2, the regression analysis apparatus according to an embodiment includes a
훈련부(100)는 결측치를 포함하는 훈련 데이터에 기반하여 결측치 대체 학습 모델을 생성한다(S100). 구체적으로, 훈련부(100)는 결측치를 포함하는 훈련 데이터를 생성한다(S110). 결측치에 의한 영향을 최소화하고, 결측치를 포함하지 않는 데이터로부터 핵심 요소를 효과적으로 추출하기 위해, 결측치의 위치를 나타내는 결측 행렬이 사전에 설계자에 의해 정의될 수 있다. 결측 행렬을 포함하는 훈련 데이터인 입력 데이터와 복원 데이터인 출력 데이터 간의 크로스-엔트로피(cross-entropy)를 수학식 1과 같이 훈련의 비용함수(C)로 사전에 설계자에 의해 정의될 수 있다.The
x는 입력 데이터를 나타내고, z는 오토인코더(212)가 복원한 입력 데이터를 나타내며, m은 입력 데이터와 같은 차원을 갖는 결측 행렬을 나타낸다. m은 입력 데이터에 결측치가 존재할 때 0의 값을 갖고, 결측치가 존재하지 않을 때 1의 값을 갖는다.x denotes input data, z denotes input data restored by the
훈련부(100)는 훈련 데이터를 이용하여 오토인코더(212)를 훈련시킨다(S120). 구체적으로, 훈련부(100)는 한 실시예로서, 경사하강법 등의 최적화 기법을 사용하여 수학식 1의 비용함수(C)가 최소화되도록 오토인코더(212)를 훈련(training)시킨다. 즉, 훈련부(100)는 최적화 기법을 이용하여 결측치를 포함하는 훈련 데이터와 복원 데이터 간의 크로스-엔트로피를 감소시키는 방향으로 오토인코더(212)를 훈련시킬 수 있다.The
훈련부(100)는 오토인코더(212)의 하이퍼파라미터(hyperparameter)를 조정하여 훈련을 반복하고, 복수의 후보 결측치 대체 학습 모델을 생성한다(S130). 구체적으로, 훈련부(100)는 교차검증(cross-validation) 비용이 최소화되도록 오토인코더(212)의 하이퍼파라미터를 조정하여 오토인코더(212)에 대한 훈련을 반복 수행할 수 있다. 여기서, 하이퍼파라미터는 한 실시예로서, 은닉층의 개수, 은닉 요소의 개수, 드롭아웃 비율, 조기종료 조건 중 하나일 수 있다. 한 실시예로서, 최적의 하이퍼파라미터를 결정할 때, 교차검증 데이터가 사용될 수 있다.The
훈련부(100)는 교차 검증을 통해 복수의 후보 결측치 대체 학습 모델 중 하나의 결측치 대체 학습 모델을 선택한다(S140). 구체적으로, 훈련부(100)는 한 실시예로서, k-fold cross validation 등의 현존하는 교차검증 기법을 통해 복수의 후보 결측치 대체 학습 모델 중 최적의 성능을 나타내는 결측치 대체 학습 모델을 선택할 수 있다.The
결측치 대체부(210)는 입력 데이터에 결측치가 포함되어 있을 때 결측치 대체 학습 모델을 이용하여 결측치를 대체값으로 대체한다(S200). 구체적으로, 데이터 생성자(300)로부터 결측치가 포함된 데이터가 결측지 대체부(210)에 입력될 때, 결측치 대체부(210)는 훈련부(100)에 의해 생성된 결측치 대체 학습 모델을 이용하여 결측치를 대체할 수 있다. 결측치 대체부(210)는 한 실시예로서, 오토인코더(212)를 포함할 수 있다.When the missing value is included in the input data, the missing
데이터 생성자(300)는 고차원의 대용량 데이터를 정기적으로 또는 비정기적으로 생성한다. 데이터 생성자(300)가 생성하는 데이터는 복수의 결측치를 포함할 수 있다. 결측치는 데이터 생성 및 전송에서 일어날 수 있는 우발적인 결측 데이터 생성 또는 고의적 결측 등 여러가지 원인에 의해 발생될 수 있다. The
훈련부(100)는 데이터 생성자(300)에 의해 생성된 데이터 중 임의의 경로를 통해 회귀분석 또는 분류 모델의 예측 목표 값이 미리 밝혀져 있는 데이터를 훈련 데이터로 묶고, 이 훈련 데이터를 이용하여 결측치 대체 학습 모델을 생성할 수 있다.The
예측부(220)는 대체값을 포함하는 입력 데이터에 기반하여 목표 데이터를 예측한다(S300).The
도 4 및 도 5는 다른 실시예에 따른 회귀 분석 방법의 흐름도이다.4 and 5 are flowcharts of a regression analysis method according to another embodiment.
도 1 및 도 4를 참조하면, 다른 실시예에 따른 회귀 분석 방법은, 훈련부(100)에 의해 훈련된 결측치 대체 학습 모델이 존재하는지 여부를 판단하는 단계(S410), 결측치를 포함하는 훈련 데이터를 생성하는 단계(S420), 최적화 기법을 이용하여 결측치를 포함하는 훈련 데이터와 복원 데이터 간의 크로스-엔트로피를 감소시키는 방향으로 오토인코더(212)를 훈련시키고, 복수의 후보 결측치 대체 학습 모델을 생성하는 단계(S430), 결측치가 대체된 데이터에 대해 예측을 수행하는 단계(S440), 오토인코더(212)의 모든 하이퍼파라미터 후보군에 대해 훈련이 수행되었는지 여부를 판단하는 단계(S450), 오토인코더(212)의 모든 하이퍼파라미터 후보군에 대해 훈련이 수행되지 않은 경우 하이퍼파라미터를 조정하는 단계(S460), 오토인코더(212)의 모든 하이퍼파라미터 후보군에 대해 훈련이 수행된 경우 교차 검증을 통해 복수의 후보 결측치 대체 학습 모델 중 하나의 결측치 대체 학습 모델을 선택하는 단계(S470), 데이터 생성자(300)에 의해 데이터가 입력되는 단계(S480), 입력된 데이터에 결측치가 포함되었는지 여부를 판단하는 단계(S490), 입력 데이터에 결측치가 포함된 경우 훈련부(100)에 의해 생성된 결측치 대체 학습 모델을 이용하여 결측치를 대체하는 단계(S500), 결측치가 대체된 입력 데이터에 대해 회귀 분석을 수행하는 단계(S510)를 포함할 수 있다.1 and 4, the regression analysis method according to another embodiment includes the step of determining whether there is a missing value replacement learning model trained by the training unit 100 (S410), and training data including the missing value Generating (S420), training the
도 5를 참조하면, 한 실시예에 따른 훈련부(100)를 통해 오토인코더를 훈련시키는 방법은, 오토인코더(212)의 파라미터를 초기화하는 단계(S431), 훈련 데이터를 오토인코더(212)에 배치(batch) 단위로 입력하는 단계(S432), 입력된 데이터에 상응하는 결측행렬을 생성하는 단계(S433), 미리 설정된 파라미터를 이용하여 전방 전파하는 단계(S434), 입력된 데이터와 전방 전파의 결과값으로부터 비용함수를 계산하는 단계(S435), 미리 설정된 종료 조건(예를 들어, 반복횟수를 충족하거나 조기종료 조건)을 만족하는 지 여부를 판단하는 단계(S436), 미리 설정된 종료 조건을 만족하지 않는 경우 비용함수를 최소화시키는 방향으로 후방 전파하여 파라미터를 갱신하는 단계(S437)를 포함할 수 있다. 파라미터는 하이퍼파라미터와 달리 훈련과정에서 갱신되고, 후보군이 존재하지 않는다.Referring to FIG. 5, a method of training an autoencoder through the
도 6은 예측부(220)가 결측치를 대체한 데이터를 이용하여 회귀 분석을 수행하는 방법의 흐름도이다.6 is a flowchart of a method of performing a regression analysis using data in which the
도 6을 참조하면, 예측부(220)가 결측치를 대체한 데이터를 이용하여 회귀 분석을 수행하는 방법은, 입력값을 설정하는 단계(S610), 알고리즘 연산을 수행하는 단계(S620)를 포함한다.Referring to FIG. 6, a method of performing a regression analysis by using the data replacing the missing value by the
입력값을 설정하는 단계(S610)는 N개의 입력 데이터 순서쌍 , 반복횟수 , 손실함수 , 및 기반 학습 모델 을 설정한다.The step of setting the input value (S610) is an ordered pair of N input data , Number of repetitions , Loss function , And based learning model Is set.
알고리즘 연산을 수행하는 단계(S620)는 f를 임의의 상수 로 초기화하고, t=1부터 까지 과정 1 내지 과정 4를 반복한다.In the step of performing the algorithmic operation (S620), f is an arbitrary constant Initialize to and from t=1 Repeat steps 1 to 4 until.
과정 1은 음의 그래디언트 를 연산하고, 과정 2는 현재 추정량 에 대해 새로운 학습 모델을 설정하며, 과정 3은 경사하강 갱신을 위한 최적의 변화계수 를 수학식 2를 이용하여 연산하며, 과정 4는 수학식 3을 이용하여 예측값을 갱신한다.Step 1 is a negative gradient And process 2 is the current estimator New learning model for And process 3 is the optimal coefficient of change for updating the gradient descent. Is calculated using Equation 2, and in process 4, the predicted value is updated using Equation 3.
f는 약한 성능을 갖는 그래디언트 부스팅(Gradient boosting) 기반 회귀분석기를 나타내고, M은 반복횟수를 나타낸다.f denotes a gradient boosting-based regression analyzer with weak performance, and M denotes the number of iterations.
훈련부(100)는 M번의 반복횟수 동안 f와 같은 분석기를 비용함수 ψ가 최소화되도록 훈력하고, 갱신함으로써, 강한 성능의 회귀분석기를 생성할 수 있다.The
입력 데이터 는 결측치 대체부(210)에 의해 결측치가 대체된 데이터일 수 있다.Input data May be data in which the missing value is replaced by the missing
도 7은 한 실시예에 따른 회귀 분석 장치를 나타내는 블록도이다.7 is a block diagram illustrating a regression analysis apparatus according to an embodiment.
도 7을 참조하면, 한 실시예에 따른 회귀 분석 장치는, 컴퓨터 시스템, 예를 들어 컴퓨터 판독 가능 매체로 구현될 수 있다. 컴퓨터 시스템(700)은, 버스(720)를 통해 통신하는 프로세서(710), 메모리(730), 사용자 인터페이스 입력 장치(760), 사용자 인터페이스 출력 장치(770), 및 저장 장치(780) 중 적어도 하나를 포함할 수 있다. 컴퓨터 시스템(700)은 또한 네트워크에 결합된 네트워크 인터페이스(790)를 포함할 수 있다. 프로세서(710)는 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(730) 또는 저장 장치(780)에 저장된 명령을 실행하는 반도체 장치일 수 있다. 메모리(730) 및 저장 장치(780)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read only memory)(731) 및 RAM(random access memory)(732)를 포함할 수 있다. 본 기재의 실시예는 컴퓨터에 구현된 방법으로서 구현되거나, 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능 매체로서 구현될 수 있다. 한 실시예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 기재의 적어도 하나의 양상에 따른 방법을 수행할 수 있다.Referring to FIG. 7, the apparatus for regression analysis according to an embodiment may be implemented as a computer system, for example, a computer-readable medium. The
한 실시예에 따른 회귀 분석 장치는 프로세서(710) 및 메모리(730)를 포함하고, 프로세서(710)는 메모리(730)에 저장된 프로그램을 실행하여, 제1 결측치를 포함하는 훈련 데이터에 기반하여 결측치 대체 학습 모델을 생성하는 단계, 입력 데이터에 제2 결측치가 포함될 때 결측치 대체 학습 모델을 이용하여 제2 결측치를 대체하는 단계, 그리고 제2 결측치가 대체된 입력 데이터에 기반하여 목표 데이터를 예측하는 단계를 수행한다.The regression analysis apparatus according to an embodiment includes a
한 실시예에 따른 제1 결측치를 포함하는 훈련 데이터에 기반하여 결측치 대체 학습 모델을 생성하는 단계, 입력 데이터에 제2 결측치가 포함될 때 결측치 대체 학습 모델을 이용하여 제2 결측치를 대체하는 단계, 그리고 제2 결측치가 대체된 입력 데이터에 기반하여 목표 데이터를 예측하는 단계를 수행하는 것을 통해, 회귀 분석 장치의 프로세서(710)의 회귀분석 성능을 향상시킬 수 있다.Generating a missing value replacement learning model based on the training data including the first missing value according to an embodiment, replacing the second missing value using the missing value replacement learning model when the second missing value is included in the input data, and The regression analysis performance of the
본 발명에 따른 회귀 분석 장치는 그래디언트 부스팅(Gradient boosting) 기반 회귀 분석 장치 및 분류 장치로서, 결정 트리 및 기타 기법들을 통해 약한 성능을 갖는 분류기 및 분석기를 앙상블(ensemble) 하여 하나의 강력한 예측모델을 구축할 수 있고, 함수적 경사 하강법을 통해 모델을 훈련할 수 있다. The regression analysis apparatus according to the present invention is a gradient boosting-based regression analysis apparatus and classification apparatus, which ensembles classifiers and analyzers having weak performance through decision trees and other techniques to construct one powerful prediction model. You can, and you can train the model through functional gradient descent.
본 발명에 따른 회귀 분석 장치의 오토인코더 기반 결측치 대체 방법은 결측치를 포함하는 데이터에 대한 심도 훈련된 오토인코더의 다차원적 이해를 바탕으로, 결측 이전의 값을 효과적으로 예측할 수 있다. 본 발명에 따른 회귀 분석 장치의 오토인코더 기반 결측치 대체 방법에 따르면 고차원의 값과 결측치를 다수 포함하는 빅데이터의 결측치를 효과적으로 대체할 수 있다. The autoencoder-based missing value replacement method of the regression analysis apparatus according to the present invention can effectively predict a value before the missing value based on a multidimensional understanding of the autoencoder trained in depth for data including the missing value. According to the autoencoder-based missing value replacement method of the regression analysis apparatus according to the present invention, it is possible to effectively replace the missing value of big data including a large number of high-dimensional values and missing values.
본 발명에 따른 회귀 분석 장치의 심도 훈련된 잡음 제거 오토인코더(212)는 고차원 데이터로부터 핵심이 되는 요소들을 효과적으로 추출할 수 있다. 심층 신경망은 대용량 데이터일수록 더 높은 정확도를 나타내도록 학습하므로, 심도 훈련된 잡음 제거 오토인코더(212)는 빅데이터에 대한 결측치를 효과적으로 대체할 수 있다.The depth-trained
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements by those skilled in the art using the basic concept of the present invention defined in the following claims are also provided. It belongs to the scope of rights.
Claims (15)
제1 결측치를 포함하는 훈련 데이터에 기반하여 결측치 대체 학습 모델을 생성하는 단계,
입력 데이터에 제2 결측치가 포함될 때 상기 결측치 대체 학습 모델을 이용하여 상기 제2 결측치를 대체하는 단계, 그리고
상기 제2 결측치가 대체된 입력 데이터에 기반하여 목표 데이터를 예측하는 단계
를 포함하는 회귀 분석 방법.As a method of performing regression analysis on data,
Generating a missing value replacement learning model based on the training data including the first missing value,
Replacing the second missing value using the missing value replacement learning model when the second missing value is included in the input data, and
Predicting target data based on input data in which the second missing value is replaced
Regression analysis method comprising a.
상기 결측치 대체 학습 모델을 생성하는 단계는,
상기 제1 결측치를 포함하는 상기 훈련 데이터를 생성하는 단계, 그리고
상기 훈련 데이터를 이용하여 오토인코더를 훈련하는 단계를 포함하는, 회귀 분석 방법.In claim 1,
Generating the missing value replacement learning model,
Generating the training data comprising the first missing value, and
And training an autoencoder using the training data.
상기 결측치 대체 학습 모델을 생성하는 단계는,
상기 오토인코더를 훈련하는 단계 이후,
상기 오토인코더의 하이퍼파라미터를 조정하여 훈련을 반복하고, 복수의 후보 결측치 대체 학습 모델을 생성하는 단계를 포함하는, 회귀 분석 방법.In paragraph 2,
Generating the missing value replacement learning model,
After the step of training the autoencoder,
And repeating training by adjusting hyperparameters of the autoencoder, and generating a plurality of candidate missing value replacement learning models.
상기 결측치 대체 학습 모델을 생성하는 단계는,
상기 후보 결측치 대체 학습 모델을 생성하는 단계 이후,
교차 검증을 통해 상기 복수의 후보 결측치 대체 학습 모델 중 하나의 결측치 대체 학습 모델을 선택하는 단계를 포함하는, 회귀 분석 방법.In paragraph 3,
Generating the missing value replacement learning model,
After the step of generating the candidate missing value replacement learning model,
And selecting one of the plurality of candidate missing value replacement learning models through cross-validation.
상기 오토인코더를 훈련하는 단계는,
최적화 기법을 이용하여 상기 제1 결측치를 포함하는 훈련 데이터와 복원 데이터 간의 크로스-엔트로피(cross-entropy)를 감소시키는 방향으로 상기 오토인코더를 훈련하는, 회귀 분석 방법.In paragraph 2,
Training the autoencoder,
A regression analysis method for training the autoencoder in a direction to reduce cross-entropy between the training data including the first missing value and the reconstructed data by using an optimization technique.
상기 최적화 기법은 경사하강법(Gradient Descent)인, 회귀 분석 방법.In clause 5,
The optimization technique is a gradient descent method, a regression analysis method.
상기 하이퍼파라미터는 은닉층의 개수, 은닉 요소의 개수, 및 드롭아웃 비율 중 하나인, 회귀 분석 방법.In paragraph 3,
The hyperparameter is one of the number of hidden layers, the number of hidden elements, and a dropout ratio.
결측치를 포함하는 훈련 데이터에 기반하여 결측치 대체 학습 모델을 생성하는 훈련부,
입력 데이터에 결측치가 포함될 때 상기 결측치 대체 학습 모델을 이용하여 상기 입력 데이터에 포함된 결측치를 대체값으로 대체하는 결측치 대체부, 그리고
상기 대체값을 포함하는 입력 데이터에 기반하여 목표 데이터를 예측하는 예측부
를 포함하는 회귀 분석 장치.A device that performs regression analysis on data,
A training unit that generates a learning model for replacing missing values based on training data including missing values,
A missing value replacement unit that replaces the missing value included in the input data with a replacement value using the missing value replacement learning model when the input data contains missing values, and
A prediction unit that predicts target data based on input data including the replacement value
Regression analysis device comprising a.
상기 훈련부는,
상기 훈련 데이터를 생성하고, 상기 훈련 데이터를 이용하여 오토인코더를 훈련시키는, 회귀 분석 장치.In clause 8,
The training unit,
A regression analysis apparatus for generating the training data and training an autoencoder using the training data.
상기 훈련부는,
상기 오토인코더의 하이퍼파라미터를 조정하여 상기 훈련을 반복하고, 복수의 후보 결측치 대체 학습 모델을 생성하는, 회귀 분석 장치.In claim 9,
The training unit,
A regression analysis apparatus for repeating the training by adjusting hyperparameters of the autoencoder, and generating a plurality of candidate missing value replacement learning models.
상기 훈련부는,
교차 검증을 통해 상기 복수의 후보 결측치 대체 학습 모델 중 하나의 결측치 대체 학습 모델을 선택하는, 회귀 분석 장치.In claim 10,
The training unit,
A regression analysis apparatus for selecting one of the plurality of candidate missing value replacement learning models through cross-validation.
상기 훈련부는,
최적화 기법을 이용하여 상기 훈련 데이터와 복원 데이터 간의 크로스-엔트로피(cross--tropy)를 감소시키는 방향으로 상기 오토인코더를 훈련시키는, 회귀 분석 장치.In claim 9,
The training unit,
A regression analysis apparatus for training the autoencoder in a direction of reducing cross-tropy between the training data and the reconstructed data using an optimization technique.
상기 최적화 기법은 경사하강법(Gradient Descent)인, 회귀 분석 장치.In claim 12,
The optimization technique is a gradient descent method, a regression analysis device.
상기 하이퍼파라미터는 은닉층의 개수, 은닉 요소의 개수, 및 드롭아웃 비율 중 하나인, 회귀 분석 장치.In claim 10,
The hyperparameter is one of the number of hidden layers, the number of hidden elements, and a dropout ratio.
프로세서 및 메모리를 포함하고,
상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,
제1 결측치를 포함하는 훈련 데이터에 기반하여 결측치 대체 학습 모델을 생성하는 단계,
입력 데이터에 제2 결측치가 포함될 때 상기 결측치 대체 학습 모델을 이용하여 상기 제2 결측치를 대체하는 단계, 그리고
상기 제2 결측치가 대체된 입력 데이터에 기반하여 목표 데이터를 예측하는 단계
를 수행하는, 회귀 분석 장치.A device that performs regression analysis on data,
Including processor and memory,
The processor executes a program stored in the memory,
Generating a missing value replacement learning model based on the training data including the first missing value,
Replacing the second missing value using the missing value replacement learning model when the second missing value is included in the input data, and
Predicting target data based on input data in which the second missing value is replaced
To perform, regression analysis device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190048680A KR20200125029A (en) | 2019-04-25 | 2019-04-25 | Method and apparatus for regression analysis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190048680A KR20200125029A (en) | 2019-04-25 | 2019-04-25 | Method and apparatus for regression analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200125029A true KR20200125029A (en) | 2020-11-04 |
Family
ID=73571449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190048680A KR20200125029A (en) | 2019-04-25 | 2019-04-25 | Method and apparatus for regression analysis |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200125029A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220095949A (en) * | 2020-12-30 | 2022-07-07 | 재단법인 아산사회복지재단 | Method of multivariate missing value imputation in electronic medical records |
WO2023191564A1 (en) * | 2022-03-30 | 2023-10-05 | 중앙대학교 산학협력단 | Device and method for predicting disease of interest on basis of deep neural network, and computer-readable program therefor |
-
2019
- 2019-04-25 KR KR1020190048680A patent/KR20200125029A/en unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220095949A (en) * | 2020-12-30 | 2022-07-07 | 재단법인 아산사회복지재단 | Method of multivariate missing value imputation in electronic medical records |
WO2023191564A1 (en) * | 2022-03-30 | 2023-10-05 | 중앙대학교 산학협력단 | Device and method for predicting disease of interest on basis of deep neural network, and computer-readable program therefor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052394B (en) | Resource allocation method based on SQL statement running time and computer equipment | |
KR20200014510A (en) | Method for providing prediction service based on mahcine-learning and apparatus thereof | |
EP3961413A1 (en) | Method and device for determining database configuration parameters | |
US20190213475A1 (en) | Reducing machine-learning model complexity while maintaining accuracy to improve processing speed | |
CN102110013A (en) | Method and apparatus for efficiently generating processor architecture model | |
CN112069310A (en) | Text classification method and system based on active learning strategy | |
US11556785B2 (en) | Generation of expanded training data contributing to machine learning for relationship data | |
CN112540849A (en) | Parameter configuration optimization method and system for distributed computing operation | |
KR20200125029A (en) | Method and apparatus for regression analysis | |
KR20190130212A (en) | Engineering big data-driven design expert system and design method thereof | |
Fekry et al. | Tuneful: An online significance-aware configuration tuner for big data analytics | |
JP2011253279A (en) | Method, device, and program for generating model type | |
CN117453915A (en) | Complex task processing method of large language model based on programmable workflow | |
KR20220117123A (en) | System and method for economic virtuous cycle simulation based on ai twin | |
CN112990461B (en) | Method, device, computer equipment and storage medium for constructing neural network model | |
CN116955335A (en) | Address data management method and system based on big data model algorithm | |
US11003823B2 (en) | Re-design of analog circuits | |
WO2023113946A1 (en) | Hyperparameter selection using budget-aware bayesian optimization | |
CN117826618B (en) | Adaptive control method and system based on cold rolling mill control system | |
CN112668223A (en) | Electromechanical equipment simulation method and system based on digital twin lightweight model | |
JP5126694B2 (en) | Learning system | |
US20230214629A1 (en) | Transformer-based autoregressive language model selection | |
KR20140118195A (en) | Method and system for computing management criteria of warships using genetic algorithm | |
US11973695B2 (en) | Information processing apparatus and information processing method | |
CN114254764B (en) | Feedback-based machine learning model searching method, system, equipment and medium |