KR102071071B1 - Re-labeling method for regression - Google Patents

Re-labeling method for regression Download PDF

Info

Publication number
KR102071071B1
KR102071071B1 KR1020180014556A KR20180014556A KR102071071B1 KR 102071071 B1 KR102071071 B1 KR 102071071B1 KR 1020180014556 A KR1020180014556 A KR 1020180014556A KR 20180014556 A KR20180014556 A KR 20180014556A KR 102071071 B1 KR102071071 B1 KR 102071071B1
Authority
KR
South Korea
Prior art keywords
data
regression analysis
value
result value
regression
Prior art date
Application number
KR1020180014556A
Other languages
Korean (ko)
Other versions
KR20190094890A (en
Inventor
손영두
강석호
Original Assignee
동국대학교 산학협력단
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단, 성균관대학교산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020180014556A priority Critical patent/KR102071071B1/en
Publication of KR20190094890A publication Critical patent/KR20190094890A/en
Application granted granted Critical
Publication of KR102071071B1 publication Critical patent/KR102071071B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

회귀 분석을 위한 리레이블링 방법에 관한 컴퓨터 구현 방법(computer implemented method)에 있어서, (a) 소정의 데이터 셋(data set)에 사전 선택된 회귀 분석 방법을 적용한 초기 회귀 분석 모형을 구축하는 단계-여기서, 상기 데이터 셋은 결과 값이 주어진 데이터와 결과 값이 주어지지 않은 데이터의 집합으로 구성됨-; (b) 구축된 회귀 분석 모형의 데이터 셋 중 레이블 대상 인스턴스(instance)인 데이터를 선택하는 단계; (c) 구축된 회귀 분석 모형에 따라 상기 선택된 데이터의 결과값을 측정하여, 상기 선택된 데이터가 기존에 결과 값이 존재하지 않는 데이터인 경우 측정된 결과 값으로 새롭게 레이블을 부여하고, 상기 선택된 데이터가 기존에 결과 값이 존재하는 데이터인 경우 기존 결과 값과 새롭게 측정된 결과 값의 평균 값으로 새롭게 레이블을 부여하는 단계; (d) 기존 데이터 셋에서 상기 새롭게 레이블이 부여된 데이터를 업데이트한 신규 데이터 셋을 구성하고, 구성된 신규 데이터 셋을 이용하여 회귀 분석 모형을 재구성하는 단계; 및 (e) 사정 지정된 회귀 분석 종료 조건을 만족할 때까지 상기 (b) 단계 내지 상기 (d) 단계를 반복함으로써, 최종 회귀 분석 모형을 구축하는 단계를 포함하는 회귀 분석을 위한 리레이블링 방법이 제공된다.A computer implemented method for a relabeling method for regression analysis, comprising: (a) constructing an initial regression analysis model to which a preselected regression analysis method is applied to a predetermined data set, wherein The data set comprises a set of data given a result value and data without a result value; (b) selecting data which is an instance of a label object among data sets of the constructed regression analysis model; (c) measuring the resultant value of the selected data according to the regression analysis model constructed, and if the selected data is data that does not already exist, label the resultant value anew and the selected data is Labeling a new value with an average value between the existing result value and the newly measured result value when the result value data exists previously; (d) constructing a new data set that updates the newly labeled data in the existing data set, and reconstructing the regression analysis model using the constructed new data set; And (e) repeating steps (b) to (d) until the condition for specifying a regression analysis end condition is satisfied, thereby constructing a final regression analysis model. .

Description

회귀 분석을 위한 리레이블링 방법{RE-LABELING METHOD FOR REGRESSION}Relabeling method for regression analysis {RE-LABELING METHOD FOR REGRESSION}

본 발명은 회귀 분석에 관한 것으로서, 보다 구체적으로는 회귀 분석을 위한 능동 학습 프레임워크(Active learning framework)를 구축하는데 있어 활용될 수 있는 신규의 리레이블링 방법에 관한 것이다.
The present invention relates to regression analysis, and more particularly, to a novel relabeling method that can be utilized in constructing an active learning framework for regression analysis.

회귀 분석은 주어진 데이터를 통하여 연속형의 결과 값을 예측하는 방법으로서, 오래 전에 개발된 단순한 형태의 선형 회귀로부터 최근 개발된 비선형 커널 회귀 분석, 딥러닝 회귀 분석 등 지속적으로 많은 관심을 받아오고 있다. 이러한 회귀 분석은 주어진 데이터의 입력 변수 값과 출력 변수 값(결과 값) 간의 관계를 파악하여 새로운 데이터로서의 입력 변수가 주어진 경우 가장 적합한 결과 값(즉, 예측 값)을 찾아내는데 이용된다.Regression analysis is a method of predicting continuous results through given data, and has received a lot of attention from simple linear regression developed a long time ago to recently developed nonlinear kernel regression and deep learning regression analysis. This regression analysis is used to determine the relationship between the input variable values and the output variable values (results) of a given data, and to find the best result value (i.e., the predicted value) given the input variable as new data.

일반적인 형태의 회귀 분석에서는 예측 모형(모델)을 구축하기 위하여 주어진 데이터의 입력 변수와 결과 값이 모두 필요하다. 그러나 실생활 및 실제 산업 문제에서는 이러한 결과 값을 얻는 비용이 매우 클 수 있다. 예를 들어, 결과 값을 얻는 비용이 큰 예시로는, 결과 값을 얻기 위해서 실험을 해야하거나, 설문 조사를 해야하는 경우, 혹은 결과 값 측정을 위하여 공장 설비의 일시 정지가 필요한 경우 등이 있다.In general regression analysis, both input variables and result values of a given data are required to build a predictive model. However, in real life and real industry problems, the cost of getting these results can be very high. For example, a costly example of obtaining a result value may include an experiment to obtain a result value, a questionnaire survey, or a pause of a plant to measure the result value.

이러한 상황을 해결하는 전통적인 방법으로는 능동 학습이 있다. 능동 학습(Active learning)이란 결과 값이 없는 데이터 중 현재 구축된 예측 모형을 가장 많이 개선시킬 수 있는 데이터를 능동적으로 선택하여 결과 값을 부여한다. 이 후 결과 값이 새로 부여된 데이터를 기존 데이터와 함께 사용하여 예측 모형을 구축하고, 다시 결과 값이 부여되지 않은 데이터 중 하나를 선택하는 과정을 반복한다. 이를 통하여 소수의 결과 값 측정만을 이용하여 고성능의 예측 모형을 구축할 수 있다.The traditional way of solving this situation is active learning. Active learning is a method of actively selecting data that can improve the currently built prediction model among the data that has no result value and gives the result value. After that, the predictive model is constructed by using the newly assigned data along with the existing data, and the process of selecting one of the data that is not given the result is repeated. Through this, we can build high-performance prediction model using only a few measurement results.

그러나 최근 연구(Lin et al., 2016)(Lin, C. H., Mausam, & Weld, D. S., Re-active learning: Active learning with relabeling. In Proceedings of the 30th AAAI Conference on Artificial Intelligence (pp. 1845-1852))에 따르면 데이터에 노이즈가 있는 상황에서는 결과 값의 부여 자체가 불확실할 수 있기 때문에 결과 값이 없는 데이터에 새롭게 결과 값을 부여하는 것뿐만 아니라, 이미 결과 값이 존재하는 데이터의 결과 값 또한 더욱 정밀화하는 것이 예측 모형의 개선에 도움을 줄 수 있으며, 이에 따라 두 가지를 모두 동시에 고려하는 리레이블링 문제와 이를 분류 모형 구축에 적용하는 방법이 제안되었다. 이러한 리레이블링 문제에서는 능동 학습에서 사용하던 기존의 데이터 선택법을 그대로 사용할 수 없기 때문에 새로운 데이터 선택법이 필요하다.However, a recent study (Lin et al., 2016) (Lin, CH, Mausam, & Weld, DS, Re-active learning: Active learning with relabeling.In Proceedings of the 30th AAAI Conference on Artificial Intelligence (pp. 1845-1852) According to), in the situation where the data is noisy, the assignment of the result value may be uncertain, so not only the new result value is added to the data without the result value, but also the result value of the data that already has the result value is further refined. Can help improve the predictive model. Therefore, a relabeling problem that considers both at the same time and a method of applying the same to the classification model have been proposed. In this relabeling problem, a new data selection method is required because the existing data selection method used in active learning cannot be used as it is.

위의 문헌(Lin et al., 2016)에서 분류 모형에 적합한 리레이블링 문제에서의 데이터 선택법이 제안되었으나, 현재까지 회귀 분석 모형에 대한 리레이블링 문제에서의 데이터 선택법에 대하여 진행된 연구가 존재하지 않았고, 이 경우에도 능동 학습에서 사용되던 방법을 그대로 적용할 수 없기 때문에 새로운 방법의 개발이 필요하다.
In the above literature (Lin et al., 2016), a data selection method for a relabeling problem suitable for a classification model has been proposed, but there have been no studies on the data selection method for a relabeling problem for a regression analysis model. Even in this case, a new method is needed because the method used in active learning cannot be applied as it is.

본 발명은 회귀 분석을 위한 리레이블링 문제에서 데이터를 선택하는 신규의 방법을 최초로 제공하여, 데이터의 결과 값을 얻기 위한 레이블링 비용이 큰 경우에도 적은 비용으로 더욱 정교한 회귀 분석 모형을 구축할 수 있도록 하는 리레이블링 방법을 제공하기 위한 것이다.
The present invention is the first to provide a new method for selecting data in a relabeling problem for regression analysis, enabling a more sophisticated regression model to be built at a lower cost even if the labeling cost for obtaining the data is large. It is to provide a relabeling method.

본 발명의 일 측면에 따르면, 회귀 분석을 위한 리레이블링 방법에 관한 컴퓨터 구현 방법(computer implemented method)에 있어서, (a) 소정의 데이터 셋(data set)에 사전 선택된 회귀 분석 방법을 적용한 초기 회귀 분석 모형을 구축하는 단계-여기서, 상기 데이터 셋은 결과 값이 주어진 데이터와 결과 값이 주어지지 않은 데이터의 집합으로 구성됨-; (b) 구축된 회귀 분석 모형의 데이터 셋 중 레이블 대상 인스턴스(instance)인 데이터를 선택하는 단계; (c) 구축된 회귀 분석 모형에 따라 상기 선택된 데이터의 결과값을 측정하여, 상기 선택된 데이터가 기존에 결과 값이 존재하지 않는 데이터인 경우 측정된 결과 값으로 새롭게 레이블을 부여하고, 상기 선택된 데이터가 기존에 결과 값이 존재하는 데이터인 경우 기존 결과 값과 새롭게 측정된 결과 값의 평균 값으로 새롭게 레이블을 부여하는 단계; (d) 기존 데이터 셋에서 상기 새롭게 레이블이 부여된 데이터를 업데이트한 신규 데이터 셋을 구성하고, 구성된 신규 데이터 셋을 이용하여 회귀 분석 모형을 재구성하는 단계; 및 (e) 사정 지정된 회귀 분석 종료 조건을 만족할 때까지 상기 (b) 단계 내지 상기 (d) 단계를 반복함으로써, 최종 회귀 분석 모형을 구축하는 단계를 포함하는 회귀 분석을 위한 리레이블링 방법이 제공된다.
According to an aspect of the present invention, in a computer implemented method related to a relabeling method for regression analysis, (a) initial regression analysis applying a preselected regression analysis method to a predetermined data set; Building a model, wherein the data set consists of a set of data given a result value and a data without a result value; (b) selecting data which is an instance of a label object among data sets of the constructed regression analysis model; (c) measuring the resultant value of the selected data according to the regression analysis model constructed, and if the selected data is data that does not already exist, label the resultant value newly and Labeling a new value with an average value of the existing result value and the newly measured result value when the result value data exists previously; (d) constructing a new data set that updates the newly labeled data in an existing data set, and reconstructing a regression analysis model using the constructed new data set; And (e) repeating steps (b) to (d) until the specified regression analysis end condition is satisfied, thereby constructing a final regression analysis model. .

여기서, 상기 (b) 단계는, 상기 회귀 분석 시행 횟수가 사전 지정된 모수 k(k는 자연수임)의 배수가 아닌 경우 상기 레이블 대상 인스턴스로서 데이터 셋 중 결과 값이 존재하지 않는 데이터 중 하나를 선택하고, 상기 회귀 분석 시행 횟수가 상기 k의 배수인 경우 상기 레이블 대상 인스턴스로서 데이터 셋 중 결과 값이 존재하는 데이터 중 하나를 선택하는 단계일 수 있다.
Here, in the step (b), if the number of regression analysis is not a multiple of a predetermined parameter k (k is a natural number), one of the data sets does not have a result value as the label target instance. When the number of regression analysis is performed is a multiple of k, the method may include selecting one of data having a result value from among a data set as the instance to be labeled.

여기서, 상기 (b) 단계는, 상기 레이블 대상 인스턴스로서 결과 값이 존재하지 않는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는 데이터 셋 내에서 결과 값이 존재하지 않는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 분산값인

Figure 112018013078798-pat00001
가 가장 큰 데이터를 선택하는 단계일 수 있다.
Here, in step (b), when the data having no result value as the label target instance is selected, the label target instance is a regression analysis model currently constructed among the data without the result value in the data set. Predicted variance by
Figure 112018013078798-pat00001
May be the step of selecting the largest data.

여기서, 상기 (b) 단계는, 상기 레이블 대상 인스턴스로서 결과 값이 존재하는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 결과 값인

Figure 112018013078798-pat00002
와 해당 데이터에 관하여 레이블되었던 적어도 하나의 기존 결과값들의 평균 값인
Figure 112018013078798-pat00003
의 차(difference)의 절대 값으로 정의되는 예상 노이즈(expected noise)와 연관되는 데이터가 선택되는 단계일 수 있다.Here, in the step (b), when the data having the result value is selected as the label target instance, the label target instance is determined by the regression analysis model currently constructed among the data having the result value in the data set. Predicted value
Figure 112018013078798-pat00002
And the average of at least one existing result that has been labeled for that data.
Figure 112018013078798-pat00003
The data associated with the expected noise defined as the absolute value of the difference may be selected.

또한 여기서, 상기 (b) 단계는, 상기 레이블 대상 인스턴스로서 결과 값이 존재하는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는

Figure 112018013078798-pat00004
가 가장 큰 데이터가 선택되는 단계일 수 있다. 이때,
Figure 112018013078798-pat00005
는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 분산값이고,
Figure 112018013078798-pat00006
는 사전 지정된 모수로서 0보다 큰 값으로 설정될 수 있다.
Also, in the step (b), when the data having a result value is selected as the label target instance, the label target instance is selected.
Figure 112018013078798-pat00004
May be the step in which the largest data is selected. At this time,
Figure 112018013078798-pat00005
Is the predicted variance value of the currently constructed regression model among the data of which there are result values in the data set,
Figure 112018013078798-pat00006
May be set to a value greater than zero as a predetermined parameter.

여기서, 상기 (e) 단계에서, 상기 회귀 분석 종료 조건은, 회귀 분석 시행 횟수가 사전 지정된 최대 반복수를 초과하는 경우, 결과 값의 레이블 횟수가 사전 지정된 최대 레이블 수를 초과하는 경우, 구축된 회귀 분석 모형이 사전 지정된 성능 지표에 따른 목표 성능 수치에 도달하는 경우 중 어느 하나의 조건이 적용될 수 있다.
Here, in the step (e), the regression analysis end condition is, if the number of regression analysis attempts exceeds the predetermined maximum number of iterations, if the number of labels of the result value exceeds the predetermined maximum number of labels, built regression Either condition may be applied when the analytical model reaches target performance figures according to predefined performance indicators.

본 발명의 다른 측면에 따르면, 상술한 회귀 분석을 위한 리레이블링 방법이 기록되며 컴퓨터로 읽을 수 있는 기록 매체 제품이 제공될 수 있다.
According to another aspect of the present invention, a relabeling method for regression analysis described above may be recorded and a computer readable recording medium product may be provided.

본 발명의 실시예에 따른 리레이블링 방법에 의하면, 기존에 데이터의 결과 값을 얻는데 실험, 설문, 구매, 수동 조사, 공장 설비의 가동 중단 등이 필요하여 많은 비용이 들어가는 산업에서의 회귀 분석 문제에 활용되어, 적은 비용으로 좋은 성능을 지니는 모형을 구축할 수 있게 해줄 것이 기대되며, 이에 따라 국내외 산업에서 데이터의 활용을 더욱 활성화시킬 수 있는 효과가 있다.
According to the relabeling method according to an embodiment of the present invention, the regression analysis problem in the industry that requires expensive experiments, questionnaires, purchases, manual investigations, downtimes of plant equipment, etc. is required to obtain a result value of data. It is expected to be able to build a model having a good performance at a low cost, thereby having the effect of further enabling the utilization of data in domestic and foreign industries.

도 1은 본 발명의 실시예에 따른 회귀 분석을 위한 리레이블링 방법을 전반적으로 설명하기 위한 플로우차트.
도 2 및 도 3은 ER(Exploration and Refinement) 샘플링 방법에 관한 노테이션(notation) 및 의사 코드(pseudocode)를 나타낸 도면들.
도 4는 본 발명을 비선형 베이지안 회귀 방법 중 하나인 가우시안 회귀 분석에 적용한 예시들.
도 5 및 도 6은 사전 지정된 다양한 벤치마크 데이터 셋에 본 발명을 적용하였을 때의 성능 비교 결과를 예시한 도면들.
1 is a flowchart for explaining the overall relabeling method for regression analysis according to an embodiment of the present invention.
2 and 3 show notation and pseudocode for an explosion and refinement (ER) sampling method.
4 is an example of applying the present invention to Gaussian regression analysis, one of the nonlinear Bayesian regression methods.
5 and 6 illustrate performance comparison results when the present invention is applied to various predefined benchmark data sets.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.As the invention allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to limit the present invention to specific embodiments, it should be understood to include all transformations, equivalents, and substitutes included in the spirit and scope of the present invention.

본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.In describing the present invention, when it is determined that the detailed description of the related known technology may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. In addition, numerals (eg, first, second, etc.) used in the description of the present specification are merely identification symbols for distinguishing one component from another component.

또한, 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하나 이상의 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있음을 의미한다.
In addition, throughout the specification, when a part is said to "include" a certain component, it means that it may further include other components, without excluding the other components unless otherwise stated. In addition, the terms "unit", "module", and the like described in the specification mean a unit that processes at least one function or operation, which means that it may be implemented in one or more pieces of hardware or software, or a combination of hardware and software. .

도 1은 본 발명의 실시예에 따른 회귀 분석을 위한 리레이블링 방법을 전반적으로 설명하기 위한 플로우차트이고, 도 2 및 도 3은 ER(Exploration and Refinement) 샘플링 방법에 관한 노테이션(notation) 및 의사 코드(pseudocode)를 나타낸 도면들이다. 또한, 도 4는 본 발명을 비선형 베이지안 회귀 방법 중 하나인 가우시안 회귀 분석에 적용한 예시들이고, 도 5 및 도 6은 사전 지정된 다양한 벤치마크 데이터 셋에 본 발명을 적용하였을 때의 성능 비교 결과를 예시한 도면들이다.1 is a flowchart for explaining the overall relabeling method for regression analysis according to an embodiment of the present invention, Figures 2 and 3 are notation (notation) and pseudo code for the explosion and refinement (ER) sampling method (pseudocode) shows the figure. 4 is an example of applying the present invention to Gaussian regression, which is one of the nonlinear Bayesian regression methods, and FIGS. 5 and 6 illustrate results of performance comparison when the present invention is applied to various predetermined benchmark data sets. Figures.

본 발명은 회귀 분석을 위한 리레이블링 방법을 최초로 제안하였으며, 본 발명의발명된 핵심적 기술 특징은 회귀 분석을 위한 리레이블링에 적합한 데이터 선택 방법이다. 이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.The present invention first proposed a relabeling method for regression analysis, and a key technical feature of the present invention is a data selection method suitable for relabeling for regression analysis. Hereinafter, with reference to the accompanying drawings will be described an embodiment of the present invention;

본 발명의 실시예에 따른 회귀 분석을 위한 리레이블링 방법은 다음과 같이 실행될 수 있다. 먼저, 소수의 결과 값이 주어진 데이터와 다수의 결과 값이 주어지지 않은 데이터로 데이터 셋(data set)을 구성한다. 그 후, 이 데이터 셋에 적절한(예를 들어, 시스템 설계자에 의해 사전 선택된) 회귀 분석 방법을 적용하여 초기 회귀 분석 모형을 구축한다. 이때, 초기 회귀 분석 모형은 기존에 레이블(즉, 결과 값)을 가지는 데이터를 이용하여 예측 모형을 학습하여 구축하는 방식이 이용될 수 있다[도 1의 S110 및 S120 참조].The relabeling method for regression analysis according to an embodiment of the present invention may be performed as follows. First, a data set is composed of data given a few result values and data not given a plurality of result values. The initial regression model is then constructed by applying the appropriate regression analysis method (e.g., preselected by the system designer) to this data set. In this case, the initial regression analysis model may be a method of learning and building a predictive model using data having labels (that is, result values) in the past (see S110 and S120 of FIG. 1).

다음으로 구축된 회귀 분석 모형을 이용하여 데이터 셋 중 레이블 대상 인스턴스로서의 데이터를 하나 선택한다. 이때, 선택된 데이터의 결과 값을 레이블링 비용을 지불하고 측정하여, 만일 선택된 데이터가 기존에 결과 값이 존재하지 않는 데이터였다면 측정된 결과 값으로 새롭게 레이블을 부여하고, 선택된 데이터가 기존에 결과 값이 존재하는 데이터였다면 기존 결과 값들과 새롭게 측정된 결과 값의 평균으로 새롭게 레이블을 부여한다[도 1의 S142, S144, S152, S154 참조].Next, using the regression model, we select one of the data sets as an instance to be labeled. At this time, the result value of the selected data is paid at a labeling cost and measured, and if the selected data is data that does not have a result value previously, it is newly labeled with the measured result value, and the selected data has a result value. If the data were to be newly labeled with the average of the existing results and the newly measured results (see S142, S144, S152, S154 of Figure 1).

그 후 새롭게 결과 값이 부여된 데이터를 데이터 셋에서 업데이트하여 새로운 데이터 셋을 구성하고, 새로운 데이터 셋을 이용하여 다시 회귀 분석 모형을 구성한다. 본 과정을 만족스러운 수준의 모형이 얻어지거나(즉, 구축된 회귀 분석 모형이 사전 지정된 성능 지표에 따른 목표 성능 수치에 도달하는 경우), 회귀 분석 시행 횟수가 특정한 수(사전 지정된 최대 반복수)를 넘어가는 경우, 결과 값의 횟수가 특정한 수(사전 지정된 최대 레이블 수)를 넘어가는 경우 등이 일어날 때까지 반복하여 최종 회귀분석 모형을 구축한다[도 1의 S160 및 S170 참조].After that, the newly assigned data is updated in the data set to form a new data set, and the regression model is constructed again using the new data set. This process can be achieved by obtaining a satisfactory level of modeling (i.e., when the built regression model reaches a target performance figure according to a pre-defined performance indicator), or by specifying a specific number (predetermined maximum number of iterations). In case of skipping, the final regression model is constructed by repeating the case where the number of result values exceeds a specific number (the maximum number of predetermined labels) and the like (see S160 and S170 of FIG. 1).

여기서, 구축된 회귀 분석 모형을 이용하여 모형의 성능을 가장 크게 향상시킬 수 있는 데이터의 구체적인 선택 방법은 다음과 같다. 먼저, 시행 횟수가 사전에 미리 정해진 특정 모수 k(k는 자연수)의 배수가 아닌 경우, 결과 값이 존재하는 않는 데이터 중 하나를 선택하여 결과 값을 부여한다[도 1의 S130 참조]. 이때 선택되는 데이터는, 일반 능동학습에서 사용되는 불확실도 선택법을 이용하여 선택한다. 즉, 결과 값이 존재하지 않는 데이터 중

Figure 112018013078798-pat00007
의 값이 가장 큰 데이터를 골라 결과 값을 측정하고 부여한다[도 3의 의사 코드 중 exploration step 참조]. 여기서,
Figure 112018013078798-pat00008
은 결과 값이 주어지지 않은 데이터
Figure 112018013078798-pat00009
에 대하여 현재 구축된 모델의 의한 예측 분산 값이다.Here, the specific selection method of data that can greatly improve the performance of the model using the constructed regression analysis model is as follows. First, when the number of trials is not a multiple of a predetermined predetermined parameter k (k is a natural number), one of the data for which there is no result value is selected and the result value is assigned (see S130 of FIG. 1). The selected data is selected using the uncertainty selection method used in general active learning. That is, among the data where the result value does not exist
Figure 112018013078798-pat00007
Select the data with the largest value of and measure and give the result value (see exploration step in the pseudo code of FIG. 3). here,
Figure 112018013078798-pat00008
Is the data whose result is not given
Figure 112018013078798-pat00009
Is the predicted variance of the currently built model for.

또한, 시행 횟수가 k의 배수인 경우, 결과 값이 존재하는 데이터 중 하나를 선택한다[도 1의 S130]. 이에 따라 선택된 데이터의 결과 값을 새로 측정하고, 기존에 측정되었던 결과 값들과의 평균 값을 선택하여 새로운 결과 값으로 업데이트 한다. 이때, 선택되는 데이터는 결과 값이 존재하는 데이터 중,

Figure 112018013078798-pat00010
값이 가장 큰 데이터를 선택한다[도 3의 의사 코드 중 refinement step 참조]. 여기서,
Figure 112018013078798-pat00011
는 결과 값이 주어진 데이터
Figure 112018013078798-pat00012
에 대하여 현재 구축된 모델의 의한 예측 값이고,
Figure 112018013078798-pat00013
Figure 112018013078798-pat00014
의 결과 값으로 측정된 값들의 평균 값,
Figure 112018013078798-pat00015
는 미리 지정된 모수이다.In addition, when the number of trials is a multiple of k, one of the data having the resultant value is selected (S130 of FIG. 1). Accordingly, the resultant value of the selected data is newly measured, and the average value with the previously measured resultant values is selected and updated with the new resultant value. At this time, the selected data is among the data in which the result value exists.
Figure 112018013078798-pat00010
Select the data with the largest value (see refinement step in pseudo code of FIG. 3). here,
Figure 112018013078798-pat00011
Is the data given the resulting value
Figure 112018013078798-pat00012
Is the predicted value of the currently built model for,
Figure 112018013078798-pat00013
Is
Figure 112018013078798-pat00014
The average of the values measured as the result of
Figure 112018013078798-pat00015
Is a predefined parameter.

즉, 본 발명의 실시예에 따른 refinement step에서 선택될 데이터는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 결과 값인

Figure 112018013078798-pat00016
와 해당 데이터에 관하여 레이블되었던 적어도 하나의 기존 결과값들의 평균 값인
Figure 112018013078798-pat00017
의 차(difference)의 절대 값으로 정의되는 예상 노이즈(expected noise)와 연관되는 데이터일 수 있다. 종래 기술에 의할 때, 결과 값이 존재하는 데이터들 중에 상당수 노이즈가 존재하게 되면 이들 노이즈들에 의해서 구축될 회귀 분석 모형이 왜곡될 가능성이 컸었다. 반면 본 발명의 실시예에 의하면 기존에 결과 값이 존재하는 데이터들에 대해서도 노이즈일 것으로 예상되는 데이터를 우선 선별해내어 지속적으로 평균화 처리하는 과정을 통해서 노이즈에 강인한 신뢰성 높은 회귀 분석 모형을 구축할 수 있는 이점이 있다.That is, the data to be selected in the refinement step according to an embodiment of the present invention is a prediction result value by the currently constructed regression model among the data having a result value in the data set.
Figure 112018013078798-pat00016
And the average of at least one existing result that has been labeled for that data.
Figure 112018013078798-pat00017
It may be data associated with an expected noise defined as an absolute value of the difference of. According to the prior art, if a large number of noises exist among the data in which the resultant values exist, the regression analysis model to be built by these noises was likely to be distorted. On the other hand, according to the exemplary embodiment of the present invention, a reliable regression analysis model robust to noise can be constructed by first selecting data that is expected to be noise even for data having existing result values and continuously averaging them. There is an advantage to that.

이와 관련하여 도 4는 회귀 분석 모형의 효과를 대조하여 보여주고 있는데, 도 4의 (a)는 특정 데이터 셋에 관하여 비선형 베이지안 회귀 분석 방법 중 하나인 가우시안 회귀 분석 방법을 적용한 회귀 분석 모형의 원형(original)을 보여주고 있으며, 도 4의 (b)는 능동 학습을 통한 exploration step만을 적용하였을 때의 결과를 보여주고 있고, 도 4의 (c)는 refinement step을 통해서 결과 값이 존재하는 데이터의 결과 값 정교화만을 수행하였을 때의 결과를 보여주고 있으며, 도 4의 (d)는 본 발명의 방법론을 통하여 exploration step과 refinement step을 모두 적용하였을 때의 결과를 보여주고 있다. 도면 대조를 통해 확인할 수 있는 바와 같이, 본 발명의 방법론에 따른 결과가 더욱 성능이 우수함(예측 분산값이 다른 대조군에 비해 작음)을 확인할 수 있다.In this regard, FIG. 4 illustrates the effects of the regression analysis model. FIG. 4A illustrates a prototype of a regression analysis model using a Gaussian regression method, which is one of nonlinear Bayesian regression methods, for a specific data set. original), and FIG. 4 (b) shows the result when only the exploration step through active learning is applied, and FIG. 4 (c) shows the result of the data having the result value through the refinement step. The results when only the value refinement is performed, and FIG. 4 (d) shows the results when both the exploration step and the refinement step are applied through the methodology of the present invention. As can be seen from the comparison of the drawings, it can be seen that the results according to the methodology of the present invention are more excellent (the predicted dispersion value is smaller than that of other controls).

또한 도 5에 의할 때, 도 6에 기재된 총 8개의 벤치마크 데이터 셋을 이용한 대조 결과에 의할 때에도 본 발명의 실시예에 따른 ER 샘플링 방법을 적용할 때가 종래 기술(도 5의 각 도면의 baseline 참조)에 비해 RMSE(root mean squared error) 값이 낮은 값을 나타냄을 확인할 수 있다.
In addition, when applying the ER sampling method according to an embodiment of the present invention, even when based on the control result using a total of eight benchmark data sets described in FIG. The root mean squared error (RMS) value is lower than that of the baseline.

상술한 본 발명에 따른 회귀 분석을 위한 리레이블링 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. The relabeling method for regression analysis according to the present invention described above may be implemented as computer readable codes on a computer readable recording medium. Computer-readable recording media include all kinds of recording media having data stored thereon that can be decrypted by a computer system. For example, there may be a read only memory (ROM), a random access memory (RAM), a magnetic tape, a magnetic disk, a flash memory, an optical data storage device, and the like. The computer readable recording medium can also be distributed over computer systems connected over a computer network, stored and executed as readable code in a distributed fashion.

이상에서는 본 발명의 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 쉽게 이해할 수 있을 것이다.Although the above has been described with reference to embodiments of the present invention, those skilled in the art may variously modify the present invention without departing from the spirit and scope of the present invention as set forth in the claims below. And can be changed easily.

Claims (7)

회귀 분석을 위한 리레이블링 방법에 관한 컴퓨터 구현 방법(computer implemented method)에 있어서,
(a) 소정의 데이터 셋(data set)에 사전 선택된 회귀 분석 방법을 적용한 초기 회귀 분석 모형을 구축하는 단계-여기서, 상기 데이터 셋은 결과 값이 주어진 데이터와 결과 값이 주어지지 않은 데이터의 집합으로 구성됨-;
(b) 구축된 회귀 분석 모형의 데이터 셋 중 레이블 대상 인스턴스(instance)인 데이터를 선택하는 단계;
(c) 구축된 회귀 분석 모형에 따라 상기 선택된 데이터의 결과값을 측정하여, 상기 선택된 데이터가 기존에 결과 값이 존재하지 않는 데이터인 경우 측정된 결과 값으로 새롭게 레이블을 부여하고, 상기 선택된 데이터가 기존에 결과 값이 존재하는 데이터인 경우 기존 결과 값과 새롭게 측정된 결과 값의 평균 값으로 새롭게 레이블을 부여하는 단계;
(d) 기존 데이터 셋에서 상기 새롭게 레이블이 부여된 데이터를 업데이트한 신규 데이터 셋을 구성하고, 구성된 신규 데이터 셋을 이용하여 회귀 분석 모형을 재구성하는 단계; 및
(e) 사정 지정된 회귀 분석 종료 조건을 만족할 때까지 상기 (b) 단계 내지 상기 (d) 단계를 반복함으로써, 최종 회귀 분석 모형을 구축하는 단계;
를 포함하고,
상기 (b) 단계는,
상기 회귀 분석 시행 횟수가 사전 지정된 모수 k(k는 자연수임)의 배수가 아닌 경우 상기 레이블 대상 인스턴스로서 데이터 셋 중 결과 값이 존재하지 않는 데이터 중 하나를 선택하고, 상기 회귀 분석 시행 횟수가 상기 k의 배수인 경우 상기 레이블 대상 인스턴스로서 데이터 셋 중 결과 값이 존재하는 데이터 중 하나를 선택하는 것을 특징으로 하는 회귀 분석을 위한 리레이블링 방법.
In the computer implemented method for a relabeling method for regression analysis,
(a) constructing an initial regression model that applies a preselected regression analysis method to a given data set, wherein the data set is a set of data given a result value and no data given a result value; Configured;
(b) selecting data which is an instance of a label object among data sets of the constructed regression analysis model;
(c) measuring the resultant value of the selected data according to the regression analysis model constructed, and if the selected data is data that does not already exist, label the resultant value newly and Labeling a new value with an average value of the existing result value and the newly measured result value when the result value data exists previously;
(d) constructing a new data set that updates the newly labeled data in an existing data set, and reconstructing a regression analysis model using the constructed new data set; And
(e) constructing a final regression analysis model by repeating steps (b) to (d) until the assessment regression analysis end condition is satisfied;
Including,
Step (b),
When the number of regression analysis trials is not a multiple of a predetermined parameter k (k is a natural number), one of the data sets having no result value is selected as an instance of the label, and the number of regression trials is k The method of relabeling for the regression analysis, characterized in that when the multiple of the label target instance selects one of the data of the result set of the data set.
삭제delete 제1항에 있어서,
상기 (b) 단계는,
상기 레이블 대상 인스턴스로서 결과 값이 존재하지 않는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는 데이터 셋 내에서 결과 값이 존재하지 않는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 분산값인
Figure 112018013078798-pat00018
가 가장 큰 데이터를 선택하는 것을 특징으로 하는, 회귀 분석을 위한 리레이블링 방법.
The method of claim 1,
Step (b),
When data having no result value is selected as the label target instance, the label target instance is a predicted variance value by a currently constructed regression model among data for which there is no result value in the data set.
Figure 112018013078798-pat00018
The relabeling method for regression analysis, characterized in that selects the largest data.
제1항에 있어서,
상기 (b) 단계는,
상기 레이블 대상 인스턴스로서 결과 값이 존재하는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 결과 값인
Figure 112018013078798-pat00019
와 해당 데이터에 관하여 레이블되었던 적어도 하나의 기존 결과값들의 평균 값인
Figure 112018013078798-pat00020
의 차(difference)의 절대 값으로 정의되는 예상 노이즈(expected noise)와 연관되는 데이터가 선택되는 것을 특징으로 하는, 회귀 분석을 위한 리레이블링 방법.
The method of claim 1,
Step (b),
When data having a result value as the label target instance is selected, the label target instance is a prediction result value by a currently constructed regression model among data having a result value in the data set.
Figure 112018013078798-pat00019
And the average of at least one existing result that has been labeled for that data.
Figure 112018013078798-pat00020
Wherein the data associated with the predicted noise defined by the absolute value of the difference is selected.
제4항에 있어서,
상기 (b) 단계는,
상기 레이블 대상 인스턴스로서 결과 값이 존재하는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는
Figure 112018013078798-pat00021
가 가장 큰 데이터가 선택되되,
Figure 112018013078798-pat00022
는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 분산값이고,
Figure 112018013078798-pat00023
는 사전 지정된 모수로서 0보다 큰 값인 것을 특징으로 하는, 회귀 분석을 위한 리레이블링 방법.
The method of claim 4, wherein
Step (b),
If data whose result value exists as the label target instance is selected, the label target instance is selected.
Figure 112018013078798-pat00021
Will select the largest data,
Figure 112018013078798-pat00022
Is the predicted variance value of the currently constructed regression model among the data of which there are result values in the data set,
Figure 112018013078798-pat00023
Is a predetermined parameter, wherein the value is greater than 0, a relabeling method for regression analysis.
제1항에 있어서,
상기 (e) 단계에서,
상기 회귀 분석 종료 조건은,
회귀 분석 시행 횟수가 사전 지정된 최대 반복수를 초과하는 경우, 결과 값의 레이블 횟수가 사전 지정된 최대 레이블 수를 초과하는 경우, 구축된 회귀 분석 모형이 사전 지정된 성능 지표에 따른 목표 성능 수치에 도달하는 경우 중 어느 하나인 것을 특징으로 하는, 회귀 분석을 위한 리레이블링 방법.
The method of claim 1,
In the step (e),
The regression end condition is,
When the number of regression trials exceeds the predetermined maximum number of iterations, When the number of labels in the result value exceeds the maximum number of predefined labels, When the built regression model reaches target performance figures according to predefined performance metrics Relabeling method for regression analysis, characterized in that any one of.
제1항, 제3항 내지 제6항 중 어느 한 항에 의한 회귀 분석을 위한 리레이블링 방법을 수행하는 프로그램이 기록된, 컴퓨터로 읽을 수 있는 기록 매체.A computer-readable recording medium having recorded thereon a program for performing the relabeling method for regression analysis according to any one of claims 1 to 3.
KR1020180014556A 2018-02-06 2018-02-06 Re-labeling method for regression KR102071071B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180014556A KR102071071B1 (en) 2018-02-06 2018-02-06 Re-labeling method for regression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180014556A KR102071071B1 (en) 2018-02-06 2018-02-06 Re-labeling method for regression

Publications (2)

Publication Number Publication Date
KR20190094890A KR20190094890A (en) 2019-08-14
KR102071071B1 true KR102071071B1 (en) 2020-03-03

Family

ID=67622036

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180014556A KR102071071B1 (en) 2018-02-06 2018-02-06 Re-labeling method for regression

Country Status (1)

Country Link
KR (1) KR102071071B1 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102274069B1 (en) * 2014-10-30 2021-07-06 삼성에스디에스 주식회사 Apparatus and method for generating prediction model
KR102215690B1 (en) * 2015-12-29 2021-02-16 삼성에스디에스 주식회사 Method and apparatus for time series data monitoring
KR102340258B1 (en) * 2015-12-29 2021-12-15 삼성에스디에스 주식회사 Method and apparatus for time series data prediction

Also Published As

Publication number Publication date
KR20190094890A (en) 2019-08-14

Similar Documents

Publication Publication Date Title
CN109657805B (en) Hyper-parameter determination method, device, electronic equipment and computer readable medium
Jain et al. A study of time series models ARIMA and ETS
Kharouba et al. Historically calibrated predictions of butterfly species' range shift using global change as a pseudo‐experiment
Zhang et al. Remaining useful life estimation for mechanical systems based on similarity of phase space trajectory
CN107122327B (en) Method and training system for training model by using training data
US8756175B1 (en) Robust and fast model fitting by adaptive sampling
US10073908B2 (en) Functional space-time trajectory clustering
Richmond et al. Is the climate right for Pleistocene rewilding? Using species distribution models to extrapolate climatic suitability for mammals across continents
US8732666B2 (en) Automatic identification of subroutines from test scripts
Hargreaves Skill and uncertainty in climate models
JP2018129033A (en) Artificial neural network class-based pruning
US20190266619A1 (en) Behavior pattern search system and behavior pattern search method
CN101950376A (en) Hidden Markov model facility for study and method, program and recording medium
US20180240040A1 (en) Training and estimation of selection behavior of target
CN113660225A (en) Network attack event prediction method, system, device and medium based on time sequence point
US20120022920A1 (en) Eliciting customer preference from purchasing behavior surveys
Nam et al. The uncertainty of storm season changes: quantifying the uncertainty of autocovariance changepoints
JP7152938B2 (en) Machine learning model building device and machine learning model building method
Kraemer et al. Optimal state space reconstruction via Monte Carlo decision tree search
KR102071071B1 (en) Re-labeling method for regression
CN112712181A (en) Model construction optimization method, device, equipment and readable storage medium
Alfaro et al. Proposal of Two Measures of Complexity Based on Lempel‐Ziv for Dynamic Systems: An Application for Manufacturing Systems
Patel et al. Machine learning in oil & gas industry: a novel application of clustering for oilfield advanced process control
KR20190135238A (en) Method and system for incrementally learning experiential knowledge in single classification domain via analyzing new cases
JP2005063208A (en) Software reliability growth model selection method, software reliability growth model selection apparatus, software reliability growth model selection program and program recording medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant