KR20190094890A - 회귀 분석을 위한 리레이블링 방법 - Google Patents

회귀 분석을 위한 리레이블링 방법 Download PDF

Info

Publication number
KR20190094890A
KR20190094890A KR1020180014556A KR20180014556A KR20190094890A KR 20190094890 A KR20190094890 A KR 20190094890A KR 1020180014556 A KR1020180014556 A KR 1020180014556A KR 20180014556 A KR20180014556 A KR 20180014556A KR 20190094890 A KR20190094890 A KR 20190094890A
Authority
KR
South Korea
Prior art keywords
data
regression analysis
result value
value
regression
Prior art date
Application number
KR1020180014556A
Other languages
English (en)
Other versions
KR102071071B1 (ko
Inventor
손영두
강석호
Original Assignee
동국대학교 산학협력단
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단, 성균관대학교산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020180014556A priority Critical patent/KR102071071B1/ko
Publication of KR20190094890A publication Critical patent/KR20190094890A/ko
Application granted granted Critical
Publication of KR102071071B1 publication Critical patent/KR102071071B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

회귀 분석을 위한 리레이블링 방법에 관한 컴퓨터 구현 방법(computer implemented method)에 있어서, (a) 소정의 데이터 셋(data set)에 사전 선택된 회귀 분석 방법을 적용한 초기 회귀 분석 모형을 구축하는 단계-여기서, 상기 데이터 셋은 결과 값이 주어진 데이터와 결과 값이 주어지지 않은 데이터의 집합으로 구성됨-; (b) 구축된 회귀 분석 모형의 데이터 셋 중 레이블 대상 인스턴스(instance)인 데이터를 선택하는 단계; (c) 구축된 회귀 분석 모형에 따라 상기 선택된 데이터의 결과값을 측정하여, 상기 선택된 데이터가 기존에 결과 값이 존재하지 않는 데이터인 경우 측정된 결과 값으로 새롭게 레이블을 부여하고, 상기 선택된 데이터가 기존에 결과 값이 존재하는 데이터인 경우 기존 결과 값과 새롭게 측정된 결과 값의 평균 값으로 새롭게 레이블을 부여하는 단계; (d) 기존 데이터 셋에서 상기 새롭게 레이블이 부여된 데이터를 업데이트한 신규 데이터 셋을 구성하고, 구성된 신규 데이터 셋을 이용하여 회귀 분석 모형을 재구성하는 단계; 및 (e) 사정 지정된 회귀 분석 종료 조건을 만족할 때까지 상기 (b) 단계 내지 상기 (d) 단계를 반복함으로써, 최종 회귀 분석 모형을 구축하는 단계를 포함하는 회귀 분석을 위한 리레이블링 방법이 제공된다.

Description

회귀 분석을 위한 리레이블링 방법{RE-LABELING METHOD FOR REGRESSION}
본 발명은 회귀 분석에 관한 것으로서, 보다 구체적으로는 회귀 분석을 위한 능동 학습 프레임워크(Active learning framework)를 구축하는데 있어 활용될 수 있는 신규의 리레이블링 방법에 관한 것이다.
회귀 분석은 주어진 데이터를 통하여 연속형의 결과 값을 예측하는 방법으로서, 오래 전에 개발된 단순한 형태의 선형 회귀로부터 최근 개발된 비선형 커널 회귀 분석, 딥러닝 회귀 분석 등 지속적으로 많은 관심을 받아오고 있다. 이러한 회귀 분석은 주어진 데이터의 입력 변수 값과 출력 변수 값(결과 값) 간의 관계를 파악하여 새로운 데이터로서의 입력 변수가 주어진 경우 가장 적합한 결과 값(즉, 예측 값)을 찾아내는데 이용된다.
일반적인 형태의 회귀 분석에서는 예측 모형(모델)을 구축하기 위하여 주어진 데이터의 입력 변수와 결과 값이 모두 필요하다. 그러나 실생활 및 실제 산업 문제에서는 이러한 결과 값을 얻는 비용이 매우 클 수 있다. 예를 들어, 결과 값을 얻는 비용이 큰 예시로는, 결과 값을 얻기 위해서 실험을 해야하거나, 설문 조사를 해야하는 경우, 혹은 결과 값 측정을 위하여 공장 설비의 일시 정지가 필요한 경우 등이 있다.
이러한 상황을 해결하는 전통적인 방법으로는 능동 학습이 있다. 능동 학습(Active learning)이란 결과 값이 없는 데이터 중 현재 구축된 예측 모형을 가장 많이 개선시킬 수 있는 데이터를 능동적으로 선택하여 결과 값을 부여한다. 이 후 결과 값이 새로 부여된 데이터를 기존 데이터와 함께 사용하여 예측 모형을 구축하고, 다시 결과 값이 부여되지 않은 데이터 중 하나를 선택하는 과정을 반복한다. 이를 통하여 소수의 결과 값 측정만을 이용하여 고성능의 예측 모형을 구축할 수 있다.
그러나 최근 연구(Lin et al., 2016)(Lin, C. H., Mausam, & Weld, D. S., Re-active learning: Active learning with relabeling. In Proceedings of the 30th AAAI Conference on Artificial Intelligence (pp. 1845-1852))에 따르면 데이터에 노이즈가 있는 상황에서는 결과 값의 부여 자체가 불확실할 수 있기 때문에 결과 값이 없는 데이터에 새롭게 결과 값을 부여하는 것뿐만 아니라, 이미 결과 값이 존재하는 데이터의 결과 값 또한 더욱 정밀화하는 것이 예측 모형의 개선에 도움을 줄 수 있으며, 이에 따라 두 가지를 모두 동시에 고려하는 리레이블링 문제와 이를 분류 모형 구축에 적용하는 방법이 제안되었다. 이러한 리레이블링 문제에서는 능동 학습에서 사용하던 기존의 데이터 선택법을 그대로 사용할 수 없기 때문에 새로운 데이터 선택법이 필요하다.
위의 문헌(Lin et al., 2016)에서 분류 모형에 적합한 리레이블링 문제에서의 데이터 선택법이 제안되었으나, 현재까지 회귀 분석 모형에 대한 리레이블링 문제에서의 데이터 선택법에 대하여 진행된 연구가 존재하지 않았고, 이 경우에도 능동 학습에서 사용되던 방법을 그대로 적용할 수 없기 때문에 새로운 방법의 개발이 필요하다.
본 발명은 회귀 분석을 위한 리레이블링 문제에서 데이터를 선택하는 신규의 방법을 최초로 제공하여, 데이터의 결과 값을 얻기 위한 레이블링 비용이 큰 경우에도 적은 비용으로 더욱 정교한 회귀 분석 모형을 구축할 수 있도록 하는 리레이블링 방법을 제공하기 위한 것이다.
본 발명의 일 측면에 따르면, 회귀 분석을 위한 리레이블링 방법에 관한 컴퓨터 구현 방법(computer implemented method)에 있어서, (a) 소정의 데이터 셋(data set)에 사전 선택된 회귀 분석 방법을 적용한 초기 회귀 분석 모형을 구축하는 단계-여기서, 상기 데이터 셋은 결과 값이 주어진 데이터와 결과 값이 주어지지 않은 데이터의 집합으로 구성됨-; (b) 구축된 회귀 분석 모형의 데이터 셋 중 레이블 대상 인스턴스(instance)인 데이터를 선택하는 단계; (c) 구축된 회귀 분석 모형에 따라 상기 선택된 데이터의 결과값을 측정하여, 상기 선택된 데이터가 기존에 결과 값이 존재하지 않는 데이터인 경우 측정된 결과 값으로 새롭게 레이블을 부여하고, 상기 선택된 데이터가 기존에 결과 값이 존재하는 데이터인 경우 기존 결과 값과 새롭게 측정된 결과 값의 평균 값으로 새롭게 레이블을 부여하는 단계; (d) 기존 데이터 셋에서 상기 새롭게 레이블이 부여된 데이터를 업데이트한 신규 데이터 셋을 구성하고, 구성된 신규 데이터 셋을 이용하여 회귀 분석 모형을 재구성하는 단계; 및 (e) 사정 지정된 회귀 분석 종료 조건을 만족할 때까지 상기 (b) 단계 내지 상기 (d) 단계를 반복함으로써, 최종 회귀 분석 모형을 구축하는 단계를 포함하는 회귀 분석을 위한 리레이블링 방법이 제공된다.
여기서, 상기 (b) 단계는, 상기 회귀 분석 시행 횟수가 사전 지정된 모수 k(k는 자연수임)의 배수가 아닌 경우 상기 레이블 대상 인스턴스로서 데이터 셋 중 결과 값이 존재하지 않는 데이터 중 하나를 선택하고, 상기 회귀 분석 시행 횟수가 상기 k의 배수인 경우 상기 레이블 대상 인스턴스로서 데이터 셋 중 결과 값이 존재하는 데이터 중 하나를 선택하는 단계일 수 있다.
여기서, 상기 (b) 단계는, 상기 레이블 대상 인스턴스로서 결과 값이 존재하지 않는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는 데이터 셋 내에서 결과 값이 존재하지 않는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 분산값인
Figure pat00001
가 가장 큰 데이터를 선택하는 단계일 수 있다.
여기서, 상기 (b) 단계는, 상기 레이블 대상 인스턴스로서 결과 값이 존재하는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 결과 값인
Figure pat00002
와 해당 데이터에 관하여 레이블되었던 적어도 하나의 기존 결과값들의 평균 값인
Figure pat00003
의 차(difference)의 절대 값으로 정의되는 예상 노이즈(expected noise)와 연관되는 데이터가 선택되는 단계일 수 있다.
또한 여기서, 상기 (b) 단계는, 상기 레이블 대상 인스턴스로서 결과 값이 존재하는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는
Figure pat00004
가 가장 큰 데이터가 선택되는 단계일 수 있다. 이때,
Figure pat00005
는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 분산값이고,
Figure pat00006
는 사전 지정된 모수로서 0보다 큰 값으로 설정될 수 있다.
여기서, 상기 (e) 단계에서, 상기 회귀 분석 종료 조건은, 회귀 분석 시행 횟수가 사전 지정된 최대 반복수를 초과하는 경우, 결과 값의 레이블 횟수가 사전 지정된 최대 레이블 수를 초과하는 경우, 구축된 회귀 분석 모형이 사전 지정된 성능 지표에 따른 목표 성능 수치에 도달하는 경우 중 어느 하나의 조건이 적용될 수 있다.
본 발명의 다른 측면에 따르면, 상술한 회귀 분석을 위한 리레이블링 방법이 기록되며 컴퓨터로 읽을 수 있는 기록 매체 제품이 제공될 수 있다.
본 발명의 실시예에 따른 리레이블링 방법에 의하면, 기존에 데이터의 결과 값을 얻는데 실험, 설문, 구매, 수동 조사, 공장 설비의 가동 중단 등이 필요하여 많은 비용이 들어가는 산업에서의 회귀 분석 문제에 활용되어, 적은 비용으로 좋은 성능을 지니는 모형을 구축할 수 있게 해줄 것이 기대되며, 이에 따라 국내외 산업에서 데이터의 활용을 더욱 활성화시킬 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 회귀 분석을 위한 리레이블링 방법을 전반적으로 설명하기 위한 플로우차트.
도 2 및 도 3은 ER(Exploration and Refinement) 샘플링 방법에 관한 노테이션(notation) 및 의사 코드(pseudocode)를 나타낸 도면들.
도 4는 본 발명을 비선형 베이지안 회귀 방법 중 하나인 가우시안 회귀 분석에 적용한 예시들.
도 5 및 도 6은 사전 지정된 다양한 벤치마크 데이터 셋에 본 발명을 적용하였을 때의 성능 비교 결과를 예시한 도면들.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하나 이상의 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있음을 의미한다.
도 1은 본 발명의 실시예에 따른 회귀 분석을 위한 리레이블링 방법을 전반적으로 설명하기 위한 플로우차트이고, 도 2 및 도 3은 ER(Exploration and Refinement) 샘플링 방법에 관한 노테이션(notation) 및 의사 코드(pseudocode)를 나타낸 도면들이다. 또한, 도 4는 본 발명을 비선형 베이지안 회귀 방법 중 하나인 가우시안 회귀 분석에 적용한 예시들이고, 도 5 및 도 6은 사전 지정된 다양한 벤치마크 데이터 셋에 본 발명을 적용하였을 때의 성능 비교 결과를 예시한 도면들이다.
본 발명은 회귀 분석을 위한 리레이블링 방법을 최초로 제안하였으며, 본 발명의발명된 핵심적 기술 특징은 회귀 분석을 위한 리레이블링에 적합한 데이터 선택 방법이다. 이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
본 발명의 실시예에 따른 회귀 분석을 위한 리레이블링 방법은 다음과 같이 실행될 수 있다. 먼저, 소수의 결과 값이 주어진 데이터와 다수의 결과 값이 주어지지 않은 데이터로 데이터 셋(data set)을 구성한다. 그 후, 이 데이터 셋에 적절한(예를 들어, 시스템 설계자에 의해 사전 선택된) 회귀 분석 방법을 적용하여 초기 회귀 분석 모형을 구축한다. 이때, 초기 회귀 분석 모형은 기존에 레이블(즉, 결과 값)을 가지는 데이터를 이용하여 예측 모형을 학습하여 구축하는 방식이 이용될 수 있다[도 1의 S110 및 S120 참조].
다음으로 구축된 회귀 분석 모형을 이용하여 데이터 셋 중 레이블 대상 인스턴스로서의 데이터를 하나 선택한다. 이때, 선택된 데이터의 결과 값을 레이블링 비용을 지불하고 측정하여, 만일 선택된 데이터가 기존에 결과 값이 존재하지 않는 데이터였다면 측정된 결과 값으로 새롭게 레이블을 부여하고, 선택된 데이터가 기존에 결과 값이 존재하는 데이터였다면 기존 결과 값들과 새롭게 측정된 결과 값의 평균으로 새롭게 레이블을 부여한다[도 1의 S142, S144, S152, S154 참조].
그 후 새롭게 결과 값이 부여된 데이터를 데이터 셋에서 업데이트하여 새로운 데이터 셋을 구성하고, 새로운 데이터 셋을 이용하여 다시 회귀 분석 모형을 구성한다. 본 과정을 만족스러운 수준의 모형이 얻어지거나(즉, 구축된 회귀 분석 모형이 사전 지정된 성능 지표에 따른 목표 성능 수치에 도달하는 경우), 회귀 분석 시행 횟수가 특정한 수(사전 지정된 최대 반복수)를 넘어가는 경우, 결과 값의 횟수가 특정한 수(사전 지정된 최대 레이블 수)를 넘어가는 경우 등이 일어날 때까지 반복하여 최종 회귀분석 모형을 구축한다[도 1의 S160 및 S170 참조].
여기서, 구축된 회귀 분석 모형을 이용하여 모형의 성능을 가장 크게 향상시킬 수 있는 데이터의 구체적인 선택 방법은 다음과 같다. 먼저, 시행 횟수가 사전에 미리 정해진 특정 모수 k(k는 자연수)의 배수가 아닌 경우, 결과 값이 존재하는 않는 데이터 중 하나를 선택하여 결과 값을 부여한다[도 1의 S130 참조]. 이때 선택되는 데이터는, 일반 능동학습에서 사용되는 불확실도 선택법을 이용하여 선택한다. 즉, 결과 값이 존재하지 않는 데이터 중
Figure pat00007
의 값이 가장 큰 데이터를 골라 결과 값을 측정하고 부여한다[도 3의 의사 코드 중 exploration step 참조]. 여기서,
Figure pat00008
은 결과 값이 주어지지 않은 데이터
Figure pat00009
에 대하여 현재 구축된 모델의 의한 예측 분산 값이다.
또한, 시행 횟수가 k의 배수인 경우, 결과 값이 존재하는 데이터 중 하나를 선택한다[도 1의 S130]. 이에 따라 선택된 데이터의 결과 값을 새로 측정하고, 기존에 측정되었던 결과 값들과의 평균 값을 선택하여 새로운 결과 값으로 업데이트 한다. 이때, 선택되는 데이터는 결과 값이 존재하는 데이터 중,
Figure pat00010
값이 가장 큰 데이터를 선택한다[도 3의 의사 코드 중 refinement step 참조]. 여기서,
Figure pat00011
는 결과 값이 주어진 데이터
Figure pat00012
에 대하여 현재 구축된 모델의 의한 예측 값이고,
Figure pat00013
Figure pat00014
의 결과 값으로 측정된 값들의 평균 값,
Figure pat00015
는 미리 지정된 모수이다.
즉, 본 발명의 실시예에 따른 refinement step에서 선택될 데이터는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 결과 값인
Figure pat00016
와 해당 데이터에 관하여 레이블되었던 적어도 하나의 기존 결과값들의 평균 값인
Figure pat00017
의 차(difference)의 절대 값으로 정의되는 예상 노이즈(expected noise)와 연관되는 데이터일 수 있다. 종래 기술에 의할 때, 결과 값이 존재하는 데이터들 중에 상당수 노이즈가 존재하게 되면 이들 노이즈들에 의해서 구축될 회귀 분석 모형이 왜곡될 가능성이 컸었다. 반면 본 발명의 실시예에 의하면 기존에 결과 값이 존재하는 데이터들에 대해서도 노이즈일 것으로 예상되는 데이터를 우선 선별해내어 지속적으로 평균화 처리하는 과정을 통해서 노이즈에 강인한 신뢰성 높은 회귀 분석 모형을 구축할 수 있는 이점이 있다.
이와 관련하여 도 4는 회귀 분석 모형의 효과를 대조하여 보여주고 있는데, 도 4의 (a)는 특정 데이터 셋에 관하여 비선형 베이지안 회귀 분석 방법 중 하나인 가우시안 회귀 분석 방법을 적용한 회귀 분석 모형의 원형(original)을 보여주고 있으며, 도 4의 (b)는 능동 학습을 통한 exploration step만을 적용하였을 때의 결과를 보여주고 있고, 도 4의 (c)는 refinement step을 통해서 결과 값이 존재하는 데이터의 결과 값 정교화만을 수행하였을 때의 결과를 보여주고 있으며, 도 4의 (d)는 본 발명의 방법론을 통하여 exploration step과 refinement step을 모두 적용하였을 때의 결과를 보여주고 있다. 도면 대조를 통해 확인할 수 있는 바와 같이, 본 발명의 방법론에 따른 결과가 더욱 성능이 우수함(예측 분산값이 다른 대조군에 비해 작음)을 확인할 수 있다.
또한 도 5에 의할 때, 도 6에 기재된 총 8개의 벤치마크 데이터 셋을 이용한 대조 결과에 의할 때에도 본 발명의 실시예에 따른 ER 샘플링 방법을 적용할 때가 종래 기술(도 5의 각 도면의 baseline 참조)에 비해 RMSE(root mean squared error) 값이 낮은 값을 나타냄을 확인할 수 있다.
상술한 본 발명에 따른 회귀 분석을 위한 리레이블링 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상에서는 본 발명의 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 쉽게 이해할 수 있을 것이다.

Claims (7)

  1. 회귀 분석을 위한 리레이블링 방법에 관한 컴퓨터 구현 방법(computer implemented method)에 있어서,
    (a) 소정의 데이터 셋(data set)에 사전 선택된 회귀 분석 방법을 적용한 초기 회귀 분석 모형을 구축하는 단계-여기서, 상기 데이터 셋은 결과 값이 주어진 데이터와 결과 값이 주어지지 않은 데이터의 집합으로 구성됨-;
    (b) 구축된 회귀 분석 모형의 데이터 셋 중 레이블 대상 인스턴스(instance)인 데이터를 선택하는 단계;
    (c) 구축된 회귀 분석 모형에 따라 상기 선택된 데이터의 결과값을 측정하여, 상기 선택된 데이터가 기존에 결과 값이 존재하지 않는 데이터인 경우 측정된 결과 값으로 새롭게 레이블을 부여하고, 상기 선택된 데이터가 기존에 결과 값이 존재하는 데이터인 경우 기존 결과 값과 새롭게 측정된 결과 값의 평균 값으로 새롭게 레이블을 부여하는 단계;
    (d) 기존 데이터 셋에서 상기 새롭게 레이블이 부여된 데이터를 업데이트한 신규 데이터 셋을 구성하고, 구성된 신규 데이터 셋을 이용하여 회귀 분석 모형을 재구성하는 단계; 및
    (e) 사정 지정된 회귀 분석 종료 조건을 만족할 때까지 상기 (b) 단계 내지 상기 (d) 단계를 반복함으로써, 최종 회귀 분석 모형을 구축하는 단계
    를 포함하는 회귀 분석을 위한 리레이블링 방법.
  2. 제1항에 있어서,
    상기 (b) 단계는,
    상기 회귀 분석 시행 횟수가 사전 지정된 모수 k(k는 자연수임)의 배수가 아닌 경우 상기 레이블 대상 인스턴스로서 데이터 셋 중 결과 값이 존재하지 않는 데이터 중 하나를 선택하고, 상기 회귀 분석 시행 횟수가 상기 k의 배수인 경우 상기 레이블 대상 인스턴스로서 데이터 셋 중 결과 값이 존재하는 데이터 중 하나를 선택하는 것을 특징으로 하는, 회귀 분석을 위한 리레이블링 방법.
  3. 제1항에 있어서,
    상기 (b) 단계는,
    상기 레이블 대상 인스턴스로서 결과 값이 존재하지 않는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는 데이터 셋 내에서 결과 값이 존재하지 않는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 분산값인
    Figure pat00018
    가 가장 큰 데이터를 선택하는 것을 특징으로 하는, 회귀 분석을 위한 리레이블링 방법.
  4. 제1항에 있어서,
    상기 (b) 단계는,
    상기 레이블 대상 인스턴스로서 결과 값이 존재하는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 결과 값인
    Figure pat00019
    와 해당 데이터에 관하여 레이블되었던 적어도 하나의 기존 결과값들의 평균 값인
    Figure pat00020
    의 차(difference)의 절대 값으로 정의되는 예상 노이즈(expected noise)와 연관되는 데이터가 선택되는 것을 특징으로 하는, 회귀 분석을 위한 리레이블링 방법.
  5. 제4항에 있어서,
    상기 (b) 단계는,
    상기 레이블 대상 인스턴스로서 결과 값이 존재하는 데이터가 선택되는 경우, 상기 레이블 대상 인스턴스는
    Figure pat00021
    가 가장 큰 데이터가 선택되되,
    Figure pat00022
    는 데이터 셋 내에서 결과 값이 존재하는 데이터들 중 현재 구축된 회귀 분석 모형에 의한 예측 분산값이고,
    Figure pat00023
    는 사전 지정된 모수로서 0보다 큰 값인 것을 특징으로 하는, 회귀 분석을 위한 리레이블링 방법.
  6. 제1항에 있어서,
    상기 (e) 단계에서,
    상기 회귀 분석 종료 조건은,
    회귀 분석 시행 횟수가 사전 지정된 최대 반복수를 초과하는 경우, 결과 값의 레이블 횟수가 사전 지정된 최대 레이블 수를 초과하는 경우, 구축된 회귀 분석 모형이 사전 지정된 성능 지표에 따른 목표 성능 수치에 도달하는 경우 중 어느 하나인 것을 특징으로 하는, 회귀 분석을 위한 리레이블링 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 의한 회귀 분석을 위한 리레이블링 방법이 기록되며 컴퓨터로 읽을 수 있는 기록 매체 제품.
KR1020180014556A 2018-02-06 2018-02-06 회귀 분석을 위한 리레이블링 방법 KR102071071B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180014556A KR102071071B1 (ko) 2018-02-06 2018-02-06 회귀 분석을 위한 리레이블링 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180014556A KR102071071B1 (ko) 2018-02-06 2018-02-06 회귀 분석을 위한 리레이블링 방법

Publications (2)

Publication Number Publication Date
KR20190094890A true KR20190094890A (ko) 2019-08-14
KR102071071B1 KR102071071B1 (ko) 2020-03-03

Family

ID=67622036

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180014556A KR102071071B1 (ko) 2018-02-06 2018-02-06 회귀 분석을 위한 리레이블링 방법

Country Status (1)

Country Link
KR (1) KR102071071B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160050562A (ko) * 2014-10-30 2016-05-11 삼성에스디에스 주식회사 예측 모델 생성 장치 및 방법
KR20170078252A (ko) * 2015-12-29 2017-07-07 삼성에스디에스 주식회사 시계열의 데이터를 모니터링 하는 방법 및 그 장치
KR20170078256A (ko) * 2015-12-29 2017-07-07 삼성에스디에스 주식회사 시계열의 데이터를 예측 하는 방법 및 그 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160050562A (ko) * 2014-10-30 2016-05-11 삼성에스디에스 주식회사 예측 모델 생성 장치 및 방법
KR20170078252A (ko) * 2015-12-29 2017-07-07 삼성에스디에스 주식회사 시계열의 데이터를 모니터링 하는 방법 및 그 장치
KR20170078256A (ko) * 2015-12-29 2017-07-07 삼성에스디에스 주식회사 시계열의 데이터를 예측 하는 방법 및 그 장치

Also Published As

Publication number Publication date
KR102071071B1 (ko) 2020-03-03

Similar Documents

Publication Publication Date Title
Pennekamp et al. The intrinsic predictability of ecological time series and its potential to guide forecasting
Bouneffouf et al. Multi-armed bandit problem with known trend
Merow et al. A comparison of M axlike and M axent for modelling species distributions
Rödder et al. Quantitative metrics of overlaps in Grinnellian niches: advances and possible drawbacks
Hijmans Cross‐validation of species distribution models: removing spatial sorting bias and calibration with a null model
Cardillo et al. Testing for latitudinal bias in diversification rates: an example using New World birds
US9129228B1 (en) Robust and fast model fitting by adaptive sampling
Richmond et al. Is the climate right for Pleistocene rewilding? Using species distribution models to extrapolate climatic suitability for mammals across continents
Palar et al. On efficient global optimization via universal Kriging surrogate models
Wang et al. Hybrid genetic algorithm for optimization problems with permutation property
Miric et al. When and who do platform companies acquire? Understanding the role of acquisitions in the growth of platform companies
US20190266619A1 (en) Behavior pattern search system and behavior pattern search method
US10984343B2 (en) Training and estimation of selection behavior of target
EP3040897B1 (en) Synthetic data generation method
CN113660225A (zh) 基于时序点的网络攻击事件预测方法、系统、装置及介质
US20120022920A1 (en) Eliciting customer preference from purchasing behavior surveys
Nam et al. The uncertainty of storm season changes: quantifying the uncertainty of autocovariance changepoints
Kraemer et al. Optimal state space reconstruction via Monte Carlo decision tree search
Guyet et al. Incremental mining of frequent serial episodes considering multiple occurrences
KR102071071B1 (ko) 회귀 분석을 위한 리레이블링 방법
Romaniuk On some applications of simulations in estimation of maintenance costs and in statistical tests for fuzzy settings
JP7152938B2 (ja) 機械学習モデル構築装置および機械学習モデル構築方法
Lin et al. A Kernel-Density based Semi-Parametric stochastic degradation model with dependent increments
Sergue Customer Churn Analysis and Prediction using Machine Learning for a B2B SaaS company
CN113852970B (zh) 基于图神经网络的多维频谱预测方法、系统、装置及介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant