KR102273867B1

KR102273867B1 - 비지도학습방법론에 기인한 지도학습모델 생성 방법 및 그 장치와, 이를 이용한 비지도학습모델 해석 방법 및 그 장치

Info

Publication number: KR102273867B1
Application number: KR1020200163343A
Authority: KR
Inventors: 최유리; 김지훈; 고재현; 최정혁
Original assignee: 주식회사 솔리드웨어
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-07-06
Also published as: WO2022114363A1

Abstract

지도학습모델 생성 방법 및 그 장치와, 이를 이용한 비지도학습모델 해석 방법 및 그 장치가 개시된다. 학습모델관리장치는 비지도학습모델을 이용하여 데이터를 복수 개의 군집으로 그룹화하고, 복수 개의 군집 중 어느 하나의 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹으로 데이터를 구분한 학습데이터를 이용하여 제1 그룹을 예측하는 지도학습모델을 학습시키고, 지도학습모델을 기초로 데이터를 구성하는 변수들 중 군집에 대한 변수의 영향도 또는 변수의 분류 조건을 포함하는 군집 속성을 파악한다.

Description

비지도학습방법론에 기인한 지도학습모델 생성 방법 및 그 장치와, 이를 이용한 비지도학습모델 해석 방법 및 그 장치{Method and apparatus for generating supervised learning model based on unsupervised learning, and method and apparatus for analyzing unsupervised learning model using the supervised learning model}

본 발명의 실시 예는 비지도학습모델을 이용하여 지도학습모델을 생성하는 방법 및 그 장치와 이를 통해 생성한 지도학습모델을 이용하여 비지도학습모델을 해석하는 방법 및 그 장치에 관한 것이다.

지도학습(Supervised Learning)은 입력값에 대한 결과값이 주어지는 학습데이터를 이용하는 학습방법이다. 따라서 지도학습방법을 위해서는 데이터의 레이블링(labeling)이 필요하다. 지도학습은 데이터 레이블링 과정을 통해 사용자 의도에 맞는 모델의 생성이 가능하다. 그러나 산업 현장이나 경제계 또는 온라인 등에서 발생하는 대부분의 데이터는 레이블링되지 않은 데이터이다. 따라서 이들 데이터로는 지도학습방법을 사용할 수 없으며 비지도학습방법을 적용할 수 있다. 비지도학습(Unsupervised Learning) 방법론 중 하나인 군집화(cluster)를 통해 문제 해결을 도모해 볼 수 있으나. 비지도학습의 군집화는 알고리즘의 속성에 따라 군집을 형성할 뿐 어떤 기준으로 군집화가 이루어지는지 사용자가 알 수 없는 한계점을 가진다.

본 발명의 실시 예가 이루고자 하는 기술적 과제는, 레이블링이 되지 않는 데이터를 이용하여 지도학습모델을 생성하는 방법 및 그 장치를 제공하는 데 있다.

본 발명의 실시 예가 이루고자 하는 다른 기술적 과제는, 지도학습모델을 이용하여 비지도학습모델을 해석하는 방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 해결하기 위한, 본 발명의 실시 예에 따른 지도학습모델 생성 방법의 일 예는, 비지도학습모델을 이용하여 데이터를 복수 개의 군집으로 그룹화하는 단계; 상기 복수 개의 군집 중 적어도 하나의 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹으로 데이터를 구분한 학습데이터를 이용하여 제1 그룹을 예측하는 지도학습모델을 학습시키는 단계; 및 학습 완료된 지도학습모델을 제공하는 단계;를 포함한다.

상기의 기술적 과제를 해결하기 위한, 본 발명의 실시 예에 따른 비지도학습모델 해석 방법의 일 예는, 지도학습모델을 이용하여 비지도학습모델을 해석하는 방법에 있어서, 비지도학습모델에 의해 생성된 군집을 예측하는 지도학습모델을 기초로 데이터를 구성하는 변수들 중 군집에 대한 변수의 영향도 또는 변수의 분류 조건을 포함하는 군집 속성을 파악하는 단계; 및 상기 군집 속성을 출력하는 단계;를 포함한다.

상기의 기술적 과제를 해결하기 위한, 본 발명의 실시 예에 따른 학습모델관리장치의 일 예는, 비지도학습모델을 이용하여 데이터를 복수 개의 군집으로 그룹화하는 군집화부; 및 상기 복수 개의 군집 중 어느 하나의 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹으로 데이터를 구분한 학습데이터를 이용하여 제1 그룹을 예측하는 지도학습모델을 학습시키는 모델생성부;를 포함한다.

일 실시 예로, 학습모델관리장치는 상기 지도학습모델을 기초로 상기 데이터를 구성하는 변수들 중 군집에 대한 변수의 영향도 또는 변수의 분류 조건을 포함하는 군집 속성을 파악하는 모델해석부;를 더 포함할 수 있다.

본 발명의 실시 예에 따르면, 레이블링되지 않은 데이터를 이용하여 지도학습모델을 생성할 수 있다. 또한 지도학습모델을 이용하여 비지도학습모델의 각 군집을 해석할 수 있는 정보를 제공할 수 있다.

도 1은 본 발명의 실시 예에 따른 지도학습모델 생성 방법의 일 예를 도시한 흐름도,
도 2는 본 발명의 실시 예에 따른 지도학습모델과 비지도학습모델의 관계를 도시한 도면,
도 3은 본 발명의 실시 예에 따른 지도학습모델의 학습 방법의 일 예를 도시한 도면,
도 4는 본 발명의 실시 예에 따른 지도학습모델을 의사결정나무모델로 구현한 일 예를 도시한 도면,
도 5는 본 발명의 실시 예에 따른 의사결정나무모델의 의사결정 경로의 일 예를 도시한 도면,
도 6은 본 발명이 실시 예에 따른 지도학습모델을 이용한 비지도학습모델의 해석방법의 일 예를 도시한 흐름도,
도 7 및 도 8은 본 발명의 실시 예에 따른 군집 속성을 표시하는 다양한 예를 도시한 도면, 그리고,
도 9는 본 발명의 실시 예에 따른 학습모델관리장치의 일 예의 구성을 도시한 도면이다.

이하에서, 첨부된 도면들을 참조하여 본 발명의 실시 예에 따른 지도학습모델 생성 방법 및 그 장치와, 이를 이용한 비지도학습모델 해석 방법 및 그 장치에 대해 상세히 설명한다.

도 1은 본 발명의 실시 예에 따른 지도학습모델 생성 방법의 일 예를 도시한 흐름도이다. 도 2는 본 발명의 실시 예에 따른 지도학습모델과 비지도학습모델의 관계를 도시한 도면이다.

도 1 및 도 2를 함께 참조하면, 학습모델관리장치는 비지도학습모델(210)을 이용하여 데이터(200)를 복수 개의 군집(220,222,224)으로 그룹화한다(S100). 데이터(200)는 기업의 경영 데이터나 고객 데이터, 제조업의 각종 장비의 센싱데이터 또는 온라인 상의 각종 정보 등 그 대상이나 종류는 어느 하나로 한정되는 것은 아니다. 다만, 본 실시 예의 데이터(200)는 레이블링(labeling)되지 않은 데이터이거나, 레이블링이 되었다고 하여도 사용자가 의도하는 목적에 맞지 않아 지도학습모델에 사용하기 부적합한 데이터이다.

비지도학습모델(210)은 데이터 사이의 패턴이나 구조를 기초로 데이터를 복수의 군집으로 그룹화하는 종래의 다양한 모델일 수 있다. 예를 들어, 비지도학습모델(210)로 K-Means 등이 사용될 수 있다. 실시 예에 따라, 비지도학습모델(210)이 생성하는 군집(220,222,224)의 개수는 미리 정의되거나 정의되지 않을 수 있다.

학습모델관리장치는 비지도학습모델(210)이 생성한 복수의 군집(220,222,224)을 이용하여 지도학습모델(230)을 학습시킨다(S110). 예를 들어, 데이터가 N개의 군집(220,222,224)으로 그룹화되었다면, 학습모델관리장치는 제1 군집(220)을 포함하는 제1 그룹과 나머지 군집(즉, 제2~N 군집)(222,224)을 포함하는 제2 그룹으로 데이터를 구분한 후 지도학습모델(230)이 제1 그룹을 예측하도록 학습시킨다. 지도학습모델의 학습 방법에 대해서는 도 3에서 다시 살펴본다. 지도학습모델(230)은 의사결정나무모델(Decision Tree)이나 리지회귀모델(Ridge Regression), 로지스틱회귀모델(Logistic Regression), 일반화선형모델(Generalized Linear Model) 등 종래의 다양한 종류의 모델일 수 있으며, 어느 하나의 모델로 한정되는 것은 아니다.

학습모델관리장치는 학습 완료된 지도학습모델(230)을 제공한다(S220). 학습모델관리장치는 복수 개의 군집(220,222,224) 중 어느 하나의 군집을 예측하는 하나의 지도학습모델(230)을 생성하여 제공할 수 있다. 예를 들어, 학습모델관리장치는 제1 군집(220)을 예측하는 제1 지도학습모델을 생성하여 제공하거나, 제2 군집(222)을 예측하는 제2 지도학습모델을 생성하여 제공할 수 있다. 또는, N개의 군집(220,222,224)의 각각을 예측하는 N개의 지도학습모델을 모두 생성하여 제공할 수 있다.

도 3은 본 발명의 실시 예에 따른 지도학습모델의 학습 방법의 일 예를 도시한 도면이다.

도 3을 참조하면, 학습모델관리장치는 비지도학습모델을 통해 생성된 N개의 군집(220,222,224)에서 어느 하나의 군집을 포함하는 제1 그룹(300)과 나머지 군집을 포함하는 제2 그룹(310)을 생성한다. 즉, 학습모델관리장치는 데이터를 제1 그룹(300)과 제2 그룹(310)으로 레이블링한다. 예를 들어, 학습모델관리장치는 제1 그룹(300)에 속한 데이터를 '1'로 태깅하고, 제2 그룹(310)에 속한 데이터를 '0'으로 태깅할 수 있다. '1'과 '0' 외에 각 그룹(300,310)에 속한 데이터를 레이블링하는 다양한 방법이 본 실시 예에 적용될 수 있다.

학습모델관리장치는 제1 그룹(300)과 제2 그룹(310)으로 레이블링된 데이터로 구성된 학습데이터를 이용하여 지도학습모델(230)을 학습시킨다. 예를 들어, 지도학습모델(230)은 학습데이터를 입력받으면 데이터가 제1 그룹(300)과 제2 그룹(310) 중 어디에 속하는지 예측한 결과(320)를 출력하고, 그 예측 결과(320)를 학습데이터의 정답지(ground truth)와 비교하여 내부 파라메터 등을 조정하는 학습 과정을 수행한다.

학습모델관리장치는 제1 군집(220)을 포함하는 제1 그룹(300)과 제2~N 군집(222,224)을 포함하는 제2 그룹(310)을 이용하여 제1 군집(220)을 예측하도록 제1 지도학습모델을 학습시킬 수 있다. 또는 학습모델관리장치는 제2 군집(222)을 포함하는 제1 그룹과 나머지 군집(즉, 제1 군집과 제3~N 군집)(220,224)을 포함하는 제2 그룹을 이용하여 제2 군집(222)을 예측하도록 제2 지도학습모델을 학습시킬 수 있다. 이와 같은 방법으로, 학습모델관리장치는 각각의 군집(220,222,224)을 예측하는 N개의 지도학습모델을 학습시킬 수 있다.

다른 실시 예로, 학습모델관리장치는 N개의 군집을 적어도 둘 이상의 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹으로 분할한 후 제1 그룹의 군집을 예측하도록 지도학습모델을 학습시킬 수 있다. 예를 들어, 제1 군집(220)과 제2 군집(222)을 포함하는 제1 그룹과 제3~N 군집(224)을 포함하는 제2 그룹으로 분할한 학습데이터를 이용하여 지도학습모델(230)을 학습시켜 데이터가 제1 그룹에 속할지 예측하는 모델을 생성할 수 있다. 이 외에도 지도학습모델의 생성을 위하여 군집을 나누는 다양한 방법이 본 실시 예에 적용될 수 있다.

도 4는 본 발명의 실시 예에 따른 지도학습모델을 의사결정나무모델로 구현한 일 예를 도시한 도면이다.

도 4를 참조하면, 의사결정나무모델은 부모노드(parent node)(400), 각 계층의 결정노드(decision node)(410,412,420,422,424,426), 그리고 종단노드(terminal node)(430~446)로 구성된다. 본 실시 예는 이해를 돕기 위한 하나의 예일 뿐 의사결정나무모델의 깊이나 종단노드의 수 등은 실시 예에 따라 다양한 형태일 수 있다.

도 3과 같이 군집(200,222,224)을 제1 그룹(300)과 제2 그룹(310)으로 분할한 학습데이터를 이용하여 의사결정나무모델을 학습시키는 경우에 의사결정나무모델의 종단노드(430~446)는 두 그룹 중 어느 하나의 그룹에 속하게 된다. 예를 들어, 제1,2,5,8 종단노드(430,432,438,446)는 제1 그룹에 속하고, 제3,4,5,6 종단노드(434,436,440,442)는 제2 그룹에 속할 수 있다. 데이터가 어느 종단노드에 속하는지에 따라 데이터가 어느 그룹에 속하는지 판단할 수 있다.

도 5는 본 발명의 실시 예에 따른 의사결정나무모델의 의사결정 경로의 일 예를 도시한 도면이다.

도 5를 참조하면, 의사결정나무모델의 부모노드(400)에서 종단노드(432)에 이르는 경로는 결정노드(410,420)의 분기조건에 의해 결정된다. 예를 들어, 부모노드(400)에서 제2 종단노드(432)에 이르는 의사결정 경로에는 제1 결정노드(410)의 제1 분기조건과 제2 결정노드(420)의 제2 분기조건이 존재한다.

의사결정나무모델이 도 3과 같이 군집(200,222,224)을 제1 그룹(300)과 제2 그룹(310)으로 분할한 학습데이터를 이용하여 학습되었고, 제2 종단노드(432)가 도 4와 같이 제1 그룹에 속한다고 하자. 그러면, 제2 종단노드(432)로 분류되는 데이터의 속성은 제1 분기조건과 제2 분기조건에 의해 설명될 수 있다. 제1 그룹(300)이 도 2에서 비지도학습모델(210)에 의해 군집화된 제1 군집(220)이라고 한다면, 비지도학습모델(210)의 제1 군집(220)의 속성은 제1 분기조건과 제2 분기조건으로 표시될 수 있다. 즉, 비지도학습모델(210)에 의해 생성된 군집의 속성이 지도학습모델(230)을 이용하여 설명될 수 있다. 이에 대해서는 도 6에서 다시 살펴본다.

도 6은 본 발명이 실시 예에 따른 지도학습모델을 이용한 비지도학습모델의 해석방법의 일 예를 도시한 흐름도이다.

도 2 및 도 6을 함께 참조하면, 학습모델관리장치는 비지도학습모델(210)을 이용하여 데이터(200)를 복수 개의 군집(220,222,224)으로 군집화하고(S600), 복수 개의 군집(200,222,224)을 적어도 둘 이상의 그룹으로 나누어 지도학습모델(230)을 학습시킨다(S610). 이러한 지도학습모델을 생성하는 방법은 도 1 내지 도 3에서 설명한 바와 동일하다.

학습모델관리장치는 지도학습모델(230)을 이용하여 군집에 대한 변수의 영향도 또는 변수의 분류 조건을 포함하는 군집 속성을 파악하고 표시한다(S620,S630). 지도학습모델(230)이 의사결정나무모델인 경우에, 학습모델관리장치는 도 4 및 도 5에서 설명한 바와 같이 의사결정나무모델의 결정노드의 분기조건을 이용하여 군집 속성을 파악할 수 있다. 예를 들어, 도 4와 같이 제1,2,5,8 종단노드(430,432,438,446)가 제1 그룹(제1 군집이 속한 그룹)에 속하는 경우에, 학습모델관리장치는 부모노드(400)에서 제1,2,5,8 종단노드(430,432,438,446)의 각각에 이는 의사결정 경로의 결정노드의 분기 조건을 제1 군집의 속성 정보로 제시할 수 있다. 사용자는 속성 정보로 표시된 각 분기조건을 이용하여 해당 군집이 어떠한 기준으로 분류되어 있는지 용이하게 파악할 수 있다.

다른 실시 예로, 학습모델관리장치는 제1 그룹에 속하는 종단노드(430,432,438,446)가 개수가 도 4와 같이 복수 개인 경우에 제1 그룹에 속한 종단노드(430,432,438,446) 전체가 아닌 각 종단노드별 데이터의 분류 빈도 수를 기준으로 적어도 하나 이상의 종단노드를 선택하고 선택된 종단노드에 이르는 의사결정 경로의 분기조건을 군집 속성으로 제공할 수 있다. 예를 들어, 제1 종단노드(430)로 분류된 데이터의 개수가 200개이고, 제2 종단노드(432), 제5 종단노드(438)로 분류된 데이터의 개수가 각각 5, 10개이며, 제8 종단노드(446)로 분류된 데이터의 개수가 150개이면, 학습모델관리장치는 데이터 빈도 수가 많은 제1 종단노드와 제8 종단노드에 대한 의사결정 경로의 분기조건을 제1 군집의 군집 속성으로 출력할 수 있다. 이 외에도 제1 그룹과 관련된 종단노드 중 일부를 선정하는 다양한 방법이 본 실시 예에 적용될 수 있다.

또 다른 실시 예로, 지도학습모델(230)이 선형모델이면 학습모델관리장치는 y=a₁x₁+a₂x₂+...a_nx_n 등과 같은 모델을 생성할 수 있다. 학습모델관리장치는 계수(a₁,a₂,...,a_n)의 크기를 기초로 각 군집에 미치는 변수의 영향도를 파악한 후 변수의 영향도를 각 군집 속성으로 출력할 수 있다. 계수를 기초로 각 변수의 영향도를 파악하는 경우에 각 변수는 동일 범위의 크기 값으로 스케일링 될 수 있다. 계수의 절대값은 변수의 영향력을 나타내고 계수의 부호는 변화의 방향을 제공할 수 있다.

또 다른 실시 예로, 학습모델관리장치는 지도학습모델의 예측값에 대한 변수의 영향도를 파악하여 각 군집의 속성 정보로 출력할 수 있다. 예를 들어, 학습모델관리장치는 특허출원번호 제10-2020-130475호 "변수 영향도 기반 머신러닝 예측 결과 해석 방법 및 그 장치"를 이용하여 지도학습모델의 예측값에 미치는 각 변수의 영향을 파악할 수 있다.

도 7 및 도 8은 본 발명의 실시 예에 따른 군집 속성을 표시하는 다양한 예를 도시한 도면이다.

도 7을 참조하면, 학습모델관리장치는 각 군집에 속한 데이터의 통계적 분석 결과를 2차원 그래프로 표시할 수 있다. 예를 들어, 가로축은 데이터의 변수, 세로축은 각 군집으로 하는 2차원 히트맵(heapmap)(700)을 이용하여 각 군집에 속한 데이터의 평균을 숫자나 그래프 또는 크기에 따른 서로 다른 색상으로 표시할 수 있다. 예를 들어, 제1 변수가 나이인 경우에, 학습모델관리장치는 제1 군집, 제2 군집 및 제3 군집에 속한 데이터의 나이 평균을 각 군집과 변수가 만나는 칸(710)에 서로 다른 색상으로 표시할 수 있다.

도 8을 참조하면, 학습모델관리장치는 각 군집의 데이터를 구성하는 복수의 변수를 2차원 또는 3차원으로 표시할 수 있다. 예를 들어, 학습모델관리장치는 PCA(Principal Component Analysis), UMAP(Uniform Maniford Approximation and Projection), t-SNE(t-distributed Stochastic Neighbor Embedding) 등의 다양한 차원축소방법을 이용할 수 있다.

도 9는 본 발명의 실시 예에 따른 학습모델관리장치의 일 예의 구성을 도시한 도면이다.

도 9를 참조하면, 학습모델관리장치(900)는 군집화부(910), 모델생성부(920) 및 모델해석부(930)를 포함한다. 다른 실시 예로, 모델해석부(930)는 생략될 수 있다. 학습모델관리장치(900)는 메모리, 프로세서, 입출력장치 등을 포함하는 다양한 종류의 컴퓨팅 장치로 구현될 수 있다. 예를 들어, 각 구성(910,920,930)은 소프트웨어로 구현되어 메모리에 탑재된 후 프로세서에 의해 수행될 수 있다.

군집화부(900)는 비지도학습모델을 이용하여 데이터를 복수 개의 군집으로 그룹화한다. 예를 들어, 도 2와 같이 비지도학습모델(210)은 데이터(200)를 N개의 군집(220,222,224)으로 군집화할 수 있다.

모델생성부(910)는 비지도학습모델에 의해 생성된 복수 개의 군집 중 어느 하나의 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹으로 데이터를 구분한 학습데이터를 이용하여 제1 그룹을 예측하는 지도학습모델을 학습시킨다. 지도학습모델의 학습 방법의 예가 도 3에 도시되어 있다.

일 실시 예로, 모델생성부(910)는 비지도학습모델에 의해 생성된 복수 개의 군집 중 사용자가 적어도 하나 이상을 선택할 수 있는 위한 화면 인터페이스를 제공할 수 있다. 모델생성부(910)는 화면 인터페이스를 통해 사용자가 선택한 군집을 제1 그룹으로 설정하고 나머지 군집을 제2 그룹으로 설정한 후 이를 기초로 지도학습모델을 학습시켜 생성할 수 있다. 다른 예로, 모델생성부는 사용자의 관여 없이 자동으로 복수 개의 군집의 각각을 위한 복수 개의 지도학습모델을 모두 생성할 수 있다.

모델해석부(920)는 비지도학습모델에 의해 생성된 군집을 예측하는 지도학습모델을 기초로 각 군집에 대한 데이터 변수의 영향도 또는 분류 조건 등을 포함하는 군집 속성을 파악하여 출력한다. 지도학습모델이 의사결정나무모델인 경우에 군집 속성을 파악하는 방법의 일 예가 도 5에 도시되어 있다.

일 실시 예로, 모델해석부(920)는 군집 속성을 표시하는 화면 인터페이스부를 포함할 수 있다. 예를 들어, 모델해석부(920)는 각 군집의 속성을 화면 인터페이스를 통해 모두 표시하거나, 화면 인터페이스를 통해 복수 개의 군집 중 사용자가 선택한 군집에 대한 속성을 표시할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에 의해 각 단계가 수행되는 지도학습모델 생성 방법에 있어서,
비지도학습모델을 이용하여 데이터를 세 개 이상의 군집으로 그룹화하는 단계;
상기 세 개 이상의 군집 중 하나의 군집을 포함하는 제1 그룹과 나머지 복수의 군집을 포함하는 제2 그룹으로 데이터를 구분한 학습데이터를 이용하여 제1 그룹을 예측하는 지도학습모델을 학습시키는 단계; 및
학습 완료된 지도학습모델을 제공하는 단계;를 포함하고,
상기 학습데이터는 상기 제1 그룹으로 레이블링된 데이터와 상기 제2 그룹으로 레이블링된 데이터를 포함하고, 상기 제2 그룹에 속한 복수의 서로 다른 군집의 데이터는 모두 동일한 값으로 레이블링되는 것을 특징으로 하는 지도학습모델 생성 방법.
제 1항에 있어서,
상기 그룹화하는 단계는, 데이터를 N개의 군집으로 그룹화하는 단계를 포함하고,
상기 학습시키는 단계는,
제1 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹으로 데이터를 구분한 학습데이터를 이용하여 제1 그룹을 예측하는 제1 지도학습모델을 학습시키는 단계;
제2 군집을 포함하는 제1 그룹과, 제1 군집과 제3~N 군집을 포함하는 제2 그룹으로 구분된 학습데이터를 이용하여 제2 그룹을 예측하는 제2 지도학습모델을 학습시키는 단계; 및
제N 군집을 포함하는 제1 그룹과, 제1~(N-1) 군집을 포함하는 제2 그룹으로 데이터를 구분한 학습데이터를 이용하여 제N 그룹을 예측하는 제N 지도학습모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 지도학습모델 생성 방법.
제 1항에 있어서,
상기 지도학습모델은 의사결정나무모델 또는 선형모델인 것을 특징으로 하는 지도학습모델 생성 방법.
컴퓨팅 장치에 의해 각 단계가 수행되는 제 1항에 의해 생성된 지도학습모델을 이용하여 비지도학습모델을 해석하는 방법에 있어서,
비지도학습모델에 의해 생성된 군집을 예측하는 지도학습모델을 기초로 데이터를 구성하는 변수들 중 군집에 대한 변수의 영향도 또는 변수의 분류 조건을 포함하는 군집 속성을 파악하는 단계; 및
상기 군집 속성을 출력하는 단계;를 포함하는 것을 특징으로 하는 비지도학습모델 해석 방법.
제 4항에 있어서, 상기 군집 속성을 파악하는 단계는,
데이터를 N개의 군집으로 그룹화하는 단계;
상기 N개의 군집 중 어느 하나의 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹으로 분할하는 단계;
상기 제1 그룹과 상기 제2 그룹을 포함하는 학습데이터를 이용하여 의사결정나무모델을 학습시키는 단계;
상기 의사결정나무모델에서 상기 제1 그룹에 해당하는 적어도 하나 이상의 종단노드를 파악하는 단계;
상기 의사결정나무모델의 부모노드에서 상기 종단노드에 이르는 경로의 결정노드를 파악하는 단계; 및
상기 결정노드에 정의된 분기조건을 제시하는 단계;를 포함하는 것을 특징으로 하는 비지도학습모델 해석 방법.
제 5항에 있어서, 상기 종단노드를 파악하는 단계는,
데이터 빈도 수를 기준으로 적어도 하나 이상의 종단노드를 선택하는 단계를 포함하는 것을 특징으로 하는 비지도학습모델 해석 방법.
제 4항에 있어서, 상기 군집 속성을 파악하는 단계는,
데이터를 N개의 군집으로 그룹화하는 단계;
상기 N개의 군집 중 어느 하나의 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹으로 분할하는 단계;
상기 제1 그룹과 상기 제2 그룹을 포함하는 학습데이터를 이용하여 선형모델을 학습시키는 단계; 및
상기 선형모델에서 각 변수에 대한 계수의 크기를 기초로 군집에 대한 각 변수의 영향도를 제시하는 단계;를 포함하는 것을 특징으로 하는 비지도학습모델 해석 방법.
비지도학습모델을 이용하여 데이터를 세 개 이상의 군집으로 그룹화하는 군집화부; 및
상기 세 개 이상의 군집 중 하나의 군집을 포함하는 제1 그룹과 나머지 복수의 군집을 포함하는 제2 그룹으로 데이터를 구분한 학습데이터를 이용하여 제1 그룹을 예측하는 지도학습모델을 학습시키는 모델생성부;를 포함하고,
상기 학습데이터는 상기 제1 그룹으로 레이블링된 데이터와 상기 제2 그룹으로 레이블링된 데이터를 포함하고, 상기 제2 그룹에 속한 복수의 서로 다른 군집의 데이터는 모두 동일한 값으로 레이블링되는 것을 특징으로 하는 학습모델관리장치.
제 8항에 있어서,
상기 지도학습모델을 기초로 상기 데이터를 구성하는 변수들 중 군집에 대한 변수의 영향도 또는 변수의 분류 조건을 포함하는 군집 속성을 파악하는 모델해석부;를 더 포함하는 것을 특징으로 하는 학습모델관리장치.
제 1항 내지 제 7항 중 어느 한 항에 기재된 방법을 컴퓨터에 의해 수행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.