WO2022114364A1

WO2022114364A1 - 비지도학습에서의 사용자의도 반영 방법 및 그 장치

Info

Publication number: WO2022114364A1
Application number: PCT/KR2020/018787
Authority: WO
Inventors: 최유리; 김지훈; 고재현; 최정혁
Original assignee: 주식회사 솔리드웨어
Priority date: 2020-11-27
Filing date: 2020-12-21
Publication date: 2022-06-02
Also published as: KR102273868B1

Abstract

비지도학습에서 사용자 의도를 반영하는 방법 및 그 장치가 개시된다. 사용자 의도가 반영된 모델을 생성하는 장치는 비지도학습모델을 이용하여 데이터를 복수 개의 초기 군집으로 그룹핑하고, 복수 개의 초기 군집에 대하여 군집 분할 또는 군집 통합의 과정을 수행하여 복수 개의 최종 군집을 생성한 후 데이터를 최종 군집으로 그룹핑하는 통합모델을 생성한다.

Description

비지도학습에서의 사용자의도 반영 방법 및 그 장치

본 발명의 실시 예는 비지도학습에서 사용자 의도를 반영하는 방법 및 그 장치에 관한 것으로, 보다 상세하게는 비지도학습에서 사용자 의도를 반영한 모델을 생성하는 방법 및 그 장치에 관한 것이다.

지도학습(Supervised Learning)은 입력값에 대한 결과값이 주어지는 학습데이터를 이용하는 학습방법이다. 따라서 지도학습방법을 위해서는 데이터의 레이블링(labeling)이 필요하다. 지도학습은 데이터 레이블링 과정을 통해 사용자 의도에 맞는 모델의 생성이 가능하다. 그러나 산업 현장에서 발생하는 대부분의 데이터는 레이블링되지 않은 데이터이다. 따라서 이들 데이터로는 지도학습방법을 사용할 수 없으며 비지도학습방법을 적용할 수 있다. 비지도학습(Unsupervised Learning)은 데이터의 구조나 패턴을 이용하여 데이터를 군집화(cluster)하는 학습방법이므로 사용자의 의도를 반영할 수 없다는 문제점을 가진다.

본 발명의 실시 예가 이루고자 하는 기술적 과제는, 비지도학습방법을 이용하여 모델을 생성하되 사용자의 의도를 반영한 모델을 생성할 수 있는 방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 해결하기 위한, 본 발명의 실시 예에 따른 비지도학습에 사용자 의도를 반영한 모델생성방법의 일 예는, 비지도학습모델을 이용하여 데이터를 복수 개의 초기 군집으로 그룹핑하는 단계; 상기 복수 개의 초기 군집에 대하여 군집 분할 또는 군집 통합의 과정을 수행하여 복수 개의 최종 군집을 생성하는 단계; 및 상기 데이터를 상기 최종 군집으로 그룹핑하는 통합모델을 생성하는 단계;를 포함한다.

상기의 기술적 과제를 해결하기 위한, 본 발명의 실시 예에 따른 모델생성장치의 일 예는, 비지도학습모델을 이용하여 데이터를 복수 개의 초기 군집으로 그룹핑하는 군집화부; 상기 복수 개의 초기 군집에 대하여 군집 분할 또는 군집 통합의 과정을 수행하여 복수 개의 최종 군집을 생성하는 피드백부; 및 상기 데이터를 상기 최종 군집으로 그룹핑하는 통합모델을 생성하는 모델생성부;를 포함한다.

본 발명의 실시 예에 따르면, 비지도학습모델을 이용하여 사용자가 의도하는 모델을 생성할 수 있다.

도 1은 본 발명의 실시 예에 따른 모델생성방법의 일 예를 도시한 흐름도,

도 2는 본 발명의 실시 예에 따른 사용자 의도를 반영한 통합모델을 생성하는 과정의 일 예를 도시한 도면,

도 3 및 도 4는 본 발명의 실시 예에 따른 군집 속성을 표시하는 다양한 예를 도시한 도면,

도 5는 본 발명의 실시 예에 따른 군집 속성을 해석하기 위한 지도학습모델을 생성하는 방법의 일 예를 도시한 도면,

도 6은 본 발명의 실시 예에 따른 지도학습모델을 이용하여 군집 속성을 파악하는 방법의 일 예를 도시한 도면, 그리고,

도 7은 본 발명의 실시 예에 따른 모델생성장치의 일 예의 구성을 도시한 도면이다.

이하에서, 첨부된 도면들을 참조하여 본 발명의 실시 예에 따른 비지도학습방법을 이용한 모델생성방법 및 그 장치에 대해 상세히 설명한다.

도 1은 본 발명의 실시 예에 따른 모델생성방법의 일 예를 도시한 흐름도이다.

도 1을 참조하면, 모델생성장치는 비지도학습모델을 이용하여 데이터를 복수 개의 군집으로 그룹화한다(S100). 데이터는 기업의 경영 데이터나 고객 데이터, 제조없의 각종 장비의 센싱데이터 또는 온라인 상의 각종 정보 등 그 대상이나 종류는 어느 하나로 한정되는 것은 아니다. 다만, 본 실시 예의 데이터는 레이블링(labeling)되지 않은 데이터이거나, 레이블링이 되었다고 하여도 사용자가 의도하는 목적에 맞지 않아 지도학습모델에 사용하기 부적합한 데이터이다.

비지도학습모델은 데이터 사이의 패턴이나 구조를 기초로 데이터를 복수의 군집으로 그룹화하는 종래의 다양한 모델일 수 있다. 예를 들어, 비지도학습모델로 K-Means 등이 존재한다. 실시 예에 따라, 비지도학습모델이 생성하는 군집의 개수는 미리 정의되거나 정의되지 않을 수 있다.

모델생성장치는 비지도학습모델에 의해 생성된 복수 개의 군집을 분할 또는 병합하여 사용자가 의도하는 최종 군집을 생성한다(S110). 예를 들어, 모델생성장치는 도 2와 같이 비지도학습모델(210)에 의해 생성된 초기 군집(220,222,224)의 일부를 분할(230)하여 세부 군집(240,242)을 생성하고, 세부 군집(240,242) 중 일부를 초기 군집(220)과 병합(250)하여 또 다른 군집(260)을 만들 수 있다. 모델생성장치는 화면 인터페이스를 통해 분할할 군집 또는 병합할 군집을 사용자로부터 입력받을 수 있다.

모델생성장치는 사용자가 각 군집의 속성을 이해할 수 있도록 각 군집의 속성 정보를 파악하여 제공하는 구성을 더 포함할 수 있다. 예를 들어, 모델생성장치는 각 군집에 속한 데이터의 각 변수의 평균 등 통계값을 도 3 및 도 4와 같이 표시할 수 있다.

종래의 다양한 군집 속성 표시방법은 군집에 속한 데이터를 통계적으로 분석하여 표시하는 방법일 뿐 각 군집에 대한 변수의 영향도나 변수의 분류 조건 등을 알 수 없다. 이에 본 실시 예는, 각 군집에 대한 변수의 영향도나 변수의 분류 조건 등의 군집 속성을 파악하는 방법을 제시하며, 이에 대한 예가 도 5 및 도 6에 도시되어 있다.

모델생성장치는 사용자가 의도하는 최종 군집이 만들어지면 데이터를 최종 군집으로 그룹핑하는 통합모델을 생성하여 제공한다(S120). 예를 들어, 도 2와 같이 군집 분할(230,252)과 군집 병합(250) 등을 통해 최종 군집(260,262,264,266,224)이 만들어지면, 모델생성장치는 비지도학습모델(210)을 포함하여 군집의 분할(230,252)과 병합(250)의 배치 관계를 포함하는 통합모델을 제공할 수 있다. 다른 실시 예로, 모델생성장치는 최종 군집(260,262,264,266,224)을 이용하여 사용자가 원하는 최종 군집 중 어느 하나를 예측하는 지도학습모델을 통합모델로 생성하여 제공할 수 있다.

도 2는 본 발명의 실시 예에 따른 사용자 의도를 반영한 통합모델을 생성하는 과정의 일 예를 도시한 도면이다.

도 2를 참조하면, 모델생성장치는 비지도학습모델(210)을 이용하여 데이터(200)를 N개의 초기 군집(220,222,224)으로 그룹핑한다. 모델생성장치는 화면 인터페이스를 통해 사용자로부터 분할 또는 병합할 군집을 선택받을 수 있다.

사용자가 제2 군집(222)의 분할(230)을 선택하면, 모델생성장치는 제2 군집(222)을 적어도 둘 이상 세부군집(240,242)으로 분할한다. 모델생성장치는 비지도학습모델을 이용하여 제2 군집(222)을 분할하거나 규칙 기반으로 제2 군집(222)을 분할할 수 있다. 예를 들어, 모델생성장치는 초기 군집화에 사용된 비지도학습모델(210)에 제2 군집(222)의 데이터를 입력하여 복수 개의 세부 군집(240,242)을 생성하거나, 이전 사용된 비지도학습모델과 다른 제2 비지도학습모델을 이용하여 제2 군집(222)을 복수 개의 세부 군집(240,242)으로 그룹화할 수 있다. 규칙 기반인 경우에, 모델생성장치는 사용자가 정의한 규칙 또는 기 정의된 규칙에 따라 제2 군집(222)을 복수 개의 세부 군집(240,242)으로 나눌 수 있다. 이때 모델생성장치는 사용자가 적어도 하나 이상의 변수에 대한 조건을 정의하여 규칙을 생성할 수 있도록 화면 인터페이스를 제공할 수 있다. 세부 군집의 개수는 사용자가 미리 지정하거나 임의로 정해질 수 있다.

제2 군집(222)의 분할(230) 과정이 완료되면, 제1 초기 군집(220), 제2-1 세부군집(240), 제2-2 세부군집(242), 제3~N 초기 군집(224)이 존재한다. 사용자가 더 이상의 군집 분할이나 병합을 수행하지 않으면 현재의 군집이 최종 군집이 된다.

사용자가 제1 초기 군집(220)과 제2-1 세부 군집(240)의 병합(250)과 제2-2 세부군집(242)의 분할(252)을 각각 요청하면, 모델생성장치는 군집병합(250)과 군집분할(252) 과정을 수행한다. 이와 같은 군집병합(250) 또는 군집분할(252)의 과정이 사용자의 요청에 따라 수 차례 반복 수행될 수 있다.

본 실시 예에서, 최종 군집은 제1-2-1 군집(260), 제2-2-1 군집(262), 제2-2-2 군집(264), 제2-2-3 군집(266), 제3~N 군집(224)으로 구성된다. 모델생성장치는 비지도학습모델(210)과, 제2 초기 군집(222)에 대한 군집분할(230), 제1 초기 군집(220)과 제2-1 세부 군집(240)의 병합(250), 제2-2 세부 군집(242)의 추가 분할(252)로 구성된 통합모델을 생성하여 출력한다. 즉, 통합모델은 도 2의 구조로 구성될 수 있다.

도 3 및 도 4는 본 발명의 실시 예에 따른 군집 속성을 표시하는 다양한 예를 도시한 도면이다.

도 3을 참조하면, 모델생성장치는 각 군집에 속한 데이터의 통계적 분석 결과를 2차원으로 표시할 수 있다. 예를 들어, 가로축은 데이터의 변수, 세로축은 각 군집으로 하는 2차원 히트맵(heapmap)(310)을 이용하여 각 군집에 속한 데이터의 평균을 숫자나 그래프 또는 크기에 따른 서로 다른 색상으로 표시할 수 있다. 예를 들어, 제1 변수가 나이인 경우에, 모델생성장치는 제1 군집, 제2 군집 및 제3 군집에 속한 데이터의 나이 평균을 각 군집과 변수가 만나는 칸(310)에 서로 다른 색상으로 표시할 수 있다.

도 4를 참조하면, 모델생성장치는 각 군집의 데이터를 구성하는 복수의 변수를 2차원 또는 3차원으로 표시할 수 있다. 예를 들어, 모델생성장치는 PCA(Principal Component Analysis), UMAP(Uniform Maniford Approximation and Projection), t-SNE(t-distributed Stochastic Neighbor Embedding) 등의 다양한 차원축소방법을 이용할 수 있다.

도 5는 본 발명의 실시 예에 따른 군집 속성을 해석하기 위한 지도학습모델을 생성하는 방법의 일 예를 도시한 도면이다.

도 5를 참조하면, 모델생성장치는 비지도학습모델을 통해 생성된 N개의 군집(500,502,504)에서 어느 하나의 군집을 포함하는 제1 그룹(510)과 나머지 군집을 포함하는 제2 그룹(512)을 생성한다. 즉, 모델생성장치는 데이터를 제1 그룹(510)과 제2 그룹(512)으로 레이블링한다. 예를 들어, 모델생성장치는 제1 그룹(510)에 속한 데이터를 '1'로 태깅하고, 제2 그룹(512)에 속한 데이터를 '0'으로 태깅할 수 있다. '1'과 '0' 외에 각 그룹에 속한 데이터를 레이블링하는 다양한 방법이 본 실시 예에 적용될 수 있다.

모델생성장치는 제1 그룹(510)과 제2 그룹(512)으로 레이블링된 데이터로 구성된 학습데이터를 이용하여 지도학습모델(520)을 학습시킨다. 예를 들어, 지도학습모델(520)은 학습데이터를 입력받으면 데이터가 제1 그룹(510)과 제2 그룹(512) 중 어디에 속하는지 예측한 결과를 출력하고, 그 예측 결과(530)를 학습데이터의 정답지(ground truth)와 비교하여 내부 파라메터 등을 조정하는 학습 과정을 수행한다.

예를 들어, 모델생성장치는 군집a(500)를 포함하는 제1 그룹(510)과 나머지 군집b~k(502,504)를 포함하는 제2 그룹(512)을 이용하여 군집a(500)를 예측하도록 지도학습모델(520)을 학습시킬 수 있다. 도 2의 예에서, 제2 초기 군집(222)에 대한 군집 속성을 파악하고자 하는 경우에, 모델생성장치는 제2 초기 군집(222)의 데이터와 나머지 군집의 데이터를 각각 제1 그룹(510)과 제2 그룹(512)으로 분류한 후 이를 이용하여 지도학습모델(520)을 학습시킬 수 있다.

도 6은 본 발명의 실시 예에 따른 지도학습모델을 이용하여 군집 속성을 파악하는 방법의 일 예를 도시한 도면이다.

도 6을 참조하면, 지도학습모델(520)이 의사결정나무모델인 경우이다. 의사결정나무모델은 부모노드(parent node)(600), 각 계층의 결정노드(decision node)(610,612,620,622,624,626), 그리고 종단노드(terminal node)(630~644)로 구성된다. 도 5와 같이 군집을 제1 그룹(510)과 제2 그룹(512)으로 분할한 학습데이터를 이용하여 의사결정나무모델을 학습시키는 경우에 의사결정나무모델의 종단노드(630~644)는 두 그룹(510,512) 중 어느 하나의 그룹에 속하게 된다. 예를 들어, 제1,2,5,8 종단노드(630,632,638,644)는 제1 그룹에 속하고, 제3,4,6,7 종단노드(634,636,640,642)는 제2 그룹에 속할 수 있다. 데이터가 어느 종단노드에 속하는지에 따라 데이터가 어느 그룹에 속하는지 판단할 수 있다.

의사결정나무모델의 부모노드(600)에서 종단노드(630~644)에 이르는 경로는 결정노드(610,612,620,622,624,626)의 분기조건에 의해 결정된다. 예를 들어, 부모노드(600)에서 제2 종단노드(632)에 이르는 의사결정 경로에는 제1 결정노드(610)의 제1 분기조건과 제2 결정노드(620)의 제2 분기조건이 존재한다. 따라서 제2 종단노드(6320)로 분류되는 데이터의 속성은 제1 분기조건과 제2 분기조건(650)에 의해 설명될 수 있다. 제1 그룹(510)이 군집a(500)로 구성되었다면, 군집a(500)의 속성은 제1 분기조건과 제2 분기조건으로 표시될 수 있다.

도 7을 참조하면, 모델생성장치(700)는 군집화부(710), 피드백부(720) 및 모델생성부(730)를 포함한다. 모델생성장치(700)는 메모리, 프로세서, 입출력장치 등을 포함하는 다양한 종류의 컴퓨팅 장치로 구현될 수 있다. 예를 들어, 각 구성(710,720,730)은 소프트웨어로 구현되어 메모리에 탑재된 후 프로세서에 의해 수행될 수 있다.

군집화부(700)는 비지도학습모델을 이용하여 데이터를 복수 개의 군집으로 그룹화한다. 예를 들어 도 2와 같이 군집화부(700)는 비지도학습모델(210)을 이용하여 데이터(200)를 N개의 군집(220,222,224)으로 그룹화할 수 있다.

피드백부(720)는 사용자의 의도에 맞는 군집을 생성할 수 있도록 사용자로부터 군집분할 또는 군집병합 명령을 수신하면 그에 따라 군집을 분할하거나 병합한다. 예를 들어, 도 2와 같이 다양한 형태로 군집분할과 병합이 이루어질 수 있다.

피드백부(720)는 사용자의 군집분할 또는 군집병합에 도움을 줄 수 있도록 군집 속성을 표시할 수 있다. 예를 들어, 피드백부(720)는 도 3 또는 도 4와 같이 각 군집 속성을 시각적으로 표시하거나, 도 5 및 도 6과 같이 지도학습모델을 통해 각 군집 속성을 파악하여 제공할 수 있다.

일 실시 예로, 피드백부(720)는 사용자가 분할 또는 병합할 군집을 선택할 수 있는 화면 인터페이스를 제공할 수 있다. 도 2의 예를 참조하면, 사용자가 화면 인터페이스를 통해 제2 군집(222)을 선택하면, 피드백부(720)는 제2 군집에 대한 군집 속성을 표시할 수 있다. 사용자가 제2 군집(222)에 대한 분할(230)을 요청하면, 피드백부(720)는 제2 군집(222)을 분할한 후 도 2와 같이 그래프 형태로 제2-1 세부군집(240) 및 제2-2 세부군집(242)을 화면에 표시할 수 있다. 사용자가 다시 제2-1 세부군집(240)을 선택하면, 피드백부(720)는 제2-1 세부군집(240)에 대한 군집 속성을 파악하여 표시할 수 있다.

모델생성부(730)는 군집분할 또는 군집병합의 과정을 통해 최종 군집이 생성되면 데이터를 최종 군집으로 그룹핑하는 통합모델을 생성하여 제공한다. 예를 들어, 사용자의 군집분할 또는 군집통합에 의해 도 2와 같은 최종 군집(260,262,264,266,224)이 만들어지면, 모델생성부(730)는 도 2의 구조로 구성된 통합모델을 제공할 수 있다.

다른 실시 예로, 모델생성부(730)는 최종 군집을 이용하여 사용자가 원하는 군집을 예측하는 지도학습모델을 생성할 수 있다. 예를 들어, 도 2에서 제2-2-1 군집(262)을 예측하는 지도학습모델을 생성하고자 하는 경우, 모델생성부(730)는 제2-2-1 군집(262)에 속한 데이터를 제1 그룹으로 태깅하고 나머지 군집(260,264,266,224)에 속한 데이터를 제2 그룹으로 태깅한 학습 데이터를 생성한 후 그 학습데이터를 이용하여 지도학습모델을 학습시킬 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

비지도학습모델을 이용하여 데이터를 복수 개의 초기 군집으로 그룹핑하는 단계;

상기 복수 개의 초기 군집에 대하여 군집 분할 또는 군집 통합의 과정을 수행하여 복수 개의 최종 군집을 생성하는 단계; 및

상기 데이터를 상기 최종 군집으로 그룹핑하는 통합모델을 생성하는 단계;를 포함하는 것을 특징으로 하는 비지도학습을 이용한 모델생성방법.
제 1항에 있어서, 상기 최종 군집을 생성하는 단계는,

상기 복수 개의 초기 군집에 대하여 적어도 둘 이상의 군집을 통합하거나 적어도 하나 이상의 군집을 적어도 둘 이상의 군집으로 분할하여 복수 개의 중간 군집을 생성하는 단계; 및

상기 중간 군집에 대하여 적어도 둘 이상의 군집을 통합하거나 적어도 하나 이상의 군집을 적어도 둘 이상의 군집으로 분할하여 최종 군집을 생성하는 단계;를 포함하는 것을 특징으로 하는 비지도학습을 이용한 모델생성방법.
제 1항에 있어서,

상기 최종 군집을 생성하는 단계는, 제2 비지도학습모델 또는 규칙을 적용하여 군집을 적어도 둘 이상의 세부 군집으로 분할하는 단계를 포함하는 것을 특징으로 하는 비지도학습을 이용한 모델생성방법.
제 1항에 있어서,

상기 통합모델은 상기 비지도학습모델과 상기 제2 비지도학습모델 또는 규칙을 포함하여 구성되는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서,

상기 최종 군집을 생성하는 단계 이전에 군집 속성을 표시하는 단계를 더 포함하고,

상기 군집 속성을 표시하는 단계는,

상기 복수 개의 초기 군집 중 적어도 하나의 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹을 이용하여 지도학습모델을 학습시키는 단계;

학습 완료된 지도학습모델을 이용하여 군집에 대한 변수의 영향도 또는 변수의 분류 조건을 포함하는 군집 속성을 파악하는 단계; 및

상기 군집 속성을 표시하는 단계;를 포함하는 것을 특징으로 하는 비지도학습을 이용한 모델생성방법.
제 1항에 있어서, 상기 통합모델을 생성하는 단계는,

상기 복수 개의 최종 군집 중 적어도 하나의 군집을 포함하는 제1 그룹과 나머지 군집을 포함하는 제2 그룹을 이용하여 지도학습모델을 학습시키는 단계; 및

학습 완료된 지도학습모델을 제공하는 단계;를 포함하는 것을 특징으로 하는 비지도학습을 이용한 모델생성방법.
비지도학습모델을 이용하여 데이터를 복수 개의 초기 군집으로 그룹핑하는 군집화부;

상기 복수 개의 초기 군집에 대하여 군집 분할 또는 군집 통합의 과정을 수행하여 복수 개의 최종 군집을 생성하는 피드백부; 및

상기 데이터를 상기 최종 군집으로 그룹핑하는 통합모델을 생성하는 모델생성부;를 포함하는 것을 특징으로 하는 모델생성장치.
제 1항에 기재된 방법을 수행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.