WO2022211180A1

WO2022211180A1 - 해석이 용이한 모델생성방법 및 그 장치와, 이를 이용하여 생성된 모델을 이용한 데이터분류방법 및 그 장치

Info

Publication number: WO2022211180A1
Application number: PCT/KR2021/005839
Authority: WO
Inventors: 최유리; 최정혁
Original assignee: 주식회사 솔리드웨어
Priority date: 2021-03-30
Filing date: 2021-05-11
Publication date: 2022-10-06
Also published as: KR102314848B1

Abstract

해석이 용이한 모델생성방법 및 그 장치와, 이를 이용하여 생성된 모델을 이용한 데이터분류방법 및 그 장치가 개시된다. 모델생성장치는 비지도학습모델을 이용하여 학습데이터를 분류한 제1 분류결과를 획득하고, 지도학습모델을 이용하여 학습데이터를 분류한 제2 분류결과를 획득하고, 학습데이터에 제2 분류결과를 누적 추가한 후 다시 제1 분류결과와 제2 분류결과를 획득하는 과정을 제1 분류결과와 제2 분류결과가 기 정의된 허용오차 범위 내에서 동일할 때까지 반복 수행하여 데이터분류모델을 생성한다.

Description

해석이 용이한 모델생성방법 및 그 장치와, 이를 이용하여 생성된 모델을 이용한 데이터분류방법 및 그 장치

본 발명의 실시 예는, 레이블링되지 않은 데이터를 비지도학습모델을 이용하여 분류하는 데이터분류모델을 해석이 용이하도록 생성하는 방법 및 그 장치와, 이를 이용하여 생성된 데이터분류모델을 이용하여 데이터를 분류하는 방법 및 그 장치에 관한 것이다.

비지도학습모델은 사전에 정의된 레이블이 존재하지 않는 상태에서 데이터의 특성만 고려하여 데이터를 복수의 군집으로 분류하는 모델로, 레이블이 존재하는 학습데이터를 이용하여 데이터를 분할하도록 훈련시킨 지도학습모델과 구분된다. 비지도학습 또는 준지도학습 방법에 의한 군집화 알고리즘은 군집화 또는 이상탐지의 품질을 추정하기 위한 척도로 군집간 거리나 군집 내 거리 등 데이터의 기하학적 특성을 활용한다. 그러나 데이터의 차원이 높아질수록(즉, 유의미한 변수가 많아질수록) 데이터 간 거리라는 지표 자체가 왜곡될 수 있다. 또한 많은 경우 비지도학습 및 준지도학습 알고리즘은 서로 다르게 분류된 데이터의 가분성(separability), 즉 다른 분류 간에 얼마나 쉽게 구별할 수 있는지의 척도를 고려하지 않고 있다. 거리가 아니라 표본의 밀도를 기준으로 군집화하는 알고리즘도 존재하나, 이런 방법론 역시 데이터의 차원이 높아지면 확률밀도의 안정적 추정을 위해 필요한 표분의 크기가 기하급수적으로 커짐으로 인해 부정확해지는 문제점이 존재한다. 이상탐지에 데이터의 가분성을 직접 활용하는 알고리즘(예를 들어, isolation forest 또는 extended isolation forest 등)도 존재하지만, 이런 알고리즘은 의사결정나무만을 이용하여 고차원적 비선형 초평면(hyperplane) 형태의 판별함수를 만들어내야 하기 때문에 많은 수의 트리를 필요로 하게 되어 비효율적일 수 있다.

본 발명의 실시 예가 이루고자 하는 기술적 과제는, 지도학습모델의 분류결과를 이용하여 비지도학습모델의 해석이 용이한 데이터분류모델을 생성하는 방법 및 그 장치와, 이를 이용하여 생성한 데이터분류모델을 이용하여 데이터를 분류하는 방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 모델생성방법의 일 예는, 모델생성장치가 수행하는 모델생성방법에 있어서, 비지도학습모델을 이용하여 학습데이터를 분류한 제1 분류결과를 획득하는 단계; 지도학습모델을 이용하여 상기 분류결과를 기초로 레이블링된 학습데이터를 분류한 제2 분류결과를 획득하는 단계; 상기 제1 분류결과와 상기 제2 분류결과가 상이하면, 상기 학습데이터에 상기 제2 분류결과를 누적 추가하고, 상기 제1 분류결과를 획득하는 단계 및 상기 제2 분류결과를 획득하는 단계를 재수행하는 단계; 및 상기 제1 분류결과와 상기 제2 분류결과가 기 정의된 허용오차 범위 내에서 동일할 때까지 상기 제1 분류결과를 획득하는 단계부터 상기 재수행하는 단계까지를 반복 수행하는 단계;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 데이터분류장치의 일 예는, 입력데이터를 지도학습모델에 입력하여 구한 예측결과를 상기 입력데이터에 추가하고, 추가된 예측결과를 포함하는 입력데이터를 상기 지도학습모델에 다시 입력하여 구한 예측결과를 다시 상기 입력데이터에 누적 추가하는 과정을 일정 횟수 반복 수행하는 데이터증강부; 및 예측결과가 누적 추가된 입력데이터를 비지도학습모델에 입력하여 분류결과를 예측하는 분류예측부;를 포함한다.

본 발명의 실시 예에 따르면, 지도학습모델의 분류결과를 이용하여 비지도학습모델의 분류결과의 성능을 향상시킬 수 있다. 또한 학습 과정에서 지도학습모델의 분류결과를 비지도학습모델의 학습데이터의 변수로 누적 추가하여 비지도학습모델의 식별가능성 척도를 높일 수 있다.

도 1은 본 발명의 실시 예에 따른 데이터분류모델의 일 예를 도시한 도면,

도 2는 본 발명의 실시 예에 따른 증강데이터의 일 예를 도시한 도면,

도 3은 본 발명의 실시 예에 따른 데이터분류모델을 생성하는 방법의 일 예를 도시한 도면,

도 4는 본 발명의 실시 예에 따른 데이터분류장치의 일 실시 예의 구성을 도시한 도면, 그리고,

도 5는 본 발명의 실시 예에 따른 모델생성부의 일 예의 구성을 도시한 도면이다.

이하에서, 첨부된 도면들을 참조하여 본 발명의 실시 예에 따른 모델생성방법 및 그 장치와 이를 이용하여 생성된 모델을 이용한 데이터분류방법 및 그 장치에 대해 상세히 살펴본다.

도 1은 본 발명의 실시 예에 따른 데이터분류모델의 일 예를 도시한 도면이다.

도 1을 참조하면, 데이터분류모델(100)은 지도학습모델(110,112,114)과 비지도학습모델(120)로 구성된다. 데이터분류모델(100)은 적어도 하나 이상의 지도학습모델(110,112,114)이 다단계로 연결되고, 마지막 지도학습모델(114)의 출력이 비지도학습모델(120)로 입력된다. 비지도학습모델(120)은 입력데이터(130)를 복수의 군집으로 분류(예를 들어, 2개의 군집으로 이진분류)하는 모델이고, 지도학습모델은 입력데이터(130)가 특정 그룹에 속하는지 여부를 예측하는 모델이다.

지도학습모델(110,112,114)은 예측결과를 통해 데이터를 2개의 그룹(즉, 양성 그룹과 음성 그룹)으로 분류하는 이진분류모델일 수 있다. 지도학습모델(110,112,114)은 양성 그룹에 속하는 샘플과 음성 그룹에 속하는 샘플을 효과적으로 구분해내는 판별 함수(decision funtion)를 조정하는 방식으로 작동할 수 있다. 이 판별 함수의 출력값은 이진(binary) 값이거나 연속적(continuous)인 값일 수 있는데 연속적인 값의 형태의 경우 특정 값을 초과하면 양성으로 분류하도록 임계치(trhreshold)가 부여될 수 있다. 즉, 판별 함수는 n차원 데이터에 대하여 그것이 속한 n차원 유클리드 공간 내에서 양성과 음성 샘플을 가장 정확하게 구분해내는 경계면을 정의하게 되고, 이것을 분리초평면(separating hyperplane)이라고 한다.

분리하고자 하는 데이터가 노이지(noisy)하여 특성은 유사한데 클래스는 다른 샘플이 다수 존재하는 경우에 분리 초평면은 데이터를 완벽하게 분리해내지 못할 수 있다. 데이터에 노이즈가 많이 포함될수록 분리 초평면, 즉 지도학습모델의 판별함수의 성능이 떨어지게 되는데, 거꾸로 말하면 충분한 복잡도를 가진 지도학습모델조차도 분리해내지 못하는 학습데이터는 그 분류 체계 자체가 분리하기 어렵게 되었다고 할 수 있다.

이에 본 실시 예는 반복 학습 단계를 거칠 때마다 직전 지도학습모델(110,112,114)의 분류결과를 비지도학습모델(120)의 샘플 특성으로 참고하도록 데이터분류모델(100)을 설계한다. 각 회차 비지도학습 훈련 결과에 지도학습모델(110,112,114)의 식별 시도를 원본의 입력데이터(130)에 변수로 추가함으로써 데이터에 일종의 식별가능성 척도를 점진적으로 주입하여 식별가능성이 상당 부분 제고된 데이터분류모델을 만들 수 있다.

데이터분류모델(100)을 구성하는 다단계의 지도학습모델(110,112,114)의 개수는 데이터분류모델(100)의 훈련과정에서 결정된다. 데이터분류모델을 훈련시켜 생성하는 과정은 도 3에서 다시 살펴본다. 본 실시 예에서는 도 3의 방법을 통해 지도학습모델 및 비지도학습모델을 학습시켜 데이터분류모델(100)이 생성되었다고 가정한다.

데이터분류장치는 입력데이터(130)를 제1 지도학습모델(110)에 입력하여 제1 예측결과를 파악한다. 데이터분류장치는 제1 예측결과를 입력데이터(130)에 추가한 새로운 제1 증강데이터를 생성한 후 이를 제2 지도학습모델(112)에 입력하여 제2 예측결과를 파악한다. 데이터분류장치는 제2 예측결과를 다시 제1 증가데이터에 추가한 제2 증강데이터를 생성하고, 이를 제3 지도학습모델에 입력하여 제3 예측결과를 파악한다. 데이터분류장치는 이와 같은 방법을 반복 수행하여 생성한 제(N-1) 증강데이터를 제N 지도학습모델(114)에 입력하여 제N 예측결과를 파악한다.

제1 내지 제N 지도학습모델(110,112,114)은 모두 동일한 지도학습모델이다. 일 실시 예로, 제1 예측결과를 출력한 제1 지도학습모델(110)이 제2 지도학습모델(112)로 사용되고, 제2 예측결과를 출력한 제2 지도학습모델(112)이 제3 지도학습모델로 사용될 수 있다. 즉 하나의 지도학습모델이 N번 반복하여 사용될 수 있다. 다른 실시 예로, N개의 동일한 지도학습모델(110,112,114)이 본 실시 예와 다단계로 배치된 후 각각 제1 내지 제N 예측결과를 출력할 수 있다.

데이터분류장치는 제(N-1) 증강데이터에 제N 지도학습모델(114)의 제N 예측결과를 추가한 제N 증강데이터를 비지도학습모델(120)에 입력하여 입력데이터(130)에 대한 최종 분류결과를 획득한다.

도 2는 본 발명의 실시 예에 따른 증강데이터의 일 예를 도시한 도면이다.

도 2를 참조하면, 데이터분류장치는 지도학습모델의 예측결과(즉, 분류결과)를 입력데이터에 누적 추가하여 증강데이터를 생성한다.

예를 들어, 도 1의 입력데이터(130)는 적어도 하나 이상의 샘플(210)과 각 샘플에 대한 복수 개의 변수(220)의 값으로 구성될 수 있다. 데이터분류장치는 입력데이터(130)를 제1 지도학습모델(110)에 입력하여 획득한 제1 예측결과(Y1)를 입력데이터에 추가한 제1 증강데이터를 생성한다. 즉, 제1 증강데이터는 변수X1~Xn(220)의 값과 변수 Y1의 값으로 구성된다. 데이터분류장치는 m번의 지도학습모델의 예측결과를 입력데이터에 누적 추가하여 변수 Y1~Ym(230)의 예측결과를 포함하는 증강데이터(200)를 생성할 수 있다.

도 3은 본 발명의 실시 예에 따른 데이터분류모델을 생성하는 방법의 일 예를 도시한 도면이다.

도 3을 참조하면, 모델생성장치는 비지도학습모델(310)을 이용하여 학습데이터(300)를 복수 개의 군집으로 분류한다. 예를 들어, 모델생성장치는 K-평균 알고리즘의 비지도학습모델(310)을 이용하여 학습데이터(300)를 2개 이상의 군집으로 분류할 수 있다. 이하에서는 설명의 편의를 위하여 비지도학습모델(310)은 학습데이터를 2개의 군집으로 분류하는 이진분류모델이라고 가정한다.

일 실시 예로, 데이터분류모델의 생성을 위하여 비지도학습모델 (310) 및 지도학습모델(330)의 학습에 사용되는 학습데이터(300)는 이진 특성이 데이터 속에서 분리 가능한 형태로 나타나는 데이터일 수 있다. 다른 실시 예로, 비지도학습모델(310)의 판별 초평면의 복잡도가 과하게 높을 경우에도 지도학습으로 근사하는 것이 불가능할 수 있으므로, 학습데이터(300)는 비지도학습모델(310)의 분류결과의 판별 초평면이 지도학습으로 근사가 가능한 데이터일 수 있다.

모델생성장치는 비지도학습모델(310)을 이용하여 제1 분류결과(320)를 구하고, 제1 분류결과(320)를 기초로 레이블링된 학습데이터(300)를 이용하여 지도학습모델(330)을 훈련(즉, 학습)시켜 제2 분류결과(340)를 획득한다. 예를 들어, 학습데이터(300)가 도 2와 같이 복수 개의 샘플(210)로 구성된 경우에, 학습데이터의 각 샘플은 비지도학습모델(310)에 의해 두 개의 군집으로 분류된다. 모델생성장치는 분류된 군집 결과를 이용하여 학습데이터(300)를 예측대상 그룹(즉, 양성 그룹)에 속하는 샘플(예를 들어, '1'로 태깅)과 노이즈 그룹(즉, 음성 그룹)에 속하는 샘플(즉, '0'으로 태깅)로 레이블링한 지도학습용 학습데이터를 생성하고, 이를 이용하여 지도학습모델(330)을 학습시킨 후 그 학습결과에 따른 제2 분류결과(즉, 예측결과)를 획득한다. 모델생성장치는 훈련시킨 지도학습모델(330)을 이용하여 학습데이터(300)의 각 샘플이 예측대상 그룹에 속할지 예측함으로써, 학습데이터의 샘플들을 예측대상 그룹과 나머지 그룹의 두 그룹으로 분류한 제1 분류결과(340)를 출력할 수 있다.

모델생성장치는 비지도학습모델(310)에 의해 분류된 제1 분류결과(320)와 지도학습모델(330)에 의해 분류된 제2 분류결과(340)를 비교하여 동일하지 파악한다(350). 여기서 동일이라고 함은 제1 분류결과(320)와 제2 분류결과(340)가 완벽하게 일치하는 경우 뿐만 아니라 제1 분류결과(320)와 제2 분류결과(340)의 차이가 일정 허용 오차 범위 내에 존재하는 경우를 포함한다. 예를 들어, 모델생성장치는 제1 분류결과(320)와 제2 분류결과(340)의 일치비율이 기 정의된 비율(예를 들어, 95%) 이상(허용오차가 5%)이면 동일하다고 판단할 수 있다. 이 외에도 제1 분류결과(320)와 제2 분류결과(340)의 동일 여부를 파악하는 종래의 다양한 통계적 방법이 본 실시 예에 적용될 수 있다.

모델생성장치는 제1 분류결과(320)와 제2 분류결과(340)가 상이하면, 지도학습모델(330)의 제2 분류결과(즉, 예측결과)(340)를 학습데이터(300)에 추가한 제1 증강학습데이터를 생성한다(370). 예를 들어, 학습데이터(300)가 도 2와 같이 변수 X1~Xn(220)을 포함한다면, 모델생성장치는 지도학습모델의 제2 분류결과(340)를 변수 Y1을 추가한 제1 증강학습데이터를 생성한다. 제1 증강학습데이터에 추가된 Y1 컬럼의 값은 각 샘플이 속한 그룹을 나타내는 값이다. 예를 들어, 제2 분류결과(340)에 따라 제1 그룹(즉, 양성 그룹)에 속하는 것으로 예측된 샘플의 Y1 값은 '1', 그 외의 샘플의 Y1 값은 '0'으로 설정할 수 있다. 증강학습데이터에 추가되는 Y 변수(230)의 값은 0과 1 외에 실시 예에 따라 다양한 형태로 표현될 수 있다.

모델생성장치는 제1 증강학습데이터를 비지도학습모델(310)의 학습데이터로 다시 입력하여 제1 분류결과(320)를 획득한다. 그리고 모델생성장치는 제1 증강학습데이터에 대한 제1 분류결과(320)를 이용하여 레이블링한 제1 증강학습데이터로지도학습모델(330)을 학습시키고 제2 분류결과(340)를 획득한다.

모델생성장치는 제1 증강학습데이터에 대한 제1 분류결과(320)와 제2 분류결과(340)를 비교하여 상이하면, 제1 증강학습데이터에 대한 제2 분류결과(340)를 제1 증강학습데이터에 추가 누적한 제2 증강학습데이터를 생성한다. 예를 들어, 도 2의 예에서 제2 증강학습데이터는 X1~Xn(220), Y1, Y2 컬럼으로 구성된다.

모델생성장치는 제1 분류결과(320)와 제2 분류결과(340)가 동일할 때가지 지도학습모델의 제2 분류결과(340)를 학습데이터(300)에 누적 추가한 증강학습데이터를 생성하는 과정을 반복수행한다. 제1 분류결과(320)와 제2 분류결과(340)가 동일하면 모델생성장치는 데이터분류모델의 훈련 과정을 종료한다. 다른 실시 예로, 모델생성장치는 지도학습모델(330)의 현재 제2 분류결과가 이전의 제2 분류결과 중 어느 하나와 동일하면 훈련 과정을 종료할 수도 있다. 데이터분류모델(100)의 지도학습모델(110,112,114) 및 비지도학습모델(130)은 본 실시 예에서 훈련된 지도학습모델(330) 및 비지도학습모델(310)이다.

모델생성장치는 종료 시점까지 학습데이터(300)에 누적 추가한 제2 분류결과의 개수를 기반으로 도 1에서 살핀 데이터분류모델(100)의 지도학습모델(110,112,114)의 다단계 개수를 결정할 수 있다. 예를 들어, 도 2와 같이 m개의 Y 컬럼(230)이 학습데이터에 추가된 경우에, 데이터분류모델(100)을 구성하는 지도학습모델(110,112,114)의 단계 개수는 m이 된다. 이 경우에, 데이터분류장치는 입력데이터(130)에 지도학습모델(110,112,114)의 예측결과(즉, 분류결과)를 누적 추가하는 과정을 m번 반복하여 입력데이터(130)에 대한 증강입력데이터(도 2의 200)를 생성하고 이를 비지도학습모델(120)에 입력하여 입력데이터의 최종 분류결과를 파악할 수 있다.

다른 실시 예로, 비지도학습모델이 이상탐지 알고리즘을 포함하는 경우 오염도(contamination ratio) 파라미터를 사용할 수 있다. 오염도의 정확한 설정을 위해서는 해당 분야에 대한 높은 수준의 전문성과 데이터 자체에 대한 깊은 이해를 필요로 하며, 사용자가 이를 갖추었다고 하여도 오염도를 과대 또는 과소 추정하기 싶다. 오염도에 대한 부정확한 설정은 이상탐지의 정확도를 현저히 떨어뜨릴 수 있으며 다량의 위양성 또는 위음성(false positives/neagtives) 판정을 초래할 수 있다.

이에 모델생성장치는 초기에 설정된 오염도 값을 훈련 과정 중에 보정하는 과정을 포함할 수 있다. 초기 오염도 값은 실시 예에 따라 다양하게 설정될 수 있다. 모델생성장치는 제1 분류결과(320)와 제2 분류결과(340)에서 일치하는 샘플들 중 진양성(true positive)의 비율로 오염도 값을 보정할 수 있다. 즉, 모델생성장치는 제1 분류결과(320)와 제2 분류결과(340)에서 일치하는 샘플들 중 제1 그룹(즉, 양성그룹)에 속한 샘플(즉, TP(true positive))의 수를 제1 분류결과(320)와 제2 분류결과(340)에서 일치하는 샘플(TP + TN(Ture nagitive))의 전체 수로 나눈 값을 새로운 오염도 값으로 설정할 수 있다(즉, 오염도 = TP / (TP+TN)). 모델생성장치는 매 회차마다 오염도를 설정할 수 있다.

또 다른 실시 예로, 모델생성장치는 TP 또는 TN의 값이 0이 되거나 오염도의 값이 0.5를 초과하는 특이사항이 발생하면, 훈련에 사용되는 지도학습모델(330) 또는 비지도학습모델(340)의 알고리즘을 교체하거나, 학습데이터(300)에 추가적인 변수를 입력하거나, 초기 오염도 값을 변경하거나, 또는 제1 분류결과(320)와 제2 분류결과(340)의 동일 여부를 파악하는 허용오차의 값을 변경할 수 있다.

또 다른 실시 예로, 지도학습모델의 성능을 분류의 정확도로 평가하는 경우에 허용 오차의 범위는 오염도 값보다 작도록 설정하는 것이 바람직하다. 만약 허용 오차의 범위가 오염도 값보다 크면 지도학습모델(330)이 모든 표본을 음성으로 판단하는 무의미한 모델로 지도학습모델(330)이 최적화될 가능성이 존재한다.

도 4는 본 발명의 실시 예에 따른 데이터분류장치의 일 실시 예의 구성을 도시한 도면이다.

도 4를 참조하면, 데이터분류장치(400)는 모델생성부(450), 지도학습모델(410), 비지도학습모델(420), 데이터증강부(430) 및 분류예측부(440)를 포함한다. 데이터분류장치(400)는 메모리 및 프로세서를 포함하는 컴퓨팅 장치로 구현될 수 있다. 각 구성은 소프트웨어 구현되어 메모리에 탑재된 후 프로세서에 의해 수행될 수 있다.

모델생성부(450)는 도 3에서 설명한 방법을 통해 지도학습모델(410) 및 비지도학습모델(420)을 훈련시켜 m개의 다단형태로 연결되는 지도학습모델(410)과 비지도학습모델(420)로 구성되는 도 1과 같은 데이터분류모델(100)을 생성한다. 모델생성부(450)의 상세 구성에 대해서는 도 5에서 다시 살펴본다.

데이터증강부(430)는 모델생성부(450)에 의해 지도학습모델(410)과 비지도학습모델(420)로 구성된 도 1의 데이터분류모델(100)이 생성되면, 입력데이터에 지도학습모델(410)의 예측결과를 누적 추가한 증강데이터를 도 2와 같이 생성한다. 입력데이터에 추가 누적하는 예측결과의 수는 모델생성부(450)에 의해 데이터분류모델을 훈련시킬 때 정해진다.

분류예측부(440)는 데이터증강부(430)에 의해 생성된 증강데이터를 비지도학습모델(420)에 입력하여 입력데이터에 대한 분류결과를 획득한다. 비지도학습모델(420)은 입력데이터에 존재하는 변수값(예를 들어, 도 2의 X1~Xn(220))뿐만 아니라 지도학습모델에 의해 누적 추가된 예측결과값(예를 들어, 도 2의 Y1~Ym(230))을 함께 포함하는 샘플들을 대상으로 분류하므로 분류 결과가 보다 정확할 뿐만 아니라 비지도학습모델(420)의 분류 결과에 대한 설명력을 높일 수 있다.

도 5를 참조하면, 모델생성부(450)는 제1 분류부(500), 제2 분류부(510), 학습데이터증강부(520) 및 반복수행부(530)를 포함한다. 모델생성부(450)는 도 4의 데이터분류장치(400)와 별개의 장치로 구현될 수 있다. 즉, 모델생성부(450)는 메모리 및 프로세스를 포함하는 컴퓨팅 장치로 구현되어, 도 3의 모델생성장치가 될 수 있다.

제1 분류부(500)는 학습데이터를 비지도학습모델을 이용하여 적어도 두 개의 군집으로 분류한다. 또한, 제1 분류부(500)는 학습데이터에 지도학습모델의 예측결과가 누적 추가된 증강학습데이터를 비지도학습모델을 이용하여 적어도 두 개의 군집으로 분류한다.

제2 분류부(510)는 제1 분류부(500)에 의해 생성된 비지도학습모델의 제1 분류결과로 레이블링된 학습데이터를 이용하여 지도학습모델을 훈련시켜 제2 분류결과를 획득한다. 또한 제2 분류부(510)는 증강학습데이터에 대한 제1 분류결과와 제1 분류결과로 레이블링된 증강학습데이터를 이용하여 지도학습모델을 훈련시켜 제2 분류결과를 획득한다.

학습데이터증강부(520)는 학습데이터에 제2 분류결과를 누적 추가한 증강학습데이터를 생성한다. 제1 분류부(500)와 제2 분류부(510)를 통해 비지도학습모델 및 지도학습모델을 훈련시켜 분류가 반복될 때마다 학습데이터에 제2 분류결과가 누적 추가된다.

반복수행부(530)는 증강학습데이터를 이용하여 상기 제1 분류결과와 상기 제2 분류결과를 획득하고 제2 분류결과를 누적 추가한 증강학습데이터를 생성하는 과정을 제1 분류결과와 제2 분류결과가 동일할 때까지 반복 수행한다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

모델생성장치가 수행하는 모델생성방법에 있어서,

비지도학습모델을 이용하여 학습데이터를 분류한 제1 분류결과를 획득하는 단계;

지도학습모델을 이용하여 상기 분류결과를 기초로 레이블링된 학습데이터를 분류한 제2 분류결과를 획득하는 단계;

상기 제1 분류결과와 상기 제2 분류결과가 상이하면, 상기 학습데이터에 상기 제2 분류결과를 누적 추가하고, 상기 제1 분류결과를 획득하는 단계 및 상기 제2 분류결과를 획득하는 단계를 재수행하는 단계; 및

상기 제1 분류결과와 상기 제2 분류결과가 기 정의된 허용오차 범위 내에서 동일할 때까지 상기 제1 분류결과를 획득하는 단계부터 상기 재수행하는 단계까지를 반복 수행하는 단계;를 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서,

상기 비지도학습모델은 학습데이터를 2개의 군집으로 분할하는 이진분류모델인 것을 특징으로 하는 모델생성방법.
제 1항에 있어서, 상기 반복 수행하는 단계는,

상기 제1 분류결과와 상기 제2 분류결과의 일치비율이 기 설정된 기준 이상이면 동일하다고 판단하는 단계를 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서,

상기 제1 분류결과와 상기 제2 분류결과에서 일치하는 샘플들 중 진양성의 비율로 상기 비지도학습모델의 오염도를 보정하는 단계;를 상기 재수행하는 단계 전에 더 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서,

상기 비지도학습모델 및 상기 지도학습모델을 이용하여 입력데이터에 대한 분류결과를 예측하는 단계;를 더 포함하고,

상기 예측하는 단계는,

입력데이터를 상기 지도학습모델에 입력하여 구한 예측결과를 상기 입력데이터에 추가하고, 추가된 예측결과를 포함하는 입력데이터를 상기 지도학습모델에 다시 입력하여 구한 예측결과를 다시 상기 입력데이터에 누적 추가하는 과정을 반복 수행하는 단계;

상기 지도학습모델의 예측결과가 누적 추가된 입력데이터를 상기 비지도학습모델에 입력하여 분류결과를 획득하는 단계;를 포함하고,

상기 누적 추가하는 과정의 반복 수행 횟수는 상기 제2 분류결과를 획득하는 단계의 재수행 횟수에 의해 결정되는 것을 특징으로 하는 모델생성방법.
입력데이터를 지도학습모델에 입력하여 구한 예측결과를 상기 입력데이터에 추가하고, 추가된 예측결과를 포함하는 입력데이터를 상기 지도학습모델에 다시 입력하여 구한 예측결과를 다시 상기 입력데이터에 누적 추가하는 과정을 일정 횟수 반복 수행하는 데이터증강부; 및

예측결과가 누적 추가된 입력데이터를 비지도학습모델에 입력하여 분류결과를 예측하는 분류예측부;를 포함하는 것을 특징으로 하는 데이터분류모델을 이용한 데이터분류장치.
제 6항에 있어서,

비지도학습모델과 지도학습모델로 구성된 데이터분류모델을 훈련시키는 모델생성부;를 더 포함하고,

상기 모델생성부는,

상기 비지도학습모델을 이용하여 학습데이터를 분류한 제1 분류결과를 획득하는 제1 분류부;

지도학습모델을 이용하여 상기 제1 분류결과를 기초로 레이블링된 학습데이터를 분류한 제2 분류결과를 획득하는 제2 분류부;

상기 학습데이터에 상기 제2 분류결과를 누적 추가한 증강학습데이터를 생성하는 학습데이터증강부;

상기 증강학습데이터를 이용하여 상기 제1 분류결과와 상기 제2 분류결과를 다시 획득하고 다시 획득한 제2 분류결과를 누적 추가한 증강학습데이터를 생성하는 과정을 상기 제1 분류결과와 상기 제2 분류결과가 동일할 때까지 반복 수행하는 반복수행부;를 포함하는 것을 특징으로 하는 데이터분류장치.
제 7항에 있어서,

상기 데이터증강부가 상기 지도학습모델의 예측결과를 입력데이터에 누적 추가하는 과정의 반복 횟수는 상기 학습데이터추가부가 상기 학습데이터에 상기 제2 분류결과를 누적 추가하는 횟수에 의해 결정되는 것을 특징으로 하는 데이터분류장치.
제 7항에 있어서, 상기 모델생성부는,

상기 제1 분류결과와 상기 제2 분류결과에서 일치하는 샘플들 중 진양성의 비율로 상기 비지도학습모델의 오염도를 보정하는 오염도보정부;를 더 포함하는 것을 특징으로 하는 데이터분류장치.
제 1항에 기재된 방법을 수행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.