WO2020153597A1

WO2020153597A1 - 다단계 분류모델 생성 방법 및 그 장치

Info

Publication number: WO2020153597A1
Application number: PCT/KR2019/016993
Authority: WO
Inventors: 최유리; 이재웅; 유두열
Original assignee: 주식회사 솔리드웨어
Priority date: 2019-01-23
Filing date: 2019-12-04
Publication date: 2020-07-30
Also published as: KR102002549B1

Abstract

다단계 분류모델 생성 방법 및 그 장치가 개시된다. 다단계 분류모델 생성장치는 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하고, 제N(N은 1 이상의 자연수) 분류모델에 제N 학습데이터를 입력하고, 제N 분류모델로부터 출력된 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 일정량의 샘플을 추출하여 제(N+1) 학습데이터를 생성하고, 제N 분류모델의 손실함수의 크기가 일정 이하가 될 때까지 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행한다.

Description

다단계 분류모델 생성 방법 및 그 장치

본 발명은 머신러닝(machine learning) 기반의 분류모델에 관한 것으로, 보다 상세하게는 다단계의 분류모델을 생성하는 방법 및 그 장치에 관한 것이다.

머신러닝 기반의 분류모델은 사용을 위해 먼저 학습과정이 필요하다. 분류모델의 학습을 위한 데이터(즉, 학습데이터)는 분류모델이 사용되는 분야에 따라 다양하게 수집될 수 있다. 그러나 웹 마이닝(web mining)부터 텍스트 범주화, 금융공학, 생물의학에 이르기까지 다양한 분야에서 양성샘플과 음성샘플의 수집 비율이 맞지 않는 경우가 자주 발생한다. 여기서 양성샘플이라고 함은 분류모델이 예측하고자 하는 그룹에 속하는 샘플을 의미하고, 음성샘플은 예측하고자 하는 그룹에 속하지 않는 샘플을 의미한다.

예를 들어, 머신러닝 기반의 분류모델이 의료영상으로부터 암을 분류하는 모델이라고 하면, 해당 모델의 학습을 위해서 암 상태를 나타내는 의료영상인 양성샘플과 정상상태를 나타내는 의료영상인 음성샘플의 비율이 유사한 학습데이터가 필요하다. 그러나 전체 의료영상에서 정상상태의 의료영상 대비 암 상태의 의료영상이 차지하는 비율이 매우 낮다.

음성샘플이 양성샘플에 비해 과도하게 수집되는 문제를 데이터 불균형 문제 또는 비대칭 데이터 문제라고 하며, 머신러닝 기반의 분류모델에서 이는 모델의 성능을 좌우하는 중요한 요소가 된다. 따라서 데이터 불균형 문제를 해결하기 위하여 종래에는 대부분 수집한 데이터를 전처리하는 과정을 포함한다.

데이터 불균형 문제를 해결하는 종래 전처리 방법 중 하나가 언더샘플링(under-sampling)이다. 언더샘플링는 과도하게 수집된 음성샘플의 일부를 추출하여 분류모델의 학습에 사용하는 방법이다. 샘플 추출을 통해 불균형 문제를 일부 해소할 수 있는데 이때 원래의 분포를 적절히 반영하도록 추출하는 것이 중요하다. 샘플 추출 방법으로 단순임의추출법, 층화임의추출법, 계통추출법 등 전통 통계분야에서 사용되는 표본추출법이 적용될 수 있다. 그러나 언더샘플링는 수집한 전체 데이터를 사용하지 않으므로 정보의 손실이 발생하는 단점이 있다.

데이터 불균형 문제를 해결하는 종래 전처리 방법 중 다른 하나는 오버샘플링(over-sampling)이다. 오버샘플링은 적은 비율로 존재하는 양성샘플을 시드(seed)로 하여 추가 데이터를 인위적으로 생성하는 방법이다. 오버샘플링 방법의 일 예로 SMOTE(Synthetic Minority Over-Sampling), ADASYN(Adaptive Synthetic Sampling Approach for Imbalanced Learning) 등이 존재한다. 오버샘플링은 불균형 문제를 해소하기 위해 양성샘플을 원하는 비율만큼 생성할 수 있지만 생성된 데이터가 실제와 얼마나 일치하는지에 대한 기준이 없으며, 대부분 절대적인 거리(예를 들어, Euclidean distance)를 기준으로 실제와 일치하는지 파악하므로 범주형 데이터엔 적용하기 어려울 뿐만 아니라 계산 시간이 많이 소요되는 문제점이 있다.

본 발명의 실시 예가 이루고자 하는 기술적 과제는, 양성샘플과 음성샘플의 불균형 상황에서 최적의 성능을 발휘할 수 있는 다단계 분류 모델을 생성하는 방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 다단계 분류모델 생성 방법의 일 예는, 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하는 단계; 제1 학습데이터를 상기 복수 개의 분류모델 중 제일 앞에 위치한 제1 분류모델에 입력하는 단계; 상기 제1 분류모델로부터 출력된 상기 제1 학습데이터의 각 샘플에 대한 예측값을 기준으로, 상기 제1 학습데이터에서 일정량의 샘플을 제외한 제2 학습데이터를 제2 분류모델에 입력하는 단계; 및 제N(N은 2 이상의 자연수) 분류모델의 손실함수의 크기가 일정 이하가 될 때까지, 제N 분류모델로부터 출력된 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 제N 학습데이터에서 일정량의 샘플을 제외한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행하는 단계;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 다단계 분류모델 생성장치의 일 예는, 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하는 모델배치부; 제N(N은 1 이상의 자연수) 분류모델에 제N 학습데이터를 입력하고, 상기 제N 분류모델로부터 출력된 상기 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 일정량의 샘플을 추출하여 제(N+1) 학습데이터를 생성하는 데이터관리부; 및 상기 제N 분류모델의 손실함수의 크기가 일정 이하가 될 때까지 상기 데이터관리부가 생성한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행하는 반복수행부;를 포함한다.

본 발명의 실시 예에 따르면, 양성샘플과 음성샘플의 비율이 맞지 않는 불균형 문제를 언더샘플링 또는 오버샘플링 등과 같은 전처리 과정 없이 다단계 분류모델을 이용하여 해소한다. 데이터 불균형 상황에서도 최적의 성능을 발휘할 수 있는 다단계 분류모델을 생성할 수 있다. 또한, 다단계 분류모델의 단계 수를 적용분야에 따라 적응적으로 결정할 수 있다.

도 1은 본 발명의 실시 예에 사용되는 분류모델의 일 예를 도시한 도면,

도 2는 본 발명의 실시 예에 적용되는 분류모델의 학습데이터와 예측값의 일 예를 도시한 도면,

도 3은 본 발명의 실시 예에 따른 다단계 분류모델의 일 예를 도시한 도면,

도 4는 본 발명의 실시 예에 따른 데이터 불균형 문제를 해소하는 방법의 개념을 도시한 도면,

도 5는 본 발명의 실시 예에 따른 각 단계별 학습데이터를 생성하는 방법의 일 예를 도시한 도면,

도 6은 본 발명의 실시 예에 따른 다단계 분류모델의 단계 수를 결정하는 방법의 일 예를 도시한 도면,

도 7은 본 발명의 실시 예에 따른 다단계 분류모델 생성 방법의 일 예를 도시한 흐름도,

도 8은 본 발명의 실시 예에 따른 다단계 분류모델을 이용한 분류 과정을 도시한 도면, 그리고,

도 9는 본 발명의 실시 예에 따른 다단계 분류모델 생성장치의 구성의 일 예를 도시한 도면이다.

이하에서, 첨부된 도면들을 참조하면 본 발명의 실시 예에 따른 다단계 분류모델 생성 방법 및 그 장치에 대해 상세히 설명한다.

도 1은 본 발명의 실시 예에 사용되는 분류모델의 일 예를 도시한 도면이다.

도 1을 참조하면, 머신러닝 기반의 분류모델(100)은 학습데이터를 이용한 학습 과정이 필요하다. 학습데이터는 양성샘플과 음성샘플의 실측자료(Ground Truth)를 포함할 수 있다. 분류모델(100)은 학습데이터에 포함된 샘플을 기 정의된 적어도 둘 이상의 그룹(예를 들어, 예측 그룹과 이에 속하지 않는 그룹) 중 어느 그룹에 가까운지를 나타내는 예측값을 출력한다. 예를 들어, 분류모델(100)은 도 2와 같이 예측하고자 하는 그룹에 입력 샘플이 속할 확률을 0~1 사이의 예측값으로 출력할 수 있다. 즉, 의료영상에서 암을 예측하는 분류모델(100)인 경우에, 분류모델(100)은 암 확률을 예측값으로 출력하고, 부도율을 예측하는 분류모델인 경우에, 분류모델은 부도율을 예측값으로 출력할 수 있다.

분류모델(100)은 CNN(Convolutional Neural Network), DenseNet, U-net, Goolenet 등 다양한 아키텍처로 구현될 수 있다. 분류모델(100)은 양성샘플에 대한 예측값과 음성샘플에 대한 예측값을 이용하여 다양한 파라미터 등을 조정하는 학습 과정을 수행한다. 예를 들어, 분류모델(100)이 CNN 아키텍처로 구현된 경우에, 분류모델(100)은 학습데이터와 예측값을 이용하여 인공신경망(artificial network)의 연결 가중치를 조정하는 학습 과정을 수행할 수 있다.

양성샘플과 음성샘플의 불균형 상황에서 분류모델(100)을 학습시키는 경우에 분류모델(100)의 성능이 저하되는 문제점이 존재한다. 본 실시 예는 이러한 문제점을 종래의 언더샘플링 또는 오버샘플링 등의 전처리 과정 없이 다단계 분류모델을 통해 해결하는 방법을 제시한다.

도 2는 본 발명의 실시 예에 적용되는 분류모델의 학습데이터와 예측값의 일 예를 도시한 도면이다.

도 2를 참조하면, 분류모델(100)은 학습데이터(210)에 포함된 양성샘플(240)과 음성샘플(230)을 입력받으면 예측값(220)을 출력한다. 본 실시 예는 설명의 편의를 위하여 분류모델(100)이 0~1 사이의 예측값(220)을 출력하는 경우를 가정한다. 예측값(220)이 1이면 입력 샘플은 예측하고자 하는 그룹에 반드시 속하는 것을 의미하고, 예측값이 0이면, 입력 샘플은 예측하고자 하는 그룹에 속하지 않는 것을 의미한다. 0과 1사이의 예측값은 입력 샘플이 예측하고자 하는 그룹에 속할 확률을 의미할 수 있다. 예를 들어, 학습데이터(210)가 금융 통계정보이고, 예측값(220)이 부도율을 나타내는 경우에, 예측값(220)이 1이면 부도 가능성이 100%임을 의미하고, 예측값(220)이 0이면 부도 가능성이 0%임을 의미한다.

본 실시 예는 양성샘플(240)과 음성샘플(230)의 비율이 서로 맞지 않는 불균형 문제를 해결할 수 있는 방법을 제시한다. 그러나 본 실시 예는 불균형 문제가 존재하는 분야에만 적용되는 것은 아니며 불균형 문제가 존재하지 않는 일반적인 분야에도 적용할 수 있다.

도 3은 본 발명의 실시 예에 따른 다단계 분류모델의 일 예를 도시한 도면이다.

도 3을 참조하면, 데이터 불균형 문제를 해소하기 위한 다단계 분류모델(300)이 도시되어 있다. 다단계 분류모델(300)은 적어도 둘 이상의 분류모델(310,320,330)이 순차적으로 연결 배치된 구조이다. 각 분류모델(310,320,330)은 동일한 아키텍처 또는 서로 다른 아키텍처로 구성될 수 있다. 예를 들어, 제1 분류모델(310)은 CNN 아키텍처로 구현되고, 제2 분류모델(320)은 DenseNET으로 구현되는 등 다단계 분류모델(300)에 포함된 분류모델(310,320,330)의 전체 또는 일부는 서로 다른 머신러닝 모델로 구현될 수 있다.

다단계 분류모델(300)에 포함된 전체 또는 일부의 분류모델(310,320,330)의 아키텍처가 서로 다른 경우에, 각 분류모델(310,320,330)의 배치 순서는 사용자에 의해 지정되거나 임의로 배치될 수 있다. 예를 들어, DenseNET 아키텍처로 구현된 분류모델이 제1 분류모델(310)이 되고 CNN으로 구현된 분류모델이 제2 분류모델(320)이 되거나, 그 반대의 순서로 배치될 수 있다. 또 다른 예로, 다단계 분류모델(300)에 속한 각 분류모델(310,320,330)의 배치순서를 다양하게 변형한 후 최적의 성능을 나타내는 배치순서의 다단계 분류모델을 선택할 수 있다.

도 4는 본 발명의 실시 예에 따른 데이터 불균형 문제를 해소하는 방법의 개념을 도시한 도면이다.

도 3 및 도 4를 함께 참조하면, 본 실시 예는 학습데이터의 일부를 전처리 과정에서 미리 제외하거나 임의로 생성하지 않고 불균형 상태의 학습데이터를 다단계 분류모델(300)에 그대로 입력한다. 다만, 도 3에서 살핀 다단계 분류모델(300)에서 각 단계의 분류모델(310,320,330)을 거칠 때마다 음성샘플의 일정량이 제거된다.

예를 들어, 음성샘플(400)과 양성샘플(450)의 비율이 맞지 않는 제1 학습데이터(460)가 존재한다. 제1 학습데이터(460)는 분류모델의 적용 분야에서 수집한 데이터로서, 언더샘플링이나 오버샘플링 등의 전처리 과정이 적용되지 않는 데이터이다. 즉, 제1 학습데이터(460)는 정보의 손실이나 왜곡이 발생하지 않은 데이터 그 자체이다.

제1 학습데이터(460)는 다단계 분류모델(300)의 제1 분류모델(310)의 학습데이터로 입력되는 데이터이다. 제2 학습데이터(470)는 제2 분류모델(320)의 학습데이터로 입력되는 데이터로서, 제1 학습데이터(460)에서 불균형 상태에 존재하는 음성샘플(400)의 일부를 제외한 데이터이다. 제3 학습데이터(480)는 제3 분류모델의 학습데이터로 입력되는 데이터로서, 제2 학습데이터(470)에서 음성샘플(410)의 일부를 제외한 데이터이다.

이와 같은 방법으로, 제N(2 이상의 자연수) 분류모델의 학습데이터는 제(N-1) 학습데이터에서 음성샘플의 일부를 제외한 데이터가 된다. 본 실시 예는 설명의 편의를 위하여 제3 학습데이터(480)까지 도시하고 있으나, 다단계 분류모델(300)이 두 개의 분류모델(310,320)로 구성되는 경우에는 제2 학습데이터까지만 생성되면 된다.

다단계 분류모델(300)에서 각 단계를 지날 때마다 음성샘플(400,410,420)과 양성샘플(450)의 불균형 비율이 조정된다. 종래의 언더샘플링은 분류모델을 학습시키기 위한 학습데이터의 일부를 미리 제거한 후 분류모델에 입력하므로 정보의 손실이 발생한다. 그러나 본 실시 예는 불균형 상태의 제1 학습데이터(460)를 그대로 제1 분류모델(310)에 입력하므로 정보의 손실이 발생하지 않는다. 또한, 각 단계를 위한 학습데이터 생성을 위해 음성샘플(400,410,20)의 일부를 제외할 때 임의로 제외하는 것이 아니라 도 5에서 살피는 바와 같이 정보의 왜곡이 발생하지 않도록 예측값을 기준으로 일부의 음성샘플을 제외한다.

각 분류모델(310,320,330)은 각각 생성된 학습데이터(460,470,480)를 이용하여 학습한다. 예를 들어, 다단계 분류모델(300)이 N 개의 분류모델(310,320,330)로 구성된 경우에, 제1 분류모델(310)은 제1 학습데이터(360)를 이용하여 학습하고, 제2 분류모델(320)은 제2 학습데이터(470)를 이용하여 학습하고, 제N 분류모델(330)은 제N 학습데이터를 이용하여 학습한다.

도 5는 본 발명의 실시 예에 따른 각 단계별 학습데이터를 생성하는 방법의 일 예를 도시한 도면이다.

도 5를 참조하면, 각 분류모델(310,320,330)은 도 2에서 살핀 바와 같이 양성샘플과 음성샘플로 이루어진 학습데이터(210)를 입력받으면 각 샘플에 대한 예측값(220)을 출력한다. 도 2와 같이 각 분류모델의 예측값의 범위가 0~1 사이인 경우에, 각 샘플은 도 5와 같이 예측값을 기준으로 정렬(500)된다. 그리고 예측값(220)이 가장 작은 양성샘플(510)을 기준으로 그 이하의 음성샘플을 제거하여 그 다음 단계를 위한 학습데이터를 생성한다.

본 실시 예는 예측값을 기준으로 가장 작은 양성샘플(510)을 음성샘플 제거를 위한 기준으로 제시하고 있으나, 반드시 이에 한정되는 것은 아니다. 예를 들어, 사용자가 일부 음성샘플 제거를 위한 각 단계별 예측값의 기준(예를 들어, 0.5 등)을 미리 정의할 수 있다. 즉, 제2 학습데이터(470) 생성을 위한 제거 기준으로 0.1, 제3 학습데이터(480) 생성을 위한 제거 기준으로 0.2의 예측값 기준값을 미리 정의할 수 있다. 다른 실시 예로 각 단계별 예측값의 기준을 모두 동일하게 설정할 수 있다. 또 다른 예로, 일부 음성샘플 제거를 위한 기준은 예측값 순으로 정렬했을 때 하위 10% 등과 같이 일정 비율로 미리 정의될 수 있다.

도 6은 본 발명의 실시 예에 따른 다단계 분류모델의 단계 수를 결정하는 방법의 일 예를 도시한 도면이다.

도 6을 참조하면, 다단계 분류모델은 N 단계의 분류모델(310,320,330)로 구성될 수 있다. 다단계 분류모델에 포함되는 분류모델의 단계 수는 미리 고정될 수 있으나, 본 실시 예는 학습 분야에 따라 분류모델의 단계 수를 적응적으로 변경하는 예를 도시하고 있다.

분류모델의 단계 수를 적응적으로 결정하기 위하여, 먼저 다단계 분류모델 생성장치(이하, 장치)는 각 단계의 분류모델(310,320,330)에 대한 손실함수 값을 산출한다. 장치는 손실함수 크기가 기 정의된 임계값보다 작아지면 그 단계까지의 분류모델을 포함하는 다단계 분류모델을 정의할 수 있다. 예를 들어, 제1 분류모델부터 제N-1 분류모델까지의 각 손실함수 값이 임계값보다 크고, 제N 분류모델(330)의 손실함수 값이 임계값보다 작으면, 다단계 분류모델은 제1 분류모델(310)부터 제N 분류모델(330)을 포함하는 N 단계로 구성된다.

손실함수의 일 예로 MSE(Mean Squared Error), CEE(Cross Entropy Error) 등이 존재한다. 본 실시 예는, 손실함수의 용어에 한정되지 아니하며, 각 분류모델(310,320,330)의 성능을 평가할 수 있는 종래의 다양한 방법이 손실함수를 대신하여 사용될 수 있다.

도 7은 본 발명의 실시 예에 따른 다단계 분류모델 생성 방법의 일 예를 도시한 흐름도이다.

도 7을 참조하면, 다단계 분류모델 생성장치(이하, '장치')는 복수 개의 분류모델을 순차적으로 연결 배치한다(S700). 다단계 분류모델에 속한 분류모델의 단계 수가 고정된 경우이면, 장치는 고정된 단계 수만큼의 분류모델을 배치한다. 반면, 다단계 분류모델에 속한 분류모델의 단계 수가 가변적이면, 장치는 일반적인 다단계 분류모델에 속한 단계 수보다 훨씬 많은 복수 개의 분류모델을 연결 배치할 수 있다.

장치는 언더샘플링 또는 오버샘플링 등의 과정 없이 불균형 상태인 제1 학습데이터를 다단계 분류모델의 제1 분류모델에 그대로 입력할 수 있다(S710). 제1 분류모델은 제1 학습데이터를 이용하여 학습한다. 장치는 제1 분류모델의 손실함수 값을 산출하고(S720), 손실함수 값이 기 정의된 임계값을 초과하면(S730), 제1 분류모델의 예측값을 기준으로 제2 분류모델을 위한 제2 학습데이터를 생성한다(S740). 예를 들어, 장치는 도 4 및 도 5에서 살핀 바와 같이 제1 학습데이터에서 음성샘플의 일부를 제외한 제2 학습데이터를 생성한다.

장치는 제2 학습데이터를 제2 분류모델에 입력하고(S710), 손실함수값을 산출하고(S720), 손실함수 값이 임계값 이하인지 파악하는 과정을 다시 수행한다(S730). 장치는 손실함수 값이 임계값 이하가 될 때까지 제N 학습데이터를 생성하고 제N 분류모델에 입력하는 과정을 반복 수행한다.

제N 분류모델의 손실함수 값이 임계값 이하이면(S730), 장치는 제1 분류모델부터 제N 분류모델까지를 포함하는 다단계 분류모델을 정의한다(S750). 즉, M(M>N) 단계의 분류모델이 연결 배치된 경우에, 장치는 손실함수값을 이용하여 제(N+1) 분류모델부터 제M 분류모델을 제외한 제1~N 분류모델로 구성된 다단계 분류모델을 생성한다.

도 8은 본 발명의 실시 예에 따른 다단계 분류모델을 이용한 분류 과정을 도시한 도면이다.

도 8을 참조하면, 각 단계의 학습데이터를 이용하여 학습된 다단계 분류모델이 생성되면, 다단계 분류모델 생성장치(이하, '장치')는 다단계 분류모델을 이용하여 입력 샘플을 분류할 수 있다. 예를 들어, 다단계 분류모델이 부도 예측 모델이거나 암 예측 모델이라면, 장치는 다단계 분류모델을 이용하여 금융 통계 정보 또는 의료영상의 샘플을 입력받으면, 부도율 또는 암 가능 확률 등의 분류결과를 최종적으로 출력할 수 있다.

예를 들어, 다단계 분류모델에 속한 각 분류모델이 예측 대상에 대한 예측값으로 도 2와 같이 0~1 사이의 값을 출력하는 모델인 경우에, 제1 분류모델(310)의 예측값이 0이면, 장치는 샘플이 예측 대상 그룹에 속하지 않는다고 판단하고 더 이상의 분류과정을 종료한다. 본 실시 예는 단계의 추가 진행 여부를 판단하는 기준으로 예측값이 0인 경우를 도시하고 있으나, 반드시 이에 한정되는 것은 아니며 분류과정 종료를 위한 예측값은 실시 예에 따라 다양하게 설정될 수 있다. 예를 들어, 예측값이 0~0.1 사이이면 분류 단계를 종료하도록 설정할 수 있다. 또 다른 예로, 각 단계별 분류과정 종료를 위한 예측값의 범위를 서로 다르게 할 수 있다. 다만, 본 실시 예는 설명의 편의를 위하여 각 단계의 종료를 위한 예측값의 기준을 0이라고 정의한다.

제1 분류모델(310)의 예측값이 0이 아니면, 장치는 샘플을 그 다음 단계인 제2 분류모델(320)에 입력한다. 제2 분류모델(320)의 예측값이 0이면, 장치는 분류 과정을 종료하고 해당 샘플이 예측 대상 그룹에 속하지 않는다고 판단한다. 반면, 제2 분류모델(320)의 예측값이 0이 아니면, 장치는 샘플을 그 다음 단계인 제3 분류모델에 입력한다. 이와 같은 방법으로, 장치는 제N 분류모델(330)까지 분류 과정을 수행한다.

도 9를 참조하면, 다단계 분류모델 생성장치(이하, '장치')는 모델배치부(910), 데이터관리부(920), 반복수행부(930), 모델정의부(940) 및 분류부(950)를 포함한다. 장치는 프로세서, 메모리, 입출력장치, 유선 또는 무선 통신모듈 등을 포함하는 컴퓨팅 장치로 구현될 수 있다. 여기서 컴퓨팅 장치는 일반 컴퓨터나 서버뿐만 아니라 가상머신, 클라우드 시스템 등 다양한 형태일 수 있다. 예를 들어, 본 실시 예의 각 구성은 소프트웨어 모듈로 구현되고, 컴퓨팅 장치는 각 소프트웨어 모듈을 메모리에 로딩한 후 프로세서를 통해 이를 수행할 수 있다.

모델배치부(910)는 적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치한다.

데이터관리부(920)는 제N(N은 1 이상의 자연수) 분류모델에 제N 학습데이터를 입력하고, 제N 분류모델로부터 출력된 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 일정량의 샘플을 배제 또는 추출하여 제(N+1) 학습데이터를 생성한다. 예를 들어, 데이터관리부(920)는 복수 개의 양성샘플의 예측값 중 최하값보다 작은 예측값을 가진 음성샘플을 제N 학습데이터에서 제외하여 제(N+1) 학습데이터를 생성할 수 있다. 학습데이터의 생성 방법의 일 예가 도 4 및 도 5에 도시되어 있다.

반복수행부(930)는 제N 분류모델의 손실함수의 크기가 일정 이하가 될 때까지 데이터관리부(920)가 생성한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행한다.

모델정의부(940)는 제N 분류모델의 손실함수의 크기가 일정 이하가 되면, 복수 개의 분류모델 중 제1 분류모델 내지 상기 제N 분류모델를 포함하는 다단계 분류모델을 정의한다. 제N 단계로 구성된 다단계 분류모델의 일 예가 도 6에 도시되어 있다.

분류부(950)는 적어도 하나 이상의 샘플을 포함하는 입력데이터를 상기 다단계 분류모델을 이용하여 분류한다. 샘플의 분류방법의 일 예가 도 8에 도시되어 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하는 단계;

제1 학습데이터를 상기 복수 개의 분류모델 중 제일 앞에 위치한 제1 분류모델에 입력하는 단계;

상기 제1 분류모델로부터 출력된 상기 제1 학습데이터의 각 샘플에 대한 예측값을 기준으로, 상기 제1 학습데이터에서 일정량의 샘플을 제외한 제2 학습데이터를 제2 분류모델에 입력하는 단계; 및

제N(N은 2 이상의 자연수) 분류모델의 손실함수의 크기가 일정 이하가 될 때까지, 제N 분류모델로부터 출력된 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 제N 학습데이터에서 일정량의 샘플을 제외한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행하는 단계;를 포함하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
제 1항에 있어서,

상기 학습데이터는 예측하고자 하는 그룹에 속하는 복수 개의 양성샘플과 그 나머지 그룹에 속하는 복수 개의 음성샘플을 포함하고, 상기 음성샘플의 비율이 50% 초과인 것을 특징으로 하는 다단계 분류모델 생성 방법.
제 2항에 있어서, 상기 제2 학습데이터를 제2 분류모델에 입력하는 단계는,

상기 복수 개의 양성샘플의 예측값 중 최하값보다 작은 예측값을 가진 음성샘플을 상기 제1 학습데이터에서 제외하여 상기 제2 학습데이터를 생성하는 단계;를 포함하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
제 1항에 있어서,

상기 복수 개의 분류모델은 서로 다른 머신러닝 모델인 것을 특징으로 하는 다단계 분류모델 생성 방법.
제 1항에 있어서,

상기 제1 분류모델은 상기 제1 학습데이터를 이용하여 학습하고,

상기 제2 분류모델은 상기 제2 학습데이터를 이용하여 학습하고,

상기 제N 분류모델은 상기 제N 학습데이터를 이용하여 학습하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
제 1항에 있어서,

상기 복수 개의 분류모델은 적어도 둘 이상의 그룹 중 예측 대상 그룹에 속할 확률을 예측값으로 출력하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
제 1항에 있어서,

상기 제N 분류모델의 손실함수의 크기가 일정 이하가 되면, 상기 복수 개의 분류모델 중 상기 제1 분류모델 내지 상기 제N 분류모델을 포함하는 다단계 분류모델을 정의하는 단계; 및

적어도 하나 이상의 샘플을 포함하는 입력데이터를 상기 다단계 분류모델을 이용하여 분류하는 단계;를 더 포함하는 것을 특징으로 하는 다단계 분류모델 생성 방법.
적어도 둘 이상의 그룹 중 입력된 샘플이 어느 그룹에 가까운지를 나타내는 예측값을 출력하는 복수 개의 분류모델을 순차적으로 연결 배치하는 모델배치부;

제N(N은 1 이상의 자연수) 분류모델에 제N 학습데이터를 입력하고, 상기 제N 분류모델로부터 출력된 상기 제N 학습데이터의 각 샘플에 대한 예측값을 기준으로 일정량의 샘플을 추출하여 제(N+1) 학습데이터를 생성하는 데이터관리부; 및

상기 제N 분류모델의 손실함수의 크기가 일정 이하가 될 때까지 상기 데이터관리부가 생성한 제(N+1) 학습데이터를 제(N+1) 분류모델에 입력하는 과정을 반복 수행하는 반복수행부;를 포함하는 것을 특징으로 하는 다단계 분류모델 생성장치.
제 8항에 있어서, 상기 데이터관리부는,

복수 개의 양성샘플의 예측값 중 최하값보다 작은 예측값을 가진 음성샘플을 상기 제N 학습데이터에서 제외하여 상기 제(N+1) 학습데이터를 생성하는 것을 특징으로 하는 다단계 분류모델 생성장치.
제 8항에 있어서,

제N 분류모델은 제N 학습데이터를 이용하여 학습하는 것을 특징으로 하는 다단계 분류모델 생성장치.
제 8항에 있어서,

상기 제N 분류모델의 손실함수의 크기가 일정 이하가 되면, 상기 복수 개의 분류모델 중 상기 제1 분류모델 내지 상기 제N 분류모델를 포함하는 다단계 분류모델을 정의하는 모델정의부;를 더 포함하고,

적어도 하나 이상의 샘플을 포함하는 입력데이터를 상기 다단계 분류모델을 이용하여 분류하는 분류부;를 더 포함하는 것을 특징으로 하는 다단계 분류모델 생성장치.
제 1항 내지 제 7항 중 어느 한 항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.