WO2023063486A1

WO2023063486A1 - 기계학습모델의 생성 방법 및 그 장치

Info

Publication number: WO2023063486A1
Application number: PCT/KR2021/017809
Authority: WO
Inventors: 최유리; 피에 로말리자장
Original assignee: 주식회사 솔리드웨어
Priority date: 2021-10-15
Filing date: 2021-11-30
Publication date: 2023-04-20
Also published as: KR20230054167A

Abstract

기계학습모델의 생성방법 및 그 장치가 개시된다. 모델생성장치는 복수 개의 데이터샘플을 복수의 군집으로 군집화하고, 각 군집의 대표 데이터샘플을 탐색하고, 대표 데이터샘플에 대한 라벨 또는 점수를 입력받은 후, 라벨 또는 점수가 부여된 데이터샘플을 이용한 준지도학습으로 기계학습모델을 훈련시킨다.

Description

기계학습모델의 생성 방법 및 그 장치

본 발명의 실시 예는 기계학습모델(machine learning model)을 생성하는 방법 및 그 장치에 관한 것으로, 보다 상세하게는 라벨이 부여되지 않은 데이터를 이용하여 기계학습모델을 생성하는 방법 및 그 장치에 관한 것이다.

대부분의 기계학습은 지도학습(supervised learning) 영역에서 이루어지고 있다. 지도학습의 훈련을 위해서는 학습데이터에 타겟 변수(즉, 목적 변수)가 필요하다. 그러나 대부분의 기존 데이터에는 타겟 변수가 존재하지 않는다. 즉, 대부분의 데이터는 레이블링(labeling)이 되지 않은 상태이므로 지도학습을 위해서는 레이블링을 위한 복잡합 데이터 처리 과정이 필요하다.

비지도학습(unsupervised learning)은 데이터 구조의 시각화 및 이해를 위해 사용될 수 있다. 비지도학습은 타겟 변수가 필요없는 장점이 있다. 그러나 타겟 변수가 없으므로, 데이터 사이언티스트(data scientist) 또는 도메인 전문가에 따라 동일한 데이터셋에 대해 매우 다른 군집화(clustering) 결과가 얻어질 수 있다. 예를 들어, 군집(cluster)개수, 데이터샘플을 비교하기 위한 거리 척도, 군집화 결과 평가를 위한 기준, 군집화 결과의 해석 등의 주요 파라미터에 사용자의 영향이 미칠 수 있다.

비지도학습을 지도학습의 피쳐(feature) 엔지니어링에 사용하는 몇 가지 접근 방식이 존재한다. 이러한 접근 방법은 군집 라벨(cluster label)이 동일한 데이터샘플이 지도학습모델의 목표(타겟) 값과 유사한 관계를 갖는다고 가정하므로, 비지도학습과 마찬가지로 군집 및 기타 모수의 수를 식별하기 어려운 경우가 많다.

준지도학습(semi-supervised learning)은 부분적으로 라벨이 지정된 샘플이 있는 데이터셋을 대상으로 훈련하여 회귀 분석 또는 분류 모형을 만드는데 활용된다. 준지도학습은 라벨이 지정된 샘플의 수가 지도학습에 비해 훨씬 적다. 따라서 이러한 데이터셋에 전통적인 지도학습 접근방식을 적용하면 입력변수와 목표변수 사이의 신뢰성 있는 관계(회귀 문제)를 발견하거나 군집(또는 클래스) 간의 좋은 의사결정경계(분류 문제)를 찾기가 매우 어렵다.

본 발명의 실시 예가 이루고자 하는 기술적 과제는, 레이블링이 되지 않은 데이터와 사용자로부터 얻은 제한된 정보를 기반으로 사용자가 목표로 하는 회귀분석 또는 분류를 수행할 수 있는 기계학습모델(Machine Learning Model)을 생성하는 방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 기계학습모델 생성 방법의 일 예는, 복수 개의 데이터샘플을 복수의 군집으로 군집화하는 단계; 각 군집의 대표 데이터샘플을 탐색하는 단계; 대표 데이터샘플에 대한 라벨 또는 점수를 입력받는 단계; 및 라벨 또는 점수가 부여된 데이터샘플을 이용한 준지도학습으로 기계학습모델을 훈련시키는 단계;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명의 실시 예에 따른 모델생성장치의 일 예는, 복수 개의 데이터샘플을 복수의 군집으로 분류하는 군집화부; 각 군집의 대표 데이터샘플을 탐색하는 샘플탐색부; 대표 데이터샘플에 대한 라벨 또는 점수를 입력받는 레이블링부; 및 라벨 또는 점수가 부여된 데이터샘플을 이용한 준지도학습으로 기계학습모델을 훈련시키는 학습부;를 포함한다.

본 발명의 실시 예에 따르면, 레이블링이 되지 않은 데이터와 사용자로부터 얻은 제한된 정보를 기반으로 사용자가 목표로 하는 회귀분석 또는 분류를 높은 수준의 정확성으로 수행할 수 있는 기계학습모델을 생성할 수 있다.

도 1은 본 발명의 실시 예에 따른 모델생성장치의 일 예의 구성을 간략히 도시한 도면,

도 2는 본 발명의 실시 예에 따른 기계학습모델의 생성방법의 일 예를 도시한 흐름도,

도 3은 본 발명의 실시 예에 따른 군집화의 일 예를 도시한 도면,

도 4 및 도 5는 본 발명의 실시 예에 따른 대표 데이터샘플을 탐색하는 방법의 일 예를 도시한 도면,

도 6은 본 발명의 실시 예에 따른 준지도학습 방법의 일 예를 도시한 도면,

도 7은 본 발명의 실시 예에 따른 준지도학습 방법의 다른 일 예를 도시한 도면,

도 8은 본 발명의 실시 예에 따른 준지도학습의 지도학습모델을 평가하는 방법의 일 예를 도시한 도면, 그리고,

도 9는 본 발명의 실시 예에 따른 모델생성장치의 일 예의 구성을 도시한 도면이다

이하에서, 첨부된 도면들을 참조하여 본 발명의 실시 예에 따른 기계학습모델 생성 방법 및 그 장치에 대해 상세히 살펴본다.

도 1은 본 발명의 실시 예에 따른 모델생성장치의 일 예의 구성을 간략히 도시한 도면이다.

도 1을 참조하면, 모델생성장치(100)는 레이블링이 되지 않은 데이터셋(110)을 이용하여 기계학습모델(120)을 훈련시켜 생성한다. 기계학습모델(120)은 사용자가 원하는 회귀분석모델 또는 분류모델일 수 있다. 타겟 변수에 대한 값이 존재하지 않는 데이터셋(110)(즉, 레이블링이 되지 않은 데이터셋)은, 일반적으로 비지도학습을 적용한다. 그러나 비지도학습으로 훈련시킨 모델의 정확성이 떨어지는 문제점이 존재하므로, 본 실시 예는 레이블링이 되지 않은 데이터셋(110)과 사용자로부터 제공받은 최소한의 정보를 기반으로 준지도학습을 통해 기계학습모델(120)을 훈련시켜 생성하는 방법을 제시한다. 이에 대해서는 도 2 이하에서 구체적으로 살펴본다.

도 2는 본 발명의 실시 예에 따른 기계학습모델의 생성방법의 일 예를 도시한 흐름도이다.

도 1 및 도 2를 함께 참조하면, 모델생성장치(100)는 데이터셋(110)을 구성하는 복수 개의 데이터샘플을 복수의 군집으로 군집화한다(S200). 여기서 데이터샘플은 복수의 변수에 대한 변수값으로 구성된 데이터일 수 있다. 모델생성장치(100)는 다양한 비지도학습모델(예를 들어, k-means 등)을 군집화를 수행할 수 있으며 이에 대한 예가 도 3에 도시되어 있다.

모델생성장치(100)는 복수의 군집에 대한 대표 데이터샘플을 탐색한다(S210). 대표 데이터샘플은 복수의 군집의 특성을 가장 잘 반영할 수 있는 데이터샘플을 의미하며, 일 예로, 모델생성장치(100)는 데이터 밀도를 기반으로 각 군집에 대한 대표 데이터샘플을 탐색할 수 있다. 대표 데이터샘플을 탐색하는 구체적인 방법의 실시 예가 도 4 및 도 5에 도시되어 있다.

모델생성장치(100)는 대표 데이터샘플에 대한 라벨 또는 점수를 사용자로부터 입력받는다(S220). 예를 들어, 데이터를 N개의 군집으로 분류하는 기계학습모델(120)을 생성하고자 하는 경우에, 사용자는 N개의 군집 중 대표 데이터샘플이 어느 군집에 해당하는지 그 군집을 식별하는 라벨을 대표 데이터샘플에 부여할 수 있다. 또는 입력값과 출력값의 관계를 예측하는 회귀분석의 기계학습모델을 생성하고자 하는 경우에, 사용자는 대표 데이터샘플이 어떤 출력값에 해당할지 점수(예를 들어, 0~1 사이의 값)를 부여할 수 있다. 이 외에도 종래의 다양할 레이블링 방법이 존재하며 그에 따른 라벨 또는 점수의 부여방법이 본 실시 예에 적용될 수 있다.

모델생성장치(100)는 사용자가 대표 데이터샘플에 대한 라벨 또는 점수를 부여할 때 도움을 줄 수 있도록 대표 데이터샘플을 테이블이나, 각종 차트 또는 플롯 등을 이용하여 시각화하여 표시할 수 있다. 예를 들어, 모델생성장치(100)는 복수의 군집에 속한 복수의 데이터샘플을 데이터테이블, 평행좌표도 또는 프로젝션 플롯 등을 이용하여 표시할 때 대표 데이터샘플을 구분하여 함께 표시함으로써 사용자가 대표 데이터샘플이 해당 군집에 맞게 분류되었는지 여부를 용이하게 파악하고 라벨이나 점수를 부여할 수 있도록 한다.

모델생성장치(100)는 라벨 또는 점수가 부여된 데이터샘플을 이용하여 준지도학습 방법으로 기계학습모델(120)을 훈련시킨다(S230). 즉, 모델생성장치(100)는 대표 데이터샘플에 대해서만 라벨 또는 점수가 부여된 데이터셋을 이용하여 준지도학습을 수행한다. 모델생성장치(100)는 준지도학습의 정확성을 높이기 위하여 멀티뷰 학습(multi-view learning)을 이용한 준지도학습을 수행할 수 있으며 이에 대한 예가 도 6 내지 도 8에 도시되어 있다.

도 3은 본 발명의 실시 예에 따른 군집화의 일 예를 도시한 도면이다.

도 3을 참조하면, 모델생성장치(100)는 복수의 데이터샘플로 구성된 데이터셋(110)을 비지도학습모델(300)을 이용하여 복수의 군집(310)으로 분류할 수 있다. 군집(310)의 개수는 사용자 등에 의해 미리 설정되거나 자동으로 설정될 수 있다. 또 다른 예로, 모델생성장치(100)는 군집화에 사용자의 피드백을 반영하여 사용자가 원하는 복수의 군집을 만들 수 있다. 예를 들어, 특허출원번호 제10-2020-0163344호 "비지도학습에서의 사용자의도 반영 방법 및 그 장치"에 개시된 방법을 이용하여 복수의 군집을 생성할 수 있다.

도 4 및 도 5는 본 발명의 실시 예에 따른 대표 데이터샘플을 탐색하는 방법의 일 예를 도시한 도면이다.

도 4 및 도 5를 함께 참조하면, 모델생성장치(100)는 복수 개의 데이터샘플들에 대한 벡터 양자화를 수행하여 N개의 벡터를 탐색할 수 있다(S400). 예를 들어, 데이터샘플이 m개의 변수에 대한 변수값으로 구성된 경우에, 각각의 데이터샘플은 m차원의 벡터(즉, 특징벡터(feacture vector))로 표시될 수 있다. 데이터샘플의 각 변수값의 범위를 정규화하여 벡터로 표시할 수도 있으며, 이 외에도, 데이터샘플을 벡터로 표시하는 종래의 다양한 방법이 본 실시 예에 적용될 수 있다. 벡터 양자화는 K개의 특징벡터를 N(<k)개의 벡터로 사상(mapping)하는 과정이며, N개의 벡터의 수는 사용자에 의해 설정되거나 자동으로 설정될 수 있다. 예를 들어, 데이터셋에 존재하는 K개의 데이터샘플은 k개의 특징벡터로 표시되고, 벡터 양자화를 통해 K개의 특징벡터로부터 N개의 벡터를 탐색할 수 있다. 벡터 양자화 방법 그 자체는 데이터마이닝 분야에서 이미 널리 알려진 방법이므로 이에 대한 추가적인 설명은 생략한다.

모델생성장치(100)는 N개의 벡터가 탐색되면, 그 벡터를 기준으로 대표 데이터샘플을 선택한다(S410). 군집 간 거리가 군집 내 데이터샘플 사이의 거리보다 커야 한다는 가설을 가정하면, 데이터 포인트의 로컬 밀도가 높은 지점을 기준으로 대표 데이터샘플을 찾는 것이 바람직하다. 예를 들어, 모델생성장치(100)는 N개의 벡터와 가장 가까운 거리에 위치한 특징벡터를 파악하고, 그 특징벡터에 해당하는 데이터샘플을 대표 데이터샘플로 선택한다. 즉, N개의 벡터로부터 N개의 대표 데이터샘플이 추출될 수 있다.

모델생성장치(100)는 대표 데이터샘플에 대해 사용자로부터 라벨 또는 점수를 입력받는다(S420). 모델생성장치(100)는 사용자로부터 라벨 또는 점수를 입력받을 수 있는 사용자인터페이스를 제공할 수 있다. 예를 들어, 모델생성장치(100)는 프로젝션 플롯(projection plot) 등을 통해 데이터셋의 각 군집의 데이터샘플을 구분하여 표시하고, 또한 대표 데이터샘플을 구분하여 표시함으로써 사용자가 대표 데이터샘플에 적정 라벨이나 점수를 부여하는데 도움을 줄 수 있다.

다른 실시 예로, 모델생성장치(100)는 사용자로부터 라벨 또는 점수를 입력받을 때 신뢰도를 함께 입력받을 수 있다. 예를 들어, 모델생성장치(100)는 0.1과 1사이의 수치형 변수 형태(0.1: 낮은 신뢰도, 1: 높은 신뢰도), 고유값을 갖는 명목 변수 형태(예를 들어, low, medium, high 등), 퍼지 집합 형태(예를 들어, low, medium, high 등) 등 다양한 형태로 신뢰도를 입력받을 수 있다.

모델생성장치(100)는 기 정의된 정지조건에 해당하면 대표 데이터샘플을 탐색하는 과정을 종료하고, 그렇지 않으면 대표 데이터샘플을 탐색하는 과정을 반복한다(S430).

모델생성장치(100)는 대표 데이터샘플의 탐색 과정을 반복하는 경우에 데이터셋을 그대로 이용하는 것이 아니라 데이터셋에서 대표 데이터샘플과 그 주변의 데이터샘플을 제거하여 이용한다(S440). 예를 들어, 모델생성장치(100)는 대표 데이터샘플과 가까운 거리 순으로 적어도 하나 이상의 주변 데이터샘플을 제거할 수 있다. 이때 가까운 거리 여부는 데이터샘플의 특징 벡터 사이의 거리(예를 들어, 유클리드 거리(Euclidean distance))를 이용하여 파악할 수 있다. 대표 데이터샘플 및 그 주변 데이터샘플을 제거함으로써 대표 데이터샘플의 반복 수행시에 동일 대표 데이터샘플이 다시 탐색되는 것을 방지할 수 있다.

모델생성장치(100)는 대표 데이터샘플과 그 주변 데이터샘플을 제거하고 남은 데이터샘플들을 대상으로 다시 N개의 벡터를 탐색하는 과정(S400~S420)을 정지조건을 만족할 때까지 반복한다.

대표 데이터샘플의 탐색 과정의 종료 여부를 결정하는 정지조건은 실시 예에 따른 다양하게 설정될 수 있다. 예를 들어, 정지조건은 각 군집에 대하여 적어도 하나 이상의 대표 데이터샘플이 선택된 경우일 수 있다. 도 3과 같이 N개의 군집이 존재하는 경우에, 모델생성장치(100)는 대표 데이터샘플의 첫 번째 탐색 과정을 수행하고 전체 N개의 군집에 대한 대표 데이터샘플이 모두 탐색되었는지 파악한다. 예를 들어, 군집4,6,9에 대표 데이터샘플이 탐색되지 않았다면, 모델생성장치(100)는 대표 데이터샘플의 두 번째 탐색 과정을 수행하고, 그 결과 이전에 탐색되지 않은 군집4,6,9에 대한 대표 데이터샘플이 모두 탐색되었는지 파악한다. 군집4,6,9에 대한 대표 데이터샘플이 모두 탐색되었다면, 모델생성장치(100)는 대표 데이터샘플의 탐색 과정은 종료하며, 그렇지 않으면 대표 데이터샘플의 탐색 과정을 다시 반복 수행한다.

정지조건의 또 다른 예로 대표 데이터샘플의 개수가 기 정의된 개수 이상인 경우, 기 정의된 라벨 집합(즉, 사용자가 분류하고자 하는 군집의 각 라벨)의 라벨이 각각 적어도 하나 이상의 데이터샘플에 부여된 경우, 기 정의된 점수(즉, 회귀분석모델에서 예측값의 범위)의 최소값 및 최대값이 각각 적어도 하나 이상의 데이터샘플에 부여된 경우, 또는 사용자로부터 중지 요청을 받은 경우 등이 있다. 이 외에도 실시 예에 따라 다양한 정지조건이 설정될 수 있다.

도 6은 본 발명의 실시 예에 따른 준지도학습 방법의 일 예를 도시한 도면이다.

도 6을 참조하면, 모델생성장치(100)는 데이터셋의 일부 데이터샘플에만 라벨 또는 점수가 부여된 상태에서 준지도학습을 이용하여 기계학습모델(120)을 학습시킨다. 준지도학습의 정확성을 높이기 위하여, 본 실시 예는 복수 개의 지도학습모델(600)(즉, 머신러닝 알고리즘)을 이용한다.

먼저, 모델생성장치(100)는 라벨 또는 점수가 부여된 데이터샘플을 이용하여 복수의 지도학습모델(600)을 훈련시킨다. 그리고 모델생성장치(100)는 레이블링이 되지 않은 데이터샘플(610)을 훈련된 복수의 지도학습모델(600)에 입력하여 라벨 또는 점수를 예측한다.

모델생성장치(100)는 복수의 지도학습모델(600)이 예측한 라벨 또는 점수의 합의를 통해 결정한 라벨 또는 점수를 데이터샘플에 부여(620)한다. 예를 들어, 5개의 지도학습모델이 존재한다고 가정한다. 이 경우에 제1 데이터샘플에 대해 제1,2,5 지도학습모델은 라벨A를 출력하고, 제3,4 지도학습모델은 라벨B를 출력하였다면, 모델생성장치는 다수결에 따라 제1 데이터샘플에 대하여 라벨A를 부여한다. 이 외에도, 각 지도학습모델의 예측 신뢰도를 반영하는 등 데이터샘플에 부여할 라벨 또는 점수를 결정하는 다양한 방법이 본 실시 예에 적용될 수 있다. 예를 들어, 제1,2,5 지도학습모델의 예측 신뢰도의 평균과 제3,4 지도학습모델의 예측 신뢰도의 평균을 비교하여 더 높은 쪽의 라벨을 데이터샘플에 부여하는 등 다양한 방법의 적용이 가능하다.

모델생성장치(100)는 새롭게 라벨이 부여된 데이터샘플을 이용하여 복수의 지도학습모델을 다시 훈련시킨 후 제2 데이터샘플에 대한 복수의 지도학습모델이 예측한 라벨의 합의를 통해 제2 데이터샘플에 라벨을 부여하는 과정을 반복수행한다. 이와 같은 방법으로 모든 데이터샘플에 대하여 라벨 부여가 완료되면 모델생성장치(100)는 레이블링이 완료된 데이터셋을 이용하여 기계학습모델을 지도학습방법으로 훈련시켜 생성할 수 있다.

모델생성장치(100)는 복수의 지도학습모델(600)이 보다 정확한 라벨 또는 점수를 예측할 수 있도록 반복 학습과정시마다 각 지도학습모델을 평가하고 평가점수가 낮은 지도학습모델의 하이퍼파라미터를 조정하는 과정을 수행할 수 있다. 이에 대해서는 도 7에서 다시 살펴본다.

도 7은 본 발명의 실시 예에 따른 준지도학습 방법의 다른 일 예를 도시한 도면이다.

도 6 및 7을 함께 참조하면, 모델생성장치(100)는 라벨 또는 점수가 부여된 데이터샘플을 이용하여 복수의 지도학습모델(600)을 훈련시킨다(S700). 모델생성장치(100)는 라벨 또는 점수가 부여되지 않은 데이터샘플(610)에 대한 복수의 지도학습모델의 예측 결과를 기반으로 데이터샘플에 부여할 라벨 또는 점수를 파악한다(S710).

모델생성장치(100)는 각 지도학습모델(600)이 라벨 또는 점수를 예측할 때의 신뢰도값을 기준으로 지도학습모델을 평가한다(S720). 이를 위해, 지도학습모델은 예측값에 대한 신뢰도를 출력하는 모델일 수 있다. 예를 들어, 지도학습모델은 라벨이나 점수를 예측할 때 해당 라벨이나 점수의 예측확률(즉, 예측 신뢰도)을 함께 출력할 수 있으며, 그 예측확률을 본 실시 예의 신뢰도값으로 사용할 수 있다.

모델생성장치(100)는 지도학습모델의 평가를 위해 각 지도학습모델에 평가점수를 부여하고 갱신하는 과정을 수행할 수 있다. 예를 들어, 복수의 지도학습모델(600)에 대해 초기 평가점수로 '0'을 부여한다. 초기 평가점수는 실시 예에 따라 다양한 값으로 설정될 수 있다. 모델생성장치(100)는 복수의 지도학습모델(600)의 합의를 통해 데이터샘플(610)에 라벨 또는 점수를 부여하는 경우에 가장 높은 신뢰도값을 가진 지도학습모델의 평가점수를 증가하고 신되도값이 기 정의된 기준을 벗어나는 지도학습모델의 평가점수를 감소할 수 있다. 예를 들어, 데이터샘플(610)에 대해 제1,2,5 지도학습모델은 라벨A를 출력하고, 제3,4 지도학습모델은 라벨B를 출력하여, 데이터샘플(610)에 라벨A가 부여된 경우에, 모델생성장치(100)는 라벨A를 예측한 제1,2,5 지도학습모델 중 신뢰도 값이 가장 높은 지도학습모델의 평가점수를 '1' 증가할 수 있다. 다른 예로, 신뢰도값이 기 정의된 기준을 벗어하는 지도학습모델에는 '-1'(즉, '1' 감소)의 평가점수를 부여할 수 있다. 이와 같은 방법으로, 모델생성장치는 데이터샘플(610)에 라벨 또는 점수를 부여할 때마다 복수의 지도학습모델의 평가점수를 갱신할 수 있다.

모델생성장치(100)는 각 지도학습모델의 평가점수를 기반으로 지도학습모델의 하이퍼파라미터를 조정한다(S730). 예를 들어, 모델생성장치(100)는 평가점수가 기 정의된 기준값 이하가 되는 지도학습모델의 하이퍼파라미터(hyperparameter)를 조정한다. 조정할 하이퍼파라미터의 종류와 조정값의 범위 등은 미리 설정될 수 있다. 또 다른 예로, 모델생성장치(100)는 종래의 다양한 하이퍼파라미터의 최적화 방법을 적용하여 지도학습모델의 하이퍼파라미터를 최적화하는 과정을 수행하여 하이퍼파라미터를 조정할 수 있다.

모델생성장치(100)는 데이터샘플에 대한 라벨 또는 점수의 부여가 완료될 때까지 위 과정(S700~S730)을 반복 수행한다(S740).

도 8은 본 발명의 실시 예에 따른 준지도학습의 지도학습모델을 평가하는 방법의 일 예를 도시한 도면이다.

도 8을 참조하면, 준지도학습에 N개의 지도학습모델(800,802,804,806)이 사용된다. 복수의 지도학습모델(800,802,804,806)이 데이터샘플에 대한 라벨 또는 점수의 예측값을 출력할 때, 모델생성장치(100)는 각 지도학습모델의 예측 신뢰도를 이용하여 각 지도학습모델의 평가점수를 갱신한다.

예를 들어, 모델생성장치(100)는 예측 신뢰도가 가장 높은 제2 지도학습모델(802)의 평가점수를 증가하고 가장 낮은 제3 지도학습모델(804)의 평가점수를 감소할 수 있다. 이 외에도 예측 신뢰도를 기반으로 평가점수를 증가 또는 감소하는 다양한 방법이 본 실시 예에 적용될 수 있다.

다른 실시 예로, 모델생성장치(100)는 특수라벨 또는 특수점수가 부여된 데이터샘플을 이용하여 지도학습모델을 평가할 수 있다. 이를 위해, 모델생성장치(100)는 대표 데이터샘플에 대한 라벨 또는 점수를 사용자로부터 입력받을 때(도 4의 S420 참조), 라벨 또는 점수를 부여할 수 없음을 나타내는 특수라벨 또는 특수점수를 사용할 수 있다. 즉, 사용자는 대표 데이터샘플에 대하여 일반 라벨 또는 일반 점수를 부여하거나, 대표 데이터샘플의 라벨이나 점수를 구분하기 힘든 경우에는 '알 수 없음'을 나타내는 특수라벨이나 특수점수를 대표 데이터샘플에 부여할 수 있다.

모델생성장치(100)는 일반 라벨/점수와 함께 특수 라벨/점수가 부여된 데이터샘플을 이용하여 복수의 지도학습모델을 학습시킨다. 그 결과 복수의 지도학습모델이 예측한 값은 일반 라벨/점수이거나 특수 라벨/점수일 수 있다.

모델생성장치(100)는 데이터샘플에 대하여 특수 라벨/점수를 높은 신뢰도로 예측한 지도학습모델의 평가점수를 감소(즉, -1)할 수 있다.

도 9는 본 발명의 실시 예에 따른 모델생성장치의 일 예의 구성을 도시한 도면이다.

도 9를 참조하면, 모델생성장치(100)는 군집화부(900), 샘플탐색부(910), 레이블링부(920) 및 학습부9930)를 포함한다. 모델생성장치(100)는 메모리, 프로세서 및 입출력장치를 포함하는 컴퓨팅장치로 구현될 수 있다. 이 경우 각 구성은 소프트웨어로 구현되어 메모리에 탑재되고 프로세서에 의해 구동될 수 있다.

군집화부(900)는 복수 개의 데이터샘플을 복수의 군집으로 분류한다. 군집화부(900)의 군집화의 일 예가 도 3에 도시되어 있다.

샘플탐색부(910)는 각 군집의 대표 데이터샘플을 탐색한다. 샘플탐색부(910)는 데이터 밀도를 기반으로 복수의 대표 데이터샘플을 탐색할 수 있다. 샘플탐색부(910)의 구체적인 예가 도 4 및 도 5에 도시되어 있다.

레이블링부(920)는 대표 데이터샘플에 대한 라벨 또는 점수를 입력받는다. 레이블링부(920)의 구체적인 예가 도 4 및 도 5에 도시되어 있다. 다른 실시 예로, 레이블링부(920)는 라벨 또는 점수를 부여할 수 없음을 나타내는 특수라벨 또는 특수점수를 입력받을 수 있다. 특수라벨 또는 특수점수를 기초로 준지도학습의 지도학습모델을 평가하는 방법에 대한 예가 도 8에 도시되어 있다.

학습부(930)는 라벨 또는 점수가 부여된 데이터샘플을 이용한 준지도학습으로 기계학습모델을 훈련시킨다. 학습부(930)는 복수의 지도학습모델을 이용한 준지도학습 과정을 수행할 수 있으며 이에 대한 예가 도 6 및 도 7에 도시되어 있다. 다른 실시 예로, 학습부(930)는 준지도학습에 사용되는 복수의 지도학습모델을 평가하여 하이퍼파라미터를 조정하는 과정을 통해 학습의 정확성을 높일 수 있다. 복수의 지도학습모델을 평가하는 방법의 예가 도 8에 도시되어 있다.

본 발명의 각 실시 예는 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, SSD, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

복수 개의 데이터샘플을 복수의 군집으로 군집화하는 단계;

각 군집의 대표 데이터샘플을 탐색하는 단계;

대표 데이터샘플에 대한 라벨 또는 점수를 입력받는 단계; 및

라벨 또는 점수가 부여된 데이터샘플을 이용한 준지도학습으로 기계학습모델을 훈련시키는 단계;를 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서, 상기 군집화하는 단계는,

비지도학습모델을 이용하여 복수 개의 데이터샘플을 복수의 군집으로 분류하는 단계;를 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서, 상기 탐색하는 단계는,

데이터 밀도를 기초로 복수 개의 대표 데이터샘플을 파악하는 단계;를 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서, 상기 탐색하는 단계는,

기 정의된 정지조건을 만족할 때까지, 상기 대표 데이터샘플 및 상기 대표 테이터샘플과 일정 거리 내에 위치한 주변 데이터샘플을 제거하고 남은 데이터샘플을 대상으로 대표 데이터샘플을 탐색하는 과정을 반복 수행하는 단계;를 포함하는 것을 특징으로 하는 모델생성방법.
제 4항에 있어서, 상기 정지조건은,

상기 라벨 또는 점수가 부여된 데이터샘플이 상기 복수의 군집에 각각 적어도 하나 이상 존재하는 경우, 상기 대표 데이터샘플의 개수가 기 정의된 개수 이상인 경우, 기 정의된 라벨 집합의 라벨이 각각 적어도 하나 이상의 데이터샘플에 부여된 경우, 기 정의된 점수의 최소값 및 최대값이 각각 적어도 하나 이상의 데이터샘플에 부여된 경우, 또는 사용자로부터 중지 요청을 받은 경우를 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서, 상기 입력받는 단계는,

라벨 또는 점수의 입력에 도움을 줄 수 있도록 상기 대표 데이터샘플을 시각화하여 표시하는 단계;를 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서,

상기 라벨 또는 점수는 레이블링을 할 수 없음을 나타내는 특수라벨 또는 특수점수를 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 있어서, 상기 기계학습모델을 훈련시키는 단계는,

라벨 또는 점수가 부여된 데이터샘플을 이용하여 복수의 지도학습모델을 훈련시키는 단계;

라벨 또는 점수가 부여되지 않은 데이터샘플에 대하여 상기 복수의 지도학습모델이 예측한 라벨 또는 점수의 합의를 통해 데이터샘플에 라벨 또는 점수를 부여하는 단계;

상기 복수의 지도학습모델의 예측에 대한 신뢰도값을 기준으로 상기 복수의 지도학습모델에 대한 평가점수를 조정하는 단계;

평가점수가 기 정의된 기준 미만인 지도학습모델의 하이퍼파라미터를 조정하는 단계; 및

모든 데이터샘플에 라벨 또는 점수를 부여할 때까지 상기 훈련시키는 단계부터 상기 조정하는 단계까지를 반복 수행하는 단계;를 포함하는 것을 특징으로 하는 모델생성방법.
제 8항에 있어서, 상기 평가점수를 조정하는 단계는,

상기 복수의 지도학습모델의 합의를 통해 데이터샘플에 라벨 또는 점수를 부여하는 경우에 가장 높은 신뢰도값을 가진 지도학습모델의 평가점수를 증가하고 신되도값이 기 정의된 기준을 벗어나는 지도학습모델의 평가점수를 감소하는 단계;를 포함하는 것을 특징으로 하는 모델생성방법.
제 8항에 있어서,

상기 라벨 또는 점수는 레이블링을 할 수 없음을 나타내는 특수라벨 또는 특수점수를 포함하고,

상기 평가점수를 조정하는 단계는,

상기 특수라벨 또는 특수점수를 기 정의된 기준 이상의 신뢰도값으로 예측한 지도학습모델의 평가점수를 감소하는 단계를 포함하는 것을 특징으로 하는 모델생성방법.
복수 개의 데이터샘플을 복수의 군집으로 분류하는 군집화부;

각 군집의 대표 데이터샘플을 탐색하는 샘플탐색부;

대표 데이터샘플에 대한 라벨 또는 점수를 입력받는 레이블링부; 및

라벨 또는 점수가 부여된 데이터샘플을 이용한 준지도학습으로 기계학습모델을 훈련시키는 학습부;를 포함하는 것을 특징으로 하는 모델생성방법.
제 1항에 기재된 방법을 컴퓨터에 의해 수행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.