KR101843066B1

KR101843066B1 - 기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치

Info

Publication number: KR101843066B1
Application number: KR1020170106529A
Authority: KR
Inventors: 이영남; 이예하
Original assignee: 주식회사 뷰노
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2018-05-15

Abstract

본 발명은 기계 학습에 있어서 데이터 확대(data augmentation)를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 컴퓨팅 장치에 관한 것이다. 구체적으로, 본 발명에 따른 컴퓨팅 장치는, 실제 데이터를 획득하거나 상기 컴퓨팅 장치에 연동되는 타 장치로 하여금 획득하도록 지원하고, 획득된 상기 실제 데이터가 속하는 레이블(label)의 정보 및 상기 실제 데이터를 이용하여 수정 GAN(modified generative adversarial networks)의 생성기(generator) 및 판별기(discriminator)를 학습시키거나 상기 타 장치로 하여금 학습시키되, 상기 수정 GAN에 있어서, 상기 생성기는 다수의 레이블 각각에 대응되는 유사 데이터를 생성하는 서브 생성기(sub-generator)를 포함하고, 상기 서브 생성기는 상기 서브 생성기에 대응되는 레이블에 속하는 유사 데이터를 생성하며, 상기 판별기는 상기 판별기의 판별 대상인 대상 데이터가 속하는 레이블인 특정 레이블을 상기 다수의 레이블 중에서 예측하는 것을 특징으로 하며, 상기 컴퓨팅 장치는, 학습된 상기 수정 GAN을 이용하여 상기 유사 데이터를 생성하고, (i) 상기 실제 데이터 및 상기 유사 데이터 또는 (ii) 상기 유사 데이터를 소정의 분류용 기계 학습 모델(machine learning model for classification)의 학습 데이터로 이용함으로써, 상기 기계 학습 모델을 학습시키거나 상기 타 장치로 하여금 학습시키고, 분류 대상 데이터가 획득되면, 학습된 상기 기계 학습 모델에 기초하여 상기 분류 대상 데이터를 분류함으로써 상기 분류 대상 데이터의 분류 정보를 생성하거나 상기 타 장치로 하여금 생성하도록 지원한다.

Description

기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치{METHOD FOR CLASSIFYING DATA VIA DATA AUGMENTATION OF THE DATA FOR MACHINE-LEARNING AND APPARATUS USING THE SAME}

본 발명은 기계 학습에 있어서 데이터 확대(data augmentation)를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 컴퓨팅 장치에 관한 것이다. 구체적으로, 본 발명에 따른 컴퓨팅 장치는, 실제 데이터를 획득하거나 상기 컴퓨팅 장치에 연동되는 타 장치로 하여금 획득하도록 지원하고, 획득된 상기 실제 데이터가 속하는 레이블(label)의 정보 및 상기 실제 데이터를 이용하여 수정 GAN(modified generative adversarial networks)의 생성기(generator) 및 판별기(discriminator)를 학습시키거나 상기 타 장치로 하여금 학습시키되, 상기 수정 GAN에 있어서, 상기 생성기는 다수의 레이블 각각에 대응되는 유사 데이터를 생성하는 서브 생성기(sub-generator)를 포함하고, 상기 서브 생성기는 상기 서브 생성기에 대응되는 레이블에 속하는 유사 데이터를 생성하며, 상기 판별기는 상기 판별기의 판별 대상인 대상 데이터가 속하는 레이블인 특정 레이블을 상기 다수의 레이블 중에서 예측하는 것을 특징으로 하며, 상기 컴퓨팅 장치는, 학습된 상기 수정 GAN을 이용하여 상기 유사 데이터를 생성하고, (i) 상기 실제 데이터 및 상기 유사 데이터 또는 (ii) 상기 유사 데이터를 소정의 분류용 기계 학습 모델(machine learning model for classification)의 학습 데이터로 이용함으로써, 상기 기계 학습 모델을 학습시키거나 상기 타 장치로 하여금 학습시키고, 분류 대상 데이터가 획득되면, 학습된 상기 기계 학습 모델에 기초하여 상기 분류 대상 데이터를 분류함으로써 상기 분류 대상 데이터의 분류 정보를 생성하거나 상기 타 장치로 하여금 생성하도록 지원한다. 요컨대, 소정의 분류용 기계 학습 모델은, 본 발명에 의하여 수정된 GAN(modified generative adversarial networks) 방법에 따라 실제 데이터에 기초하여 학습된 생성기(generator)가 생성하는 데이터를 학습 데이터로서 이용할 수 있다.

기계 학습을 통하여 데이터의 클래스 분류(classification)를 수행하는 문제에 있어서 현실적으로 대두되는 문제는 데이터의 불균형 문제이다.

예컨대, 환자의 심정지를 예측하는 문제를 예로 들 수 있는데, 이는 2-클래스 분류 문제로서, 환자로부터 획득된 일련의 생체 신호들을 학습 데이터로 하는 기계 학습에 의하여 그 생체 신호들을 심정지에 해당되는 생체 신호(제1 클래스)로 분류하거나 심정지가 아닌 정상 환자의 생체 신호(제2 클래스)로 분류하는 문제이다. 그런데, 대부분의 피검체는 정상 환자이기 때문에 심정지에 대응되는 생체 신호 데이터는 소수인바, 즉, 학습 데이터의 클래스 불균형이 심하게 나타난다.

즉, 기계 학습의 알고리즘은 일방의 클래스로 치우친 데이터의 집합을 가지고 학습을 수행하기 때문에, 그 결과로 만들어지는 분류 모델은 그 전체적인 정확도가 떨어질 뿐만 아니라 타방의 클래스에 해당되는 데이터를 분류해내는 정확도는 더 떨어지게 된다. 분류 문제는 다수의 데이터가 속하는 클래스(다수 클래스, 위의 예시에서는 제2 클래스)뿐만 아니라 소수의 데이터가 속하는 클래스(소수 클래스, 위의 예시에서는 제1 클래스)를 맞추는 것이 중요하므로 이와 같은 문제점을 해결할 필요가 있다.

이에 따라 본 발명에서는 데이터의 클래스 불균형이 높은 상황을 극복하는 방안으로서 실제 데이터와 유사하게 데이터를 생성함으로써, 즉, 효과적인 데이터 확대(data augmentation)를 수행함으로써 기계 학습에 의한 분류 모델의 정확도를 높일 수 있는 방법으로서 종래의 GAN을 개량한 방법을 제안하고자 한다.

비특허문헌 1: Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). "Generative Adversarial Networks"

본 발명은 기계 학습에 있어서의 학습 데이터의 클래스 불균형이 높은 상황에서도 실제와 유사한 소수 클래스의 학습 데이터를 생성하는 데이터 확대를 통하여, 종래의 기계 학습에 의한 분류 모델의 정확도를 높이는 것을 목적으로 한다.

상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.

본 발명의 일 태양에 따르면, 기계 학습에 있어서 데이터 확대(data augmentation)를 이용하여 데이터의 분류(classification)를 수행하는 방법이 제공되는바, 그 방법은, (a) 컴퓨팅 장치가, 실제 데이터를 획득하거나 상기 컴퓨팅 장치에 연동되는 타 장치로 하여금 획득하도록 지원하는 단계; (b) 상기 컴퓨팅 장치가, 획득된 상기 실제 데이터가 속하는 레이블(label)의 정보 및 상기 실제 데이터를 이용하여 수정 GAN(modified generative adversarial networks)의 생성기(generator) 및 판별기(discriminator)를 학습시키거나 상기 타 장치로 하여금 학습시키는 단계로서, 상기 수정 GAN에 있어서, 상기 생성기는 다수의 레이블 각각에 대응되는 유사 데이터를 생성하는 서브 생성기(sub-generator)를 포함하고, 상기 서브 생성기는 상기 서브 생성기에 대응되는 레이블에 속하는 유사 데이터를 생성하며, 상기 판별기는 상기 판별기의 판별 대상인 대상 데이터가 속하는 레이블인 특정 레이블을 상기 다수의 레이블 중에서 예측하는 것을 특징으로 하는, 단계; (c) 상기 컴퓨팅 장치가, 학습된 상기 수정 GAN을 이용하여 상기 유사 데이터를 생성하고, (i) 상기 실제 데이터 및 상기 유사 데이터 또는 (ii) 상기 유사 데이터를 소정의 분류용 기계 학습 모델(machine learning model for classification)의 학습 데이터로 이용함으로써, 상기 기계 학습 모델을 학습시키거나 상기 타 장치로 하여금 학습시키는 단계; 및 (d) 분류 대상 데이터가 획득되면, 상기 컴퓨팅 장치가, 학습된 상기 기계 학습 모델에 기초하여 상기 분류 대상 데이터를 분류함으로써 상기 분류 대상 데이터의 분류 정보를 생성하거나 상기 타 장치로 하여금 생성하도록 지원하는 단계를 포함한다. 요컨대, 상기 소정의 분류용 기계 학습 모델은, 실제 데이터에 기초하여 학습된 수정 GAN의 생성기에 의하여 생성된 데이터를 학습 데이터로서 이용할 수 있다.

본 발명의 다른 태양에 따르면, 본 발명에 따른 방법을 수행하도록 구현된 인스트럭션들(instructions)을 포함하는, 매체에 저장된 컴퓨터 프로그램도 제공된다.

본 발명의 또 다른 태양에 따르면, 기계 학습에 있어서 데이터 확대(data augmentation)를 이용하여 데이터의 분류(classification)를 수행하는 컴퓨팅 장치가 제공되는바, 그 컴퓨팅 장치는, 실제 데이터를 획득하는 통신부; 및 획득된 상기 실제 데이터가 속하는 레이블(label)의 정보 및 상기 실제 데이터를 이용하여 수정 GAN(modified generative adversarial networks)의 생성기(generator) 및 판별기(discriminator)를 학습시키거나 상기 통신부를 통하여 연동되는 타 장치로 하여금 학습시키는 프로세서를 포함하되, 상기 수정 GAN에 있어서, 상기 생성기는 다수의 레이블 각각에 대응되는 유사 데이터를 생성하는 서브 생성기(sub-generator)를 포함하고, 상기 서브 생성기는 상기 서브 생성기에 대응되는 레이블에 속하는 유사 데이터를 생성하며, 상기 판별기는 상기 판별기의 판별 대상인 대상 데이터가 속하는 레이블인 특정 레이블을 상기 다수의 레이블 중에서 예측하고, 상기 프로세서는, 학습된 상기 수정 GAN을 이용하여 상기 유사 데이터를 생성하고, (i) 상기 실제 데이터 및 상기 유사 데이터 또는 (ii) 상기 유사 데이터를 소정의 분류용 기계 학습 모델(machine learning model for classification)의 학습 데이터로 이용함으로써, 상기 기계 학습 모델을 학습시키거나 상기 타 장치로 하여금 학습시키며, 분류 대상 데이터가 획득되면, 학습된 상기 기계 학습 모델에 기초하여 상기 분류 대상 데이터를 분류함으로써 상기 분류 대상 데이터의 분류 정보를 생성하거나 상기 타 장치로 하여금 생성한다.

본 발명에 의하면, 종래에 기계 학습에 의한 분류 모델, 즉 분류용 기계 학습 모델의 학습에 있어서 문제되었던 학습 데이터의 클래스 불균형(class imbalance)을 학습 데이터의 데이터 확대를 통하여 해결할 수 있다.

예를 들면, 본 발명에 의한 데이터 확대에 따른 데이터 분류 방법은 대부분의 의료 판정 문제에 적용될 수 있는바, 심정지, 패혈증 등과 같이 대부분의 환자가 정상 환자이기 때문에 심정지, 패혈증 등에 관계된 데이터가 소수인 것으로 말미암아 분류 모델이 낮은 정확도를 가지는 문제가 해결될 수 있다.

본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 사람(이하 “통상의 기술자”라 함)에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1는 본 발명에 따라 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법(이하 "데이터 분류 방법"이라 함)을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 2는 본 발명의 일 실시예에서 수정된 GAN(modified generative adversarial networks)을 이용하여 데이터 확대(data augmentation)를 수행하는 방식을 예시하기 위하여 개념적으로 도시한 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.

본 발명의 상세한 설명 및 청구항들에 걸쳐 '학습' 혹은 '러닝'은 절차에 따른 컴퓨팅(computing)을 통하여 기계 학습(machine learning)을 수행함을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 이해할 수 있을 것이다.

그리고 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.

더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

다음으로, 도 1은 본 발명에 따라 데이터 확대를 이용하여 데이터를 분류하는 방법(이하 "데이터 분류 방법"이라 함)을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 컴퓨팅 장치(100)는, 통신부(110) 및 프로세서(120)를 포함하며, 상기 통신부(110)를 통하여 외부 컴퓨팅 장치(미도시)와 직간접적으로 통신할 수 있다.

구체적으로, 상기 컴퓨팅 장치(100)는, 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.

이와 같은 컴퓨팅 장치의 통신부(110)는 연동되는 타 컴퓨팅 장치와 요청과 응답을 송수신할 수 있는바, 일 예시로서 그러한 요청과 응답은 동일한 TCP 세션에 의하여 이루어질 수 있지만, 이에 한정되지는 않는바, 예컨대 UDP 데이터그램으로서 송수신될 수도 있을 것이다. 덧붙여, 넓은 의미에서 상기 통신부(110)는 명령어 또는 지시 등을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.

또한, 컴퓨팅 장치의 프로세서(120)는 MPU(Micro Processing Unit) 또는 CPU(Central Processing Unit), 캐시 메모리(Cache Memory), 데이터 버스(Data Bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.

도 2는 본 발명의 일 실시예에서 수정된 GAN(modified generative adversarial networks)을 이용하여 데이터 확대(data augmentation)를 수행하는 방식을 예시하기 위하여 개념적으로 도시한 도면이다.

이는 종래의 기계 학습에 있어서 문제점으로 지적되었던 계급 불균형의 문제, 즉, 계급 불균형으로 인하여 기계 학습이 다수 클래스에 속한 데이터 위주로 진행됨으로써 그 기계 학습 모델의 신뢰도 및 정확도가 떨어지게 되는 문제를 해결하기 위한 것이다.

본 발명에서는, 이 같은 문제를 해결하기 위하여, 다음과 같은 데이터 확대(data augmentation)가 수행되는바, 도 2를 참조하면, 본 발명에 따른 GAN(modified generative adversarial networks)은 실제와 유사한 치명적 증상의 생체 신호를 생성하는 기능을 하는 생성기(generator; 'G'로 도시됨), 및 생성된 데이터와 실제 데이터를 구분하는 판별기(discriminator; 'D'로 도시됨)를 포함하는 구성을 가지고 있다.

구체적으로, 종래의 GAN에 관한 논문인 비특허문헌 1: [Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). "Generative Adversarial Networks"]에 따르면, 생성기는 실제와 유사한 데이터를 생성함으로써 판별기를 속여 그 유사한 데이터를 실제 데이터로 판별하게 하는 것을 목표로 가지며, 판별기는 실제 데이터와 생성된 유사 데이터를 구분해내는 것을 목표로 가진다. 이 GAN에 의한 학습이 진행되는 과정에서 생성기와 판별기는 각각의 목표를 달성하기 위하여 네트워크 가중치를 갱신하는바, 충분한 학습 후에는 생성기가 실제와 유사한 데이터를 생성해내고, 판별기에 의한 판별률이 이론적으로 0.5에 수렴되는 것이 밝혀져 있다.

결과적으로, 종래의 GAN에 의하여 충분히 학습된 생성기는 실제 데이터와 가까운 데이터를 생성하게 되므로, 종래의 GAN의 생성기에 의하여 생성된 유사 데이터를 기계 학습 모델을 학습시키기 위한 학습 데이터로서 이용함으로써, 전술한 데이터의 분균형 문제는 해결될 수 있다.

그런데, 이와 같은 종래의 GAN은 입력된 데이터가 실제 데이터인지 아닌지(true or fake)만을 이용하여 학습하는 것에만 초점을 두고 있으므로, 종래의 GAN은 입력된 데이터가 다양한 레이블에 속할 수 있는 경우에, 그 입력된 데이터가 그 다양한 레이블 중 어떠한 레이블의 데이터에 해당되는지를 알아내기가 어렵다.

이와 같은 한계를 극복하기 위하여, 본 발명에서는 종래의 GAN을 수정한 수정 GAN을 이용하는바, 이 수정된 GAN을 이용하면 데이터에 결부된 레이블의 정보가 추가로 고려됨으로써, 다양한 종류(즉, 레이블에 의하여 종류가 구분됨)의 데이터가 생성 및 판별될 수 있다는 장점이 있다.

구체적으로, 종래의 GAN과 달리, 수정 GAN의 생성기는 다수의 레이블 각각에 대응되는 유사 데이터를 생성하는 서브 생성기(sub-generator; 도 2에서 'G_label1', 'G_label2', 'G_label3' 등으로 도시됨)를 포함하고, 상기 서브 생성기는 상기 서브 생성기에 대응되는 레이블에 속한 유사 데이터를 생성한다.

또한, 종래의 GAN과 달리, 수정 GAN의 판별기는 그 판별기가 판별하는 대상인 대상 데이터가 실제 데이터인지 아닌지만 판별하는 것이 아니라 상기 다수의 레이블 중에서 상기 대상 데이터가 속하는 레이블도 예측 내지 구분한다.

예를 들어, 그러한 레이블은 '심정지 발생군', '패혈증 발생군', '정상' 등등일 수 있다. 따라서, 본 발명에 따른 수정 GAN은, 그 판별기가 상기 생성기에 의하여 생성된 데이터가 실제 데이터에 가까운 유사 데이터가 될 수 있도록 지원하며, 또한, 그 판별기에 입력되는 실제 데이터 또는 유사 데이터가 어떤 레이블에 속하는지 구분함으로써, 상기 생성기가 서브 생성기를 통하여 특정 레이블을 생성할 수 있도록 지원한다.

요컨대, 본 발명에 따른 수정 GAN은 실제 데이터 및 그 실제 데이터가 속한 레이블의 종류에 기초하여 학습됨으로써, 레이블에 의하여 구분되는, 보다 다양한 종류의 유사 데이터를 실제와 유사하게 생성할 수 있는바, 특히, 실제 데이터의 수량이 적은 특정 레이블에 대해서, 그 특정 레이블에 해당하는 유사 데이터를 생성하여 그 적은 수량을 보충함으로써 그 특정 레이블에 대한 데이터 불균형을 해소할 수 있다.

전술한 내용을 토대로 본 발명에 따른 데이터 분류 방법를 설명하기로 한다. 본 발명에 따른 데이터 분류 방법은, 우선, 컴퓨팅 장치(100)가, 통신부(110)를 통하여, 실제 데이터를 획득하거나 상기 컴퓨팅 장치에 연동되는 타 장치로 하여금 획득하도록 지원하는 단계(S100)를 포함한다. 예를 들어, 그러한 실제 데이터는 시계열적 신호일 수 있으나, 이에 한정되지 않는바, 분류가 요구되는 데이터라면 이에 포함될 수 있다고 보아야 한다.

다음으로, 상기 데이터 분류 방법은, 컴퓨팅 장치(100)가, 프로세서(120)를 통하여, 획득된 상기 실제 데이터가 속하는 레이블(label)의 정보 및 상기 실제 데이터를 이용하여 수정 GAN(modified generative adversarial networks)의 생성기(generator) 및 판별기(discriminator)를 학습시키거나 상기 통신부(110)를 통하여 연동되는 타 장치로 하여금 학습시키는 단계(S200)를 더 포함한다. 이 수정 GAN이 종래의 GAN과 다른 점은 전술한 바와 같으므로 거듭된 설명은 생략하기로 한다.

그 후, 상기 데이터 분류 방법은, 상기 컴퓨팅 장치(100)가, 프로세서(120)를 통하여, 학습된 상기 수정 GAN을 이용하여 상기 유사 데이터를 생성하고, (i) 상기 실제 데이터 및 상기 유사 데이터 또는 (ii) 상기 유사 데이터를 소정의 분류용 기계 학습 모델(machine learning model for classification)의 학습 데이터로 이용함으로써, 상기 기계 학습 모델을 학습시키거나 상기 타 장치로 하여금 학습시키는 단계(S300)를 더 포함한다.

예를 들어, 상기 기계 학습 모델에는 CNN(convolutional neural network), RNN(recurrent neural network) 등이 포함될 수 있으나 이에 한정되지 않음을 통상의 기술자는 이해할 수 있을 것이다.

또한, 상기 데이터 분류 방법은, 상기 컴퓨팅 장치(100)의 통신부(110)에 의하여 분류 대상 데이터가 획득되는 때에, 상기 컴퓨팅 장치(100)가, 상기 프로세서(120)를 통하여, 상기 기계 학습 모델에 기초하여 상기 분류 대상 데이터를 분류함으로써 상기 분류 대상 데이터의 분류 정보를 생성하거나 상기 타 장치로 하여금 생성하도록 지원하는 단계(S400)를 더 포함한다.

계속해서 설명하면, 본 발명에 따른 데이터 분류 방법은, 상기 컴퓨팅 장치(100)가, 상기 프로세서(120)를 통하여, 상기 분류 정보를 외부의 엔티티(entity)에게 제공하거나 상기 타 장치로 하여금 제공하도록 지원하는 단계(S500)를 더 포함할 수 있다. 여기에서 외부 엔티티라고 함은, 상기 컴퓨팅 장치의 사용자, 관리자 등을 포함하나, 이 이외에도 그 분류 정보를 획득할 정당한 권한이 있는 주체라면 어느 주체라도 포함되는 것으로 이해되어야 할 것이다.

또한, 본 발명에 따른 데이터 분류 방법은, 상기 분류 정보의 정확도를 평가한 정보에 기초하여, 상기 컴퓨팅 장치(100)가, 상기 기계 학습 모델을 갱신하거나 상기 타 장치로 하여금 갱신하도록 지원하는 단계(S600)를 더 포함할 수 있다.

이와 같이 본 발명에 따른 데이터 분류 방법은, 소정의 기계 학습 모델에 기초하여 분류 대상 데이터에 관한 분류 정보를 제공할 수 있는바, 그 분류 정보에 관하여 그 정확도 등을 평가한 정보 등을 재학습의 자료로 활용한다면, 더 정확한 예측을 수행하도록 할 수 있는 장점이 있으므로, 이러한 장점을 취하기 위한 본 발명에 따른 데이터 분류 방법은, 상기 컴퓨팅 장치(100)가, 상기 프로세서(120)를 통하여, 상기 분류 정보를 평가한 정보에 기초하여 상기 기계 학습 모델 및 상기 수정 GAN 중 적어도 하나를 갱신하거나 상기 타 장치로 하여금 갱신하도록 지원하는 단계(S600)를 더 포함할 수 있다.

예컨대, 단계(S600)는, 상기 컴퓨팅 장치(100)는, 상기 분류 정보를 평가한 정보에 기초하여, 직접적으로 상기 기계 학습 모델을 갱신하거나 상기 타 장치로 하여금 갱신하도록 지원하는 단계, 혹은 상기 예측 결과를 평가한 정보에 기초하여, 상기 수정 GAN을 학습시킴으로써, 그 수정 GAN이 생성기를 통하여 생성하는 데이터를 통하여, 간접적으로 상기 기계 학습 모델을 갱신하거나 상기 타 장치로 하여금 갱신하도록 지원하는 단계를 포함할 수 있다.

이때, 이전의 학습시에는 고려되지 않았던 학습 데이터가 추가로 고려되고, 이전의 학습시에 있었던 오류를 바로 잡을 수 있기 때문에 상기 기계 학습 모델, 수정 GAN의 정확도가 향상되는바, 데이터가 쌓일수록 그 분류 성능이 지속적으로 향상되는 장점이 있다. 게다가, 본 발명에 따르면, 제공되는 실제 데이터 자체의 오류도 현저히 감소되고, 상기 기계 학습 모델을 학습하는 데에 이용되는 학습 데이터의 계급 불균형을 해결한 결과, 학습된 상기 기계 학습 모델 자체의 신뢰성도 향상된다.

이와 같이 본 발명은 전술한 모든 실시예들에 걸쳐, 기계 학습에 있어서의 학습 데이터의 클래스 불균형이 높은 상황에서도 실제와 유사한 소수 클래스의 학습 데이터를 생성하는 데이터 확대를 통하여, 종래의 기계 학습에 의한 분류 모델의 정확도를 높일 수 있는 효과가 있다.

위 실시예의 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명이 소프트웨어 및 하드웨어의 결합을 통하여 달성되거나 하드웨어만으로 달성될 수 있다는 점을 명확하게 이해할 수 있다. 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다.

상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 CPU나 GPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고 받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 사람이라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 발명에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 논리적으로 동치(logically equivalent)인 방법이 포함될 것이다.

Claims

기계 학습에 있어서 데이터 확대(data augmentation)를 이용하여 데이터의 분류(classification)를 수행하는 방법으로서,
(a) 컴퓨팅 장치가, 실제 시계열적 데이터를 획득하거나 상기 컴퓨팅 장치에 연동되는 타 장치로 하여금 상기 실제 시계열적 데이터를 획득하도록 지원하는 단계;
(b) 상기 컴퓨팅 장치가, 획득된 상기 실제 시계열적 데이터가 속하는 레이블(label)의 정보 및 상기 실제 시계열적 데이터를 이용하여 수정 GAN(modified generative adversarial networks)의 생성기(generator) 및 판별기(discriminator)를 학습시키거나 상기 타 장치로 하여금 상기 생성기 및 상기 판별기를 학습시키도록 지원하는 단계로서,
상기 수정 GAN에 있어서, 상기 생성기는 다수의 레이블 각각에 대응되는 유사 시계열적 데이터를 생성하는 서브 생성기(sub-generator)를 포함하고, 상기 서브 생성기는 상기 서브 생성기에 대응되는 레이블에 속하는 유사 시계열적 데이터를 생성하며, 상기 판별기는 상기 판별기의 판별 대상인 대상 데이터가 속하는 레이블인 특정 레이블을 상기 다수의 레이블 중에서 예측하는 것을 특징으로 하는, 단계;
(c) 상기 컴퓨팅 장치가, 학습된 상기 수정 GAN을 이용하여 상기 유사 시계열적 데이터를 생성하고, (i) 상기 실제 시계열적 데이터 및 상기 유사 시계열적 데이터 또는 (ii) 상기 유사 시계열적 데이터를 소정의 분류용 기계 학습 모델(machine learning model for classification)의 학습 데이터로 이용함으로써, 상기 기계 학습 모델을 학습시키거나 상기 타 장치로 하여금 상기 수정 GAN을 이용하여 상기 유사 시계열적 데이터를 생성하고, 상기 (i) 또는 (ii)를 상기 소정의 분류용 기계 학습 모델의 학습 데이터로 이용함으로써 상기 기계 학습 모델을 학습시키도록 지원하는 단계; 및
(d) 분류 대상 시계열적 데이터가 획득되면, 상기 컴퓨팅 장치가, 학습된 상기 기계 학습 모델에 기초하여 상기 분류 대상 시계열적 데이터를 분류함으로써 상기 분류 대상 시계열적 데이터의 분류 정보를 생성하거나 상기 타 장치로 하여금 상기 분류 정보를 생성하도록 지원하는 단계
를 포함하되,
상기 시계열적 데이터는 피검체의 생체 신호가 반영된 것이며,
상기 다수의 레이블은 정상군 및 적어도 하나의 질환 의심군을 포함하는 것을 특징으로 하는 데이터 분류 방법.
제1항에 있어서,
(e) 상기 컴퓨팅 장치가, 상기 분류 정보를 외부의 엔티티(entity)에게 제공하거나 상기 타 장치로 하여금 상기 분류 정보를 제공하도록 지원하는 단계; 및
(f) 상기 분류 정보의 정확도를 평가한 정보에 기초하여, 상기 컴퓨팅 장치가, 상기 기계 학습 모델 및 상기 수정 GAN 중 적어도 하나를 갱신하거나 상기 타 장치로 하여금 상기 기계 학습 모델 및 상기 수정 GAN 중 적어도 하나를 갱신하도록 지원하는 단계
를 더 포함하는 데이터 분류 방법.
컴퓨팅 장치로 하여금, 제1항 또는 제2항의 방법을 수행하도록 구현된 인스트럭션들(instructions)을 포함하는, 매체에 저장된 컴퓨터 프로그램.
기계 학습에 있어서 데이터 확대(data augmentation)를 이용하여 데이터의 분류(classification)를 수행하는 컴퓨팅 장치로서,
실제 시계열적 데이터를 획득하는 통신부; 및
획득된 상기 실제 시계열적 데이터가 속하는 레이블(label)의 정보 및 상기 실제 시계열적 데이터를 이용하여 수정 GAN(modified generative adversarial networks)의 생성기(generator) 및 판별기(discriminator)를 학습시키거나 상기 통신부를 통하여 연동되는 타 장치로 하여금 상기 생성기 및 상기 판별기를 학습시키도록 지원하는 프로세서
를 포함하되,
상기 수정 GAN에 있어서, 상기 생성기는 다수의 레이블 각각에 대응되는 유사 시계열적 데이터를 생성하는 서브 생성기(sub-generator)를 포함하고, 상기 서브 생성기는 상기 서브 생성기에 대응되는 레이블에 속하는 유사 시계열적 데이터를 생성하며, 상기 판별기는 상기 판별기의 판별 대상인 대상 데이터가 속하는 레이블인 특정 레이블을 상기 다수의 레이블 중에서 예측하고,
상기 프로세서는,
학습된 상기 수정 GAN을 이용하여 상기 유사 시계열적 데이터를 생성하고, (i) 상기 실제 시계열적 데이터 및 상기 유사 시계열적 데이터 또는 (ii) 상기 유사 시계열적 데이터를 소정의 분류용 기계 학습 모델(machine learning model for classification)의 학습 데이터로 이용함으로써, 상기 기계 학습 모델을 학습시키거나 상기 타 장치로 하여금 상기 수정 GAN을 이용하여 상기 유사 시계열적 데이터를 생성하고, 상기 (i) 또는 (ii)를 상기 소정의 분류용 기계 학습 모델의 학습 데이터로 이용함으로써, 상기 기계 학습 모델을 학습시키도록 지원하며,
분류 대상 시계열적 데이터가 획득되면, 학습된 상기 기계 학습 모델에 기초하여 상기 분류 대상 시계열적 데이터를 분류함으로써 상기 분류 대상 시계열적 데이터의 분류 정보를 생성하거나 상기 타 장치로 하여금 상기 분류 정보를 생성하도록 지원하되,
상기 시계열적 데이터는 피검체의 생체 신호가 반영된 것이며,
상기 다수의 레이블은 정상군 및 적어도 하나의 질환 의심군을 포함하는 것을 특징으로 하는 데이터 분류를 수행하는 컴퓨팅 장치.
제4항에 있어서,
상기 프로세서는,
상기 분류 정보를 외부의 엔티티(entity)에게 제공하거나 상기 타 장치로 하여금 상기 분류 정보를 제공하도록 지원하고,
상기 분류 정보의 정확도를 평가한 정보에 기초하여, 상기 기계 학습 모델 및 상기 수정 GAN 중 적어도 하나를 갱신하거나 상기 타 장치로 하여금 상기 기계 학습 모델 및 상기 수정 GAN 중 적어도 하나를 갱신하도록 지원하는 것을 특징으로 하는 데이터 분류를 수행하는 컴퓨팅 장치.