KR20170083419A

KR20170083419A - 레이블링되지 않은 다수의 학습 데이터를 이용하여 딥 러닝의 모델을 트레이닝하는 방법 및 이를 수행하는 딥 러닝 시스템

Info

Publication number: KR20170083419A
Application number: KR1020160002848A
Authority: KR
Inventors: 하영광
Original assignee: 마우키스튜디오 주식회사
Priority date: 2016-01-08
Filing date: 2016-01-08
Publication date: 2017-07-18

Abstract

레이블링되지 않은 다수의 학습 데이터를 이용하여 딥 러닝(특히, supervised deep learning)의 다층 신경망 모델을 트레이닝하는 방법 및 이 방법을 수행하는 딥 러닝 시스템이 개시된다. 본 발명의 일 측면에 따르면, (a) 딥 러닝 시스템이, 학습 데이터를 제공받는 단계-여기서, 상기 학습 데이터는 소정의 특징에 대하여 포지티브로 레이블링된 1 이상의 포지티브 데이터 및 상기 특징에 대하여 레이블링되지 않은 복수의 언레이블드 데이터를 포함함-; (b) 상기 딥 러닝 시스템이, 크기가 S_T인 미니 배치(mini-batch)를 구성하는 단계(여기서, 미리 정의된 S_T는 상기 복수의 언레이블드 데이터의 개수보다 작은 자연수); (c) 상기 딥 러닝 시스템이, 구성된 상기 미니 배치에 포함된 데이터를 학습대상으로 하여 다층 신경망 모델을 트레이닝하는 단계; 및 (d) 상기 1이상의 포지티브 데이터 및 상기 복수의 언레이블드 데이터 전부를 학습 대상으로 한 상기 다층 신경망 모델의 트레이닝이 완료될 때까지 상기 (b) 단계 및 상기 (c) 단계를 반복 수행하는 단계를 포함하되, 상기 (b) 단계는, (b-1) 상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하는 단계(여기서 미리 정의된 S_P는 S_T보다 작은 자연수); (b-2) 복수의 언레이블드 데이터 중 일부이며 아직 학습 대상이 되지 않은 S_N개의 언레이블드 학습 데이터를 선택하는 단계(여기서 미리 정의된 S_N은 S_T- S_P); 및 (b-3) 선택된 상기 S_N개의 언레이블드 학습 데이터를 네거티브로 라벨링하고, 네거티브로 라벨링된 상기 언레이블드 학습 데이터를 상기 미니 배치에 추가하는 단계를 포함하는 레이블링되지 않은 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법이 제공된다.

Description

레이블링되지 않은 다수의 학습 데이터를 이용하여 딥 러닝의 모델을 트레이닝하는 방법 및 이를 수행하는 딥 러닝 시스템{Deep learning model training method using many unlabeled training data and deep learning system performing the same}

본 발명은 레이블링되지 않은 다수의 학습 데이터를 이용하여 딥 러닝(특히, supervised deep learning)의 다층 신경망 모델을 트레이닝하는 방법 및 이 방법을 수행하는 딥 러닝 시스템에 관한 것이다.

머신 러닝(machine learning; 기계학습)이란 인공지능(Artificial Intelligence: AI) 의 한 종류로서, 데이터를 기반으로 컴퓨터가 스스로 학습한 내용을 바탕으로 회귀, 분류, 군집화 등의 예측 작업을 수행하는 것을 말한다. 스팸 메일을 자동으로 필터링하는 기술, 사진상 얼굴을 인식하는 기술이 머신러닝의 좋은 사례이다.

이와 같은 머신러닝은 크게 지도학습(Supervised Learning)과 자율학습(Unsupervised Learning)으로 나눠진다.

지도학습은 알고리즘을 통해 정해진 답을 찾는 것이 목적이다. 따라서 훈련용 데이터 (training data) 로부터 함수를 추론해내는 형태의 머신러닝이다. 지도학습에서는 트레이닝에 레이블된 샘플(labeled sample; 목표 출력값이 있는 데이터)을 사용한다. 즉, 지도학습에서는 사람이 로써 각각의 입력(x)에 대해 레이블(y)을 달아놓은 데이터를 컴퓨터한테 주면 컴퓨터가 그것을 학습하는 것이다. 지도 학습 알고리즘은 일련의 학습 데이터와 그에 상응하는 목표 출력값을 수신하고, 입력되는 데이터에 대한 실제 출력값과 목표 출력값을 비교하는 학습을 통해 오류를 찾아내고, 그런 다음 이 결과를 근거로 모델을 수정하게 된다. 지도학습은 결과물의 형태에 따라 다시 회귀 (Regression)와 분류 (Classification)으로 나뉜다. 지도학습 알고리즘을 통해 도출된 함수는 다시 새로운 결과값을 예측하는데 사용된다. 사람이 직접 개입하므로 정확도가 높은 데이터를 사용할 수 있다는 장점이 있다. 대신에 사람이 직접 레이블을 달아야 하므로 인건비 문제가 있고, 구할 수 있는 데이터양도 적다는 문제가 있다. 자율학습 (또는 비지도학습)은 입력값에 대한 목표치가 주어지지 않는다는 것이 특징이다. 이는 데이터가 어떻게 구성되어 있는지를 밝히는데 주로 사용되며, 일종의 그룹핑 알고리즘이라고 볼 수 있다.

한편, 딥 러닝(deep learning)은 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야이며, 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의될 수 있다.

딥 러닝 구조는 인공신경망(ANN, artificial neural networks)에 기반하여 설계된 개념이다. 인공신경망은 가상의 뉴런을 수학적으로 모델링한 후 시뮬레이션하여 인간의 뇌와 같은 학습 능력을 갖게 하고자 하는 알고리즘으로서, 주로 패턴인식에 많이 사용된다. 딥 러닝에서 이용하는 인공신경망 모델은 선형 맞춤 (linear fitting)과 비선형 변환 (nonlinear transformation or activation)을 반복해 쌓아 올린 구조를 가진다. 딥 러닝에서 사용하는 신경망 모델은 심층 신경망(Deep Neural Network, DNN), 합성곱 신경망(Convolutional Neural Network, CNN), 순환 신경망(Recurrent Neural Network, RNN), 제한 볼츠만 머신 (Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망 (Deep Belief Network, DBN), 심층 Q-네트워크(Deep Q-Networks) 등을 들 수 있다.

딥 러닝의 트레이닝 과정에서는 수많은 학습 데이터를 가지고 인공신경망 모델의 파라미터를 최적화하게 된다. 딥 러닝의 트레이닝 과정에서는 (Error-backpropagation 알고리즘), 경사하강법(Gradient Decent 기법) 등이 이용될 수 있다.

한편, 학습 데이터를 이용한 트레이닝 과정이 수행되고 나면 최적화된 파라미터를 가지는 모델이 생성되며, 생성된 모델에 라벨링되지 않은 데이터를 입력하면 입력된 데이터에 상응하는 결과값(레이블)을 예측할 수 있다.

학습 데이터의 수가 많을수록 보다 정확한 예측이 가능한 모델이 형성되므로 딥 러닝의 트레이닝 과정에서는 많은 수의 학습 데이터가 필요하다. 그런데, 지도학습의 경우 각각의 학습 데이터마다 레이블이 부여되어야 하는데, 많은 수의 학습 데이터에 각각 올바른 레이블을 부여하기 위해서는 많은 인력과 시간이 소요된다는 문제점이 있다.

본 발명이 해결하고자 하는 기술적 과제는 레이블링되지 않은 다수의 학습 데이터를 이용하여 딥 러닝(특히, supervised deep learning)의 다층 신경망 모델을 트레이닝하는 방법 및 이 방법을 수행하는 딥 러닝 시스템을 제공하는 것이다.

본 발명의 일 측면에 따르면, (a) 딥 러닝 시스템이, 학습 데이터를 획득하는 단계-여기서, 상기 학습 데이터는 소정의 특징에 대하여 포지티브로 레이블링된 1 이상의 포지티브 데이터 및 상기 특징에 대하여 레이블링되지 않은 복수의 언레이블드 데이터를 포함함-; (b) 상기 딥 러닝 시스템이, 크기가 S_T인 미니 배치(mini-batch)를 구성하는 단계(여기서, 미리 정의된 S_T는 상기 복수의 언레이블드 데이터의 개수보다 작은 자연수); (c) 상기 딥 러닝 시스템이, 구성된 상기 미니 배치에 포함된 데이터를 학습대상으로 하여 다층 신경망 모델을 트레이닝하는 단계; 및 (d) 상기 1이상의 포지티브 데이터 및 상기 복수의 언레이블드 데이터 전부를 학습 대상으로 한 상기 다층 신경망 모델의 트레이닝이 완료될 때까지 상기 (b) 단계 및 상기 (c) 단계를 반복 수행하는 단계를 포함하되, 상기 (b) 단계는, (b-1) 상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하는 단계(여기서 미리 정의된 S_P는 S_T보다 작은 자연수); (b-2) 복수의 언레이블드 데이터 중 일부이며 아직 학습 대상이 되지 않은 S_N개의 언레이블드 학습 데이터를 선택하는 단계(여기서 미리 정의된 S_N은 S_T- S_P); 및 (b-3) 선택된 상기 S_N개의 언레이블드 학습 데이터를 네거티브로 라벨링하고, 네거티브로 라벨링된 상기 언레이블드 학습 데이터를 상기 미니 배치에 추가하는 단계를 포함하는 레이블링되지 않은 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법이 제공된다.

일 실시예에서, 상기 (b-1) 단계는, 상기 포지티브 데이터의 개수가 SP보다 작은 경우, 상기 포지티브 데이터 중 적어도 일부에 대한 레이블 보존 변환(Label-Preserved Transformation)을 수행하여 상기 S_P 개의 포지티브 학습 데이터를 생성하는 단계; 및 생성된 상기 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하는 단계를 포함할 수 있다.

일 실시예에서, 상기 학습 데이터는 이미지 데이터이며, 상기 레이블 보전 변환은 이미지 크로핑인 것을 특징으로 할 수 있다.

일 실시예에서, 상기 (b-1) 단계는, 상기 포지티브 데이터의 개수가 S_P보다 큰 경우, 상기 포지티브 데이터 중 S_P개를 롤링 전략에 따라 선택하는 단계 및 선택된 상기 S_P개의 포지티브 데이터를 상기 미니 배치에 추가하는 단계를 포함할 수 있다.

일 실시예에서, 상기 학습 데이터는 상기 특징에 대하여 네거티브로 레이블링된 1 이상의 네거티브 데이터를 더 포함하되, 상기 레이블링되지 않은 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법은, 상기 (d) 단계가 수행된 후, 상기 1 이상의 포지티브 데이터 및 상기 1 이상의 네거티브 데이터를 학습 대상으로 하여 상기 다층 신경망 모델을 튜닝하는 단계를 더 포함할 수 있다.

본 발명의 다른 일 측면에 따르면, 데이터 처리장치에 설치되며 상술한 방법을 수행하는 기록 매체에 저장된 컴퓨터 프로그램이 제공된다.

본 발명의 다른 일 측면에 따르면, 딥러닝 시스템으로서, 프로세서 및 상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며, 상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 상기 딥러닝 시스템이 상술한 방법을 수행하도록 하는 딥러닝 시스템이 제공된다.

본 발명의 다른 일 측면에 따르면, 학습 데이터를 저장하는 저장모듈-여기서, 상기 학습 데이터는 소정의 특징에 대하여 포지티브로 레이블링된 1 이상의 포지티브 데이터 및 상기 특징에 대하여 레이블링되지 않은 복수의 언레이블드 데이터를 포함함-, 크기가 S_T인 미니 배치(mini-batch)를 구성하고(여기서, 미리 정의된 S_T는 상기 복수의 언레이블드 데이터의 개수보다 작은 자연수), 구성된 상기 미니 배치에 포함된 데이터를 학습대상으로 하여 다층 신경망 모델을 트레이닝하는 과정을 상기 1이상의 포지티브 데이터 및 상기 복수의 언레이블드 데이터 전부를 학습 대상으로 한 상기 다층 신경망 모델의 트레이닝이 완료될 때까지 반복 수행하는 트레이닝모듈을 포함하되, 상기 트레이닝모듈은, 크기가 S_T인 미니 배치를 구성하기 위하여, 상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하고(여기서 미리 정의된 S_P는 S_T보다 작은 자연수), 복수의 언레이블드 데이터 중 일부이며 아직 학습 대상이 되지 않은 S_N개의 언레이블드 학습 데이터를 선택하고(여기서 미리 정의된 S_N은 S_T- S_P), 선택된 상기 S_N개의 언레이블드 학습 데이터를 네거티브로 라벨링하고, 네거티브로 라벨링된 상기 언레이블드 학습 데이터를 상기 미니 배치에 추가하는 딥 러닝 시스템이 제공된다.

일 실시예에서, 상기 트레이닝모듈은, 상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하기 위하여, 상기 포지티브 데이터의 개수가 SP보다 작은 경우, 상기 포지티브 데이터 중 적어도 일부에 대한 레이블 보존 변환(Label-Preserved Transformation)을 수행하여 상기 S_P 개의 포지티브 학습 데이터를 생성하고, 생성된 상기 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가할 수 있다.

일 실시예에서, 상기 트레이닝모듈은, 상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가 하기 위하여, 상기 포지티브 데이터의 개수가 S_P보다 큰 경우, 상기 포지티브 데이터 중 S_P개를 롤링 전략에 따라 선택하고, 선택된 상기 S_P개의 포지티브 데이터를 상기 미니 배치에 추가할 수 있다.

일 실시예에서, 상기 학습 데이터는 상기 특징에 대하여 네거티브로 레이블링된 1 이상의 네거티브 데이터를 더 포함하되, 상기 딥 러닝 시스템은, 상기 1 이상의 포지티브 데이터 및 상기 1 이상의 네거티브 데이터를 학습 대상으로 하여 상기 다층 신경망 모델을 튜닝하는 튜닝모듈을 더 포함할 수 있다.

본 발명의 일 실시예에 따르면, 레이블링되지 않은 다수의 학습 데이터를 이용하여 딥 러닝의 다층 신경망 모델을 트레이닝하는 방법 및 이 방법을 수행하는 딥 러닝 시스템을 제공할 수 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 딥 러닝 시스템의 개략적인 구조를 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 딥 러닝 시스템이 수행하는 다층 신경망 모델의 트레이닝 방법을 나타내는 흐름도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일 실시예에 따른 딥 러닝 시스템의 구성을 개략적으로 나타내는 블록도이다.

상기 딥 러닝 시스템(100)은 다수의 트레이닝 데이터에 의해 다층 신경망 모델을 트레이닝하고, 트레이닝한 다층 신경망 모델에 기초하여 특정한 입력에 대한 예측을 수행할 수 있다.

상기 딥 러닝 시스템(100)은 단일의 장치로 구현될 수도 있으며, 복수의 장치가 소정의 인터페이스에 의해 연결된 형태로 구현될 수도 있다.

도 1에 도시된 바와 같이 상기 딥 러닝 시스템(100)은 저장모듈(110) 및 트레이닝모듈(120), 튜닝모듈(130), 예측모듈(140)을 포함할 수 있다. 본 발명의 실시예에 따라서는, 상술한 구성요소들 중 일부 구성요소는 반드시 본 발명의 구현에 필수적으로 필요한 구성요소에 해당하지 않을 수도 있으며, 또한 실시예에 따라 상기 딥 러닝 시스템(100)은 이보다 더 많은 구성요소를 포함할 수도 있음은 물론이다. 예를 들어 상기 딥 러닝 시스템(100)은 상기 딥 러닝 시스템(100)의 다른 구성 요소(예를 들면, 저장모듈(110) 및 트레이닝모듈(120), 튜닝모듈(130) 및/또는 예측모듈(140))의 기능 및/또는 리소스를 제어할 수도 있는 제어모듈(미도시)을 더 포함할 수 있다.

상기 딥 러닝 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 딥 러닝 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 딥 러닝 시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 예컨대, 상기 저장모듈(110) 및 트레이닝모듈(120), 튜닝모듈(130) 및/또는 예측모듈(140)은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 또한, 구현 예에 따라서는 상기 저장모듈(110) 및 트레이닝모듈(120), 튜닝모듈(130) 및/또는 예측모듈(140) 등 각각의 개별 모듈을 구성하는 세부요소들 역시 서로 다른 물리적 장치에 위치하고, 서로 다른 물리적 장치에 위치한 세부요소들이 서로 유기적으로 결합되어 각각의 개별 모듈이 수행하는 기능을 실현할 수도 있다.

또한, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.

상기 딥 러닝 시스템(100)이 분류할 수 있는 태그의 종류는 다양할 수 있으며, 상기 딥 러닝 시스템(100)으로 제공되는 각각의 데이터에는 상기 태그 중 적어도 일부가 부착되어 있을 수 있다. 각 태그는 데이터가 가질 수 있는 특정한 특징에 상응할 수 있다.

상기 딥 러닝 시스템(100)은 임의의 데이터가 어떠한 특징을 가지는지를 판별하는 문제를 직접적으로 해결하기 위한 모델이 아니라, 각 태그에 대한 이진 관련성 문제(Binary Relevance Problem)로 변환한 형태의 모델을 가질 수 있다. 예를 들어 상기 딥 러닝 시스템(100)이 구별할 수 있는 태그가 Tag_1 내지 Tag_M이라면, 상기 딥 러닝 시스템(100)은 Tag_1에 의해 표현되는 특징을 판별(예측)하기 위한 모델, Tag_2에 의해 표현되는 특징을 판별하기 위한 모델, …, Tag_M에 의해 표현되는 특징을 판별하기 위한 모델을 가질 수 있다.

딥 러닝에서 사용하는 모델은 심층 신경망(Deep Neural Network, DNN), 합성곱 신경망(Convolutional Neural Network, CNN), 순환 신경망(Recurrent Neural Network, RNN), 제한 볼츠만 머신 (Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망 (Deep Belief Network, DBN), 심층 Q-네트워크(Deep Q-Networks) 등을 들 수 있다.

상기 저장모듈(110)은 특정한 특징에 대한 학습 데이터를 획득하고, 획득한 학습 데이터를 저장할 수 있다. 상기 저장모듈(110)은 상기 딥 러닝 시스템(100)이 구비하고 있는 저장매체 또는 데이터베이스에 학습 데이터를 저장할 수 있다. 상기 특정한 특징에 대한 학습 데이터는 상기 딥 러닝 시스템(100)이 임의의 데이터가 상기 특징을 가지는지 여부를 판별(예측)하기 위한 모델을 트레이닝하기 위하여 이용되는 데이터일 수 있다.

상기 학습 데이터는 소정의 특징에 대하여 포지티브(positive)로 레이블링(labeling)된 1 이상의 포지티브 데이터 및 상기 특징에 대하여 레이블링되지 않은 복수의 언레이블드(unlabeled) 데이터를 포함할 수 있다. 또한 실시예에 따라 상기 학습 데이터는 상기 특징에 대하여 네거티브(negative)로 레이블링된 1 이상의 네거티브 데이터를 더 포함할 수도 있다.

상기 포지티브 데이터는 상기 특징을 가지는 것으로 판단된 데이터를 의미할 수 있으며, 상기 네거티브 데이터는 상기 특징을 가지지 않는 것으로 판단된 데이터를 의미할 수 있다. 특정 데이터가 상기 특징을 가지는지 여부는 해당 데이터에 상기 특징에 상응하는 태그가 부여하였는지에 의해 결정될 수 있다. 한편 상기 언레이블드 데이터는 상기 특징을 가지는지 여부에 대한 판단이 이루어지지 않은 데이터를 의미할 수 있다.

한편, 상기 복수의 언레이블드 데이터는 인터넷에서 크롤링하여 모은 데이터일 수 있다.

상기 저장모듈(110)은 특정 데이터에 상기 특징에 상응하는 태그가 부착되어 있는 경우 상기 특정 데이터를 포지티브 데이터로 취급할 수 있다. 상기 저장모듈(110)은 상기 특정 데이터에 태그가 부착되어 있지 않은 경우 상기 특정 데이터를 네거티브 데이터로 취급할 수 있다.

한편, 상기 저장모듈(110)은 태그가 전혀 부착되지 않은 데이터를 언레이블드 데이터라고 취급할 수 있으며, 경우에 따라서는 특정 데이터에 태그가 부착되어 있지 않은 경우 상기 특정 데이터를 언레이블드 데이터로 취급할 수 있다.

한편, 상기 트레이닝모듈(120)은 미니 배치 경사하강법(Mini-batch Gradient Decent)을 통하여 모델을 트레이닝할 수 있다. 보다 상세하게는 상기 트레이닝모듈(120)은 크기가 S_T인 미니 배치(mini-batch)를 구성하고(여기서, 미리 정의된 S_T는 상기 복수의 언레이블드 데이터의 개수보다 작은 자연수), 구성된 상기 미니 배치에 포함된 데이터를 학습대상으로 하여 다층 신경망 모델을 트레이닝하는 과정을 상기 1이상의 포지티브 데이터 및 상기 복수의 언레이블드 데이터 전부를 학습 대상으로 한 상기 다층 신경망 모델의 트레이닝이 완료될 때까지 반복 수행할 수 있다.

도 2는 상기 트레이닝모듈(120)이 상기 특징에 상응하는 다층 신경망 모델을 트레이닝하는 과정을 도시한 흐름도이다.

도 2를 참조하면, 상기 트레이닝모듈(120)은 상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개(여기서 미리 정의된 S_P는 S_T보다 작은 자연수)의 포지티브 학습 데이터를 상기 미니 배치에 추가할 수 있다 (S110).

또한 상기 트레이닝모듈(120)은 상기 복수의 언레이블드 데이터 중 일부이며 아직 학습 대상이 되지 않은 S_N개(여기서 미리 정의된 S_N은 S_T- S_P)의 언레이블드 학습 데이터를 선택할 수 있다(S120). 따라서 전체 트레이닝 과정 중에 각각의 언레이블드 데이터는 1회만 사용될 수 있다. 반면 포지티브 데이터는 1회 이상 사용될 수도 있다.

또한 상기 트레이닝모듈(120)은 선택된 상기 S_N개의 언레이블드 학습 데이터를 네거티브로 라벨링하고, 네거티브로 라벨링된 상기 언레이블드 학습 데이터를 상기 미니 배치에 추가할 수 있다(S130).

이후 상기 트레이닝모듈(120)은 구성된 상기 미니 배치에 포함된 데이터를 학습대상으로 하여 다층 신경망 모델을 트레이닝할 수 있다(S140). 딥 러닝의 트레이닝 과정에서는 , 경사하강법 등이 이용될 수 있다.

트레이닝의 대상이 되는 모델은 몇 가지 파라미터(예를 들면, 웨이트 메트릭스 W, 바이어스 벡터 b 등)에 의해 표현될 수 있으며, 학습 데이터를 통한 트레이닝 과정에 의해 모델을 표현하는 파라미터가 조정될 수 있다.

한편 상기 트레이닝모듈(120)은 상기 1이상의 포지티브 데이터 및 상기 복수의 언레이블드 데이터 전부를 학습 대상으로 한 상기 다층 신경망 모델의 트레이닝이 완료될 때까지 S100 내지 S130 단계를 반복 수행할 수 있다(S150).

한편, 일 실시예에서, S100 단계는, 상기 포지티브 데이터의 개수가 S_P보다 작은 경우, 상기 포지티브 데이터 중 적어도 일부에 대한 레이블 보존 변환(Label-Preserved Transformation)을 수행하여 상기 S_P 개의 포지티브 학습 데이터를 생성하는 단계; 및 생성된 상기 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하는 단계를 포함할 수 있다.

특히, 상기 학습 데이터는 이미지 데이터일 수 있으며, 이때 상기 레이블 보전 변환은 이미지 크로핑인 것을 특징으로 할 수 있다.

또한 일 실시예에서, S100 단계는, 상기 포지티브 데이터의 개수가 S_P보다 큰 경우, 상기 포지티브 데이터 중 S_P개를 롤링 전략에 따라 선택하는 단계 및 선택된 상기 S_P개의 포지티브 데이터를 상기 미니 배치에 추가하는 단계를 포함할 수 있다.

한편 상기 미니 배치의 크기 S_T, 상기 미니 배치에 포함될 포지티브 데이터의 개수 S_P 및 상기 미니 배치에 포함될 네거티브 데이터(엄밀하게는 네거티브로 레이블링되어 있다고 가정한 언레이블드 데이터)의 개수S_N는 미리 결정되어 있을 수 있으며, 바람직하게는 S_P 및S_N은 S_T의 절반 정도일 수 있다(즉, S_P 및S_N는 upper(S_T/2) 또는 lower(S_T/2)).

상술한 바와 같은 방법으로 미니 배치를 구성하여 이를 이용한 트레이닝을 수행할 경우, 해당 특징을 가진다는 점에 대한 명시적인 판단이 이루어지지 않은 다수의 데이터(즉, 언레이블드 데이터)를 이용하더라도 성공적인 딥 러닝 학습이 이루어질 수 있다. 언레이블드 데이터 중 실제로는 포지티브인 것(즉, 노이즈)이 섞여 있는 경우라도 미니 배치 내에는 이미 충분한 포지티브 데이터가 포함되어 있으므로 노이즈가 상당부분 상쇄될 수 있기 때문이다.

다시 도 1을 참조하면 상기 튜닝모듈(130)은 상기 1 이상의 포지티브 데이터 및 상기 1 이상의 네거티브 데이터를 학습 대상으로 하여 상기 다층 신경망 모델을 튜닝(fine-tuning)할 수 있다.

즉, 상기 튜닝모듈(130)은 상기 1 이상의 포지티브 데이터 및 상기 1 이상의 네거티브 데이터를 이용하여 미니 배치를 구성하고, 구성된 미니배치에 포함되어 있는 데이트를 학습대상으로 하여 다층 신경망 모델을 트레이닝할 수 있으며, 포지티브 데이터의 개수 또는 네거티브 데이터의 개수가 부족한 경우, 일반적인 Data Augmentation (즉, 레이블 보존 변환) 기법을 통해 데이터의 개수를 증가시켜 사용할 수 있다.

한편, 상술한 트레이닝 과정 및 튜닝 과정이 수행되고 나면 최적화된 파라미터를 가지는 모델이 형성되며, 상기 예측모듈(140)은 최적화된 모델에 라벨링되지 않은 데이터를 입력함으로써, 입력한 데이터에 상응하는 결과값(레이블)을 예측(판단)할 수 있다.

한편, 구현 예에 따라서, 상기 딥 러닝 시스템(100)은 프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함할 수 있다. 상기 프로세서는 싱글 코어 CPU혹은 멀티 코어 CPU를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체상태 메모리 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 프로세서 및 기타 구성 요소에 의한 메모리로의 액세스는 메모리 컨트롤러에 의해 제어될 수 있다. 여기서, 상기 프로그램은, 프로세서에 의해 실행되는 경우, 본 실시예에 따른 딥 러닝 시스템(100)으로 하여금, 상술한 레이블링되지 않은 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법을 수행하도록 할 수 있다.

한편, 본 발명의 실시예에 따른 레이블링되지 않은 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명의 실시예에 따른 제어 프로그램 및 대상 프로그램도 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 상술한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

(a) 딥 러닝 시스템이, 학습 데이터를 획득하는 단계-여기서, 상기 학습 데이터는 소정의 특징에 대하여 포지티브로 레이블링된 1 이상의 포지티브 데이터 및 상기 특징에 대하여 레이블링되지 않은 복수의 언레이블드 데이터를 포함함;
(b) 상기 딥 러닝 시스템이, 크기가 S_T인 미니 배치(mini-batch)를 구성하는 단계여기서, 미리 정의된 S_T는 상기 복수의 언레이블드 데이터의 개수보다 작은 자연수);
(c) 상기 딥 러닝 시스템이, 구성된 상기 미니 배치에 포함된 데이터를 학습대상으로 하여 다층 신경망 모델을 트레이닝하는 단계; 및
(d) 상기 1이상의 포지티브 데이터 및 상기 복수의 언레이블드 데이터 전부를 학습 대상으로 한 상기 다층 신경망 모델의 트레이닝이 완료될 때까지 상기 (b) 단계 및 상기 (c) 단계를 반복 수행하는 단계를 포함하되,
상기 (b) 단계는,
(b-1) 상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하는 단계(여기서 미리 정의된 S_P는 S_T보다 작은 자연수);
(b-2) 복수의 언레이블드 데이터 중 일부이며 아직 학습 대상이 되지 않은 S_N개의 언레이블드 학습 데이터를 선택하는 단계(여기서 미리 정의된 S_N은 S_T- S_P); 및
(b-3) 선택된 상기 S_N개의 언레이블드 학습 데이터를 네거티브로 라벨링하고, 네거티브로 라벨링된 상기 언레이블드 학습 데이터를 상기 미니 배치에 추가하는 단계를 포함하는 레이블링되지 않은 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법.
제1항에 있어서,
상기 (b-1) 단계는,
상기 포지티브 데이터의 개수가 S_P보다 작은 경우, 상기 포지티브 데이터 중 적어도 일부에 대한 레이블 보존 변환(Label-Preserved Transformation)을 수행하여 상기 S_P 개의 포지티브 학습 데이터를 생성하는 단계; 및
생성된 상기 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하는 단계를 포함하는 레이블링되지 않은 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법.
제2항에 있어서,
상기 학습 데이터는 이미지 데이터이며, 상기 레이블 보전 변환은 이미지 크로핑인 것을 특징으로 하는 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법.
제1항에 있어서,
상기 (b-1) 단계는,
상기 포지티브 데이터의 개수가 S_P보다 큰 경우, 상기 포지티브 데이터 중 S_P개를 롤링 전략에 따라 선택하는 단계; 및
선택된 상기 S_P개의 포지티브 데이터를 상기 미니 배치에 추가하는 단계를 포함하는 레이블링되지 않은 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법.
제1항에 있어서,
상기 학습 데이터는 상기 특징에 대하여 네거티브로 레이블링된 1 이상의 네거티브 데이터를 더 포함하되,
상기 레이블링되지 않은 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법은,
상기 (d) 단계가 수행된 후, 상기 1 이상의 포지티브 데이터 및 상기 1 이상의 네거티브 데이터를 학습 대상으로 하여 상기 다층 신경망 모델을 튜닝하는 단계를 더 포함하는 다수의 학습 데이터를 이용한 다층 신경망 모델 트레이닝 방법.
데이터 처리장치에 설치되며 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하는 기록 매체에 저장된 컴퓨터 프로그램.
딥러닝 시스템으로서,
프로세서; 및
상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며,
상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 상기 딥러닝 시스템이 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하도록 하는 딥러닝 시스템.
학습 데이터를 저장하는 저장모듈-여기서, 상기 학습 데이터는 소정의 특징에 대하여 포지티브로 레이블링된 1 이상의 포지티브 데이터 및 상기 특징에 대하여 레이블링되지 않은 복수의 언레이블드 데이터를 포함함;
크기가 S_T인 미니 배치(mini-batch)를 구성하고(여기서, 미리 정의된 S_T는 상기 복수의 언레이블드 데이터의 개수보다 작은 자연수), 구성된 상기 미니 배치에 포함된 데이터를 학습대상으로 하여 다층 신경망 모델을 트레이닝하는 과정을 상기 1이상의 포지티브 데이터 및 상기 복수의 언레이블드 데이터 전부를 학습 대상으로 한 상기 다층 신경망 모델의 트레이닝이 완료될 때까지 반복 수행하는 트레이닝모듈을 포함하되,
상기 트레이닝모듈은, 크기가 S_T인 미니 배치를 구성하기 위하여,
상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하고(여기서 미리 정의된 S_P는 S_T보다 작은 자연수),
복수의 언레이블드 데이터 중 일부이며 아직 학습 대상이 되지 않은 S_N개의 언레이블드 학습 데이터를 선택하고(여기서 미리 정의된 S_N은 S_T- S_P),
선택된 상기 S_N개의 언레이블드 학습 데이터를 네거티브로 라벨링하고, 네거티브로 라벨링된 상기 언레이블드 학습 데이터를 상기 미니 배치에 추가하는 딥 러닝 시스템.
제8항에 있어서,
상기 트레이닝모듈은, 상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하기 위하여,
상기 포지티브 데이터의 개수가 S_P보다 작은 경우, 상기 포지티브 데이터 중 적어도 일부에 대한 레이블 보존 변환(Label-Preserved Transformation)을 수행하여 상기 S_P 개의 포지티브 학습 데이터를 생성하고,
생성된 상기 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하는 딥 러닝 시스템.
제8항에 있어서,
상기 트레이닝모듈은, 상기 1 이상의 포지티브 데이터 중 적어도 일부에 의해 정의되는 S_P 개의 포지티브 학습 데이터를 상기 미니 배치에 추가하기 위하여,
상기 포지티브 데이터의 개수가 S_P보다 큰 경우, 상기 포지티브 데이터 중 S_P개를 롤링 전략에 따라 선택하고,
선택된 상기 S_P개의 포지티브 데이터를 상기 미니 배치에 추가하는 딥 러닝 시스템.
제8항에 있어서,
상기 학습 데이터는 상기 특징에 대하여 네거티브로 레이블링된 1 이상의 네거티브 데이터를 더 포함하되,
상기 딥 러닝 시스템은,
상기 1 이상의 포지티브 데이터 및 상기 1 이상의 네거티브 데이터를 학습 대상으로 하여 상기 다층 신경망 모델을 튜닝하는 튜닝모듈을 더 포함하는 딥 러닝 시스템.