KR102037279B1

KR102037279B1 - 딥러닝 시스템 및 그 최적 학습 모델 결정 방법

Info

Publication number: KR102037279B1
Application number: KR1020190015502A
Authority: KR
Inventors: 최우식; 김태규; 박무성; 김화평; 배준호; 이용은
Original assignee: 주식회사 딥노이드
Priority date: 2019-02-11
Filing date: 2019-02-11
Publication date: 2019-11-15

Abstract

본 발명은 딥러닝 시스템 및 그 최적 학습 모델 결정 방법에 관한 것이다. 본 발명에 따른 딥러닝 시스템의 최적 학습 모델 결정 방법은 (a) 복수의 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파리미터가 상호 상이하게 입력되는 단계와, (b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와, (c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어, 후보 학습 모델이 결정되는 단계와, (e) 상기 후보 학습 모델의 가중치가 후보 학습 가중치로 추출되는 단계와, (f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되는 단계와, (g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와, (h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계가 반복 수행되는 단계를 포함하며; 상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델이 최적 학습 모델로 결정되는 것을 특징으로 한다. 이에 따라, 복수의 딥러닝(DL) 프로세서를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있다.

Description

딥러닝 시스템 및 그 최적 학습 모델 결정 방법{DEEP LEARNING SYSTEM AND METHOD FOR DETERMINING OPTIMUM LEARNING MODEL}

본 발명은 딥러닝 시스템 및 그 최적 학습 모델 결정 방법에 관한 것으로서, 보다 상세하게는 복수의 딥러닝(DL) 프로세서를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있는 딥러닝 시스템 및 그 최적 학습 모델 결정 방법에 관한 것이다.

딥러닝이란 사람의 신경세포(Biological Neuron)를 모사하여 기계가 학습하도록 하는 인공신경망(Artificial Neural Network) 기반의 기계 학습법을 의미한다. 최근, 딥러닝 기술은 이미지 인식, 음성 인식, 자연어 처리의 발전에 기여하면서 크게 주목받고 있다. 그리고 오늘날의 딥러닝 모델들은 응용의 인식 성능을 높이기 위해 모델의 계층이 깊어지고(Deep), 특징(Feature)이 많아지는(Wide) 대규모 모델로 진화하고 있다.

그러나, 대형화되는 딥러닝 모델과 대규모의 학습 데이터를 단일 머신에서 처리하기에는 한계가 있어, 대규모 분산 컴퓨팅 자원을 활용하려는 노력의 일환으로 딥러닝 분산 플랫폼 기술이 개발되고 있으며, 이러한 딥러닝 분산 플랫폼에서는 분산 병렬 처리를 통하여 딥러닝 트레이닝 가속을 시도하는데, 분산 병렬 처리 방법으로 데이터 병렬 처리(Data Parallelism)와 모델 병렬 처리(Model Parallelism) 방법이 제안된 바 있다. 이와 같은 딥러닝 분산 플랫폼 기술의 예로, 한국공개특허 제10-2018-0131836호에 '파라미터 서버 및 그것에 의해 수행되는 분산 딥러닝 파라미터 공유 방법'이 제안되었다.

그러나, 상기와 같은 딥러닝 분산 플랫폼 기술은 대용량의 학습 데이터를 학습하는데 있어 학습 속도를 향상시킬 수 있다는 장점을 제공하고 있지만, 최종적으로 학습된 학습 모델의 정확도를 함께 보장하는 것은 아니다. 즉, 딥러닝 시스템에서 학습 속도 뿐만 아니라 주요한 요소가 학습된 모델의 정확도에 있어 이를 보장하지 못할 때 해당 딥러닝 시스템은 정확한 결과를 출력하지 못하는 문제점이 있다.

딥러닝 시스템에서는 하이퍼 파라미터, 초기값, 가중치 등 다양한 파라미터에 의해 학습 후 최종 모델의 정확도가 큰 영향을 받기 때문에, 기존의 딥러닝 시스템에서는 상기 파라미터들을 바꾸어 가면서 최종 모델의 정확도를 측정하는 Try & Error 방식을 사용하였다.

그런데, Try & Error 방식은 최종 모델을 학습하는 과정이 N회 반복되는 경우, 1회 학습 시간에 N회를 곱한 시간 만큼 많은 시간이 소요되는 단점이 있다. 또한, 최적의 파라미터가 어떤 거인지 학인할 수 없기 때문에 모두 실험을 통해 얻어야 하는 단점이 있다.

특히, 딥러닝의 경우, 수식적으로 이루어진 모델의 가중치(Weight)를 자동으로 조절하여 원하는 답을 도출하는 기계 학습 방법이라는 점에서, 가중치의 초기값이 어떻게 설정되느냐에 따라 최종 모델의 성능이 결정되는데, Try & Error 방식은 랜덤한 초기값이 설정되면 학습이 종료될 때까지 이를 변경하지 않아, 초기값에 따라 성능 차이가 크게 발생할 수 있으므로, 최적의 초기값을 얻기 위해서는 더 많은 횟수의 학습 과정을 반복하여야 하는 문제점이 있다.

이에, 본 발명은 상기와 같은 문제점을 해소하기 위해 안출된 것으로서, 복수의 딥러닝(DL) 프로세서를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있는 딥러닝 시스템 및 그 최적 학습 모델 결정 방법을 제공하는데 그 목적이 있다.

상기 목적은 본 발명에 따라, 딥러닝 시스템의 최적 학습 모델 결정 방법에 있어서, (a) 복수의 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파리미터가 상호 상이하게 입력되는 단계와, (b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와, (c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어, 후보 학습 모델이 결정되는 단계와, (e) 상기 후보 학습 모델의 가중치가 후보 학습 가중치로 추출되는 단계와, (f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되는 단계와, (g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와, (h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계가 반복 수행되는 단계를 포함하며; 상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델이 최적 학습 모델로 결정되는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법에 의해서 달성된다.

여기서, 상기 (g) 단계에서는 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서의 상기 하이퍼 파리미터가 상호 상이하게 재 입력될 수 있다.

또한, 상기 하이퍼 파라미터는 학습률(learning rate), 디케이 비율(decay rate), 신경망 층수, 정규화(normalization) 기법, 풀링(pooling) 방법, 및 드롭아웃 비율(dropout rate) 중 적어도 하나를 포함할 수 있다.

그리고, 상기 (c) 단계에서는 다이스 스코어 또는 분류 정확도에 기초하여 상기 후보 학습 모델이 결정될 수 있다.

한편, 상기 목적은 본 발명의 다른 실시 형태에 따라, 딥러닝 시스템에 있어서, 학습 데이터를 이용하여 학습하는 복수의 딥러닝(DL) 프로세서와, 상기 딥러닝(DL) 프로세서의 학습 결과를 평가하기 위한 성능 평가부와, 상기 딥러닝(DL) 프로세서의 가중치를 로딩하기 위한 가중치 로딩부와, 상기 복수의 딥러닝(DL) 프로세서의 학습 결과에 기초하여 최적 학습 모델을 결정하는 학습 모델 결정부를 포함하고; 상기 학습 모델 결정부는 (a) 복수의 상기 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파리미터를 상호 상이하게 입력하는 단계와, (b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서를 학습시키는 단계와, (c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어 후보 학습 모델이 결정되도록 상기 성능 평가부를 제어하는 단계와, (e) 상기 후보 학습 모델의 가중치를 후보 학습 가중치로 추출하는 단계와, (f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되도록 가중치 로딩부를 제어하는 단계와, (g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서를 학습시키는 단계와, (h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계를 반복 수행하는 단계를 수행하며; 상기 학습 모델 결정부는 상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델을 상기 최적 학습 모델로 결정하는 것을 특징으로 하는 딥러닝 시스템에 의해서 달성된다.

여기서, 상기 학습 모델 결정부는 상기 (g) 단계에서 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서의 상기 하이퍼 파리미터를 상호 상이하게 재 입력할 수 있다.

그리고, 상기 성능 평가부는 (c) 단계에서 다이스 스코어 또는 분류 정확도에 기초하여 상기 후보 학습 모델을 결정할 수 있다.

상기와 같은 구성에 따라, 본 발명에 따르면, 복수의 딥러닝(DL) 프로세서를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있는 딥러닝 시스템 및 그 최적 학습 모델 결정 방법이 제공된다.

특히, 복수의 딥러닝(DL) 프로세서를 이용하는데 있어, 동일 에폭만큼 1회 학습할 경우, 기존의 학습법인 Try & Error 방식에 비해 다양한 하이퍼 파라미터를 적용하여 보다 다양한 학습 환경을 통해 최적의 학습 모델을 결정할 수 있게 된다.

또한, 설정된 에폭 주기 동안 학습이 진행된 후, 해당 에폭 주기에서 성능이 가장 뛰어난 후보 학습 모델의 가중치가 나머지 딥러닝(DL) 프로세서에 적용되고, 나머지 딥러닝(DL) 프로세서의 하이퍼 파라미터도 선택적으로 재조정함으로써, 초기값에 의한 영향을 최소화할 수 있게 된다.

또한, 하나의 에폭 주기에서 각각의 딥러닝(DL) 프로세서에 상이하게 적용된 하이퍼 파리미터를 저장해둠으로써, 추후 새로운 딥러닝 과정에서 초기에 최적의 하이퍼 파라미터를 사용할 수 있게 됨으로써, 유사한 딥러닝 시스템에 적용 가능한 자료의 수집이 가능하게 된다.

도 1은 본 발명에 따른 딥러닝 시스템의 구성을 나타낸 도면이고,
도 2 및 도 3은 본 발명에 따른 딥러닝 시스템의 최적 학습 모델 결정 방법의 일 예를 설명하기 위한 도면이고,
도 4는 본 발명에 따른 딥러닝 시스템의 최적 학습 모델 결정 방법의 다른 예를 설명하기 위한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하에서는 첨부된 도면을 참조하여 본 발명에 따른 실시예들을 상세히 설명한다.

도 1은 본 발명에 따른 딥러닝 시스템(100)의 구성을 나타낸 도면이다. 도 1에 도시된 바와 같이, 본 발명에 따른 딥러닝 시스템(100)은 복수의 딥러닝(DL) 프로세서(111,112,113), 성능 평가부(120), 가중치 로딩부(130) 및 학습 모델 결정부(140)를 포함한다.

각각의 딥러닝(DL) 프로세서(111,112,113)는 학습 데이터를 이용하여 학습한다. 본 발명에서는 딥러닝(DL) 프로세서(111,112,113)가 딥러닝 방식을 이용하여 학습하는 것을 예로 하며, 의료 영상의 진단에 적용 가능하게 의료 영상과 진단 정보를 학습 데이터로 사용하는 것을 예로 한다. 여기서, 학습 데이터가 의료 영상과 같은 이미지인 경우, 딥러닝(DL) 프로세서(111,112,113)는 GPU(Graphic Processing Unit) 형태로 마련될 수 있는데, 그 명칭에 본 발명의 기술적 사상이 국한되지 않음은 물론이다.

성능 평가부(120)는 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가한다. 본 발명에서는 성능 평가부(120)가 다이스 스코어(Dice Score, 또는 Dice coefficient, 이하 동일) 또는 분류 정확도에 기초하여 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가하는 것을 예로 한다.

예컨대, 본 발명에 따른 딥러닝 시스템(100)이 세그멘테이션 모델(Segmentation model)인 경우, 다이스 스코어를 이용하여 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가할 수 있다. 다이스 스코어는 정답 영역가 예측 영역의 겹치는 비율을 점수화한 판단 기준으로, 두 영역이 많이 겹칠수록 점수가 높아지는 특징이 있다.

다른 예로, 본 발명에 따른 딥러닝 시스템(100)이 분류 모델(Classificaton model)인 경우, 분류 정확도를 이용하여 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가할 수 있다. 일반적으로 전체 개수와 정답 개수의 비율을 이용한다.

가중치 로딩부(130)는 딥러닝(DL) 프로세서(111,112,113)의 가중치를 각각의 딥러닝(DL) 프로세서(111,112,113)에 로딩한다. 딥러닝은 복잡한 수식으로 이루어진 모델의 가중치, 즉 Weight를 자동으로 조절하여 원하는 답을 도출하는 기계 학습 기법이다. 학습을 시작할 때는 적절한 가중치가 없으므로 무작위로 가중치를 정하는데, 이를 초기값이라 한다. 일반적으로 딥러닝 시스템(100)에서 초기값의 배분에 따라 학습이 잘 이루어질 수 있고, 반대로 아예 학습이 이루어지지 않을 수도 있으므로 적절한 초기값 설정이 중요한데, 본 발명에 따른 가중치 로딩부(130)가 각각의 딥러닝(DL) 프로세서(111,112,113)에 가중치를 로딩하는 방법에 대한 상세한 설명은 후술한다.

학습 모델 결정부(140)는 복수의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과에 기초하여 최적 학습 모델을 결정한다. 본 발명에 따른 학습 모델 결정부(140)는 복수의 딥러닝(DL) 프로세서(111,112,113)의 개별적인 학습 결과에 따라 서바이벌 방식으로 초적 학습 모델을 결정하는데, 이하에서는 학습 모델 결정부(140)가 상기와 같은 구성에 따라 초적 학습 모델을 결정하는 방법의 일 예를 도 2 및 도 3을 참조하여 설명한다.

먼저, 복수의 딥러닝(DL) 프로세서(111,112,113)에 의한 학습을 위해 상술한 예에서와 같이 학습 데이터가 준비되면, 각각의 딥러닝(DL) 프로세서(111,112,113)에 적어도 하나의 하이퍼 파라미터를 상호 상이하게 입력한다.

하이퍼 파라미터는 딥러닝에 있어 학습 전에 직접 등록해주여야 하는 학습 옵션으로, 본 발명에서는 학습률(learning rate), 디케이 비율(decay rate), 신경망 층수, 정규화(normalization) 기법, 풀링(pooling) 방법, 및 드롭아웃 비율(dropout rate)을 포함하는 것을 예로 하며, 이러한 하이퍼 파라미터 중 적어도 하나 또는 전부를 각각의 딥러닝(DL) 프로세서(111,112,113)에 상이하게 등록한다(S20).

여기서, 학습률(learning rate)은 가중치 갱신 비율, 즉 모델의 학습 속도를 의미한다. 학습률이 크면 학습 속도가 빨라지나, 학습이 불안정해질 수 있으며, 반대로 작으면 학습은 점진적으로 이루어지나, 학습이 느려지거나 중간에 학습이 멈추는 경우가 발생할 수 있다.

디케이 비율(decay rate)은 학습이 진행됨에 따라 학습률을 점차 낮추는 비율로, 초기에는 학습률을 높여 빨리 학습되게 하고, 점차 안정적인 학습을 위해 학습 속도를 줄이는 용도로 사용된다.

신경망 층수가 늘어날수록 표현력이 증가해 복잡한 표현을 할 수 있으나, 지나치게 많을 경우 훈련 데이터에 과적합(overfitting)이 발생할 수 있다.

정규화(normalization) 기법은 신경망 사이에 넣어주는 데이터 정규화 기법으로 학습이 수월하도록 데이터를 정제해준다. 주로 배치 정규화(batch normalization), 그룹 정규화(group normalization)가 사용되며, 모델에 따라 적합한 방식이 적용될 수 있는데, 2 이상의 정규화 기법이 선택적으로 적용될 수 있는 경우 이를 상이하게 등록할 수 있다.

풀링(pooling) 방법은 신경망 층 사이에서 이미지 사이즈를 줄여주는 기법으로 max pooling 과 average pooling이 주로 사용되며, 이를 각각의 딥러닝(DL) 프로세서(111,112,113)에 서로 다르게 적용할 수 있다.

드롭아웃 비율(dropout rate)은 학습 중간에 노드 일부를 무작위로 학습에서 배제하는 방식으로 훈련 데이터에 과적합(overfitting)을 방지해 준다. 드롭아웃 비율(dropout rate)이 높을수록 배제되는 노드가 많아져 과적합 방지에 효과적이나, 지나치게 비율이 높을 경우 학습을 지연시키게 된다.

상기와 같이 각각의 딥러닝(DL) 프로세서(111,112,113)에 상이한 하이퍼 파라미터가 등록된 상태에서, 학습 모델 결정부(140)는 각각의 딥러닝(DL) 프로세서(111,112,113)를 학습시킨다(S21). 본 발명에서는 1차적으로 기 설정된 에폭 주기(K-epochs) 동안 학습시키는 것을 예로 하는데, 도 3에서는 20 에폭을 에폭 주기로 설정하는 것을 예로 한다.

각각의 딥러닝(DL) 프로세서(111,112,113)는 에폭 주기 동안 학습이 되었는지 여부를 판단하고(S22), 에폭 주기 동안의 학습이 완료되면 1차적으로 학습을 종료한다. 여기서, 에폭 주기 동안의 학습은 각각의 딥러닝(DL) 프로세서(111,112,113)에 하이퍼 파라미터로 등록할 수 있다.

상기와 같이, 1차 에폭 주기 동안의 학습이 종료되면, 성능 평가부(120)는 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가한다(S23). 즉 성능 평가부(120)는 상술한 바와 같은 성능 평가 방법을 이용하여 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과의 성능을 평가하여, 최고의 성능을 나타낸 딥러닝(DL) 프로세서(111,112,113)의 학습 모델을 후보 학습 모델로 결정한다. 도 3에서는 두 번째 딥러닝(DL) 프로세서(112)의 학습 모델이 후보 학습 모델로 결정된 것을 예로 하고 있다.

후보 학습 모델이 결정되면, 학습 모델 결정부(140)는 후보 학습 모델의 가중치를 후보 학습 가중치로 추출하고, 후보 학습 모델을 제외한 나머지의 딥러닝(DL) 프로세서(111,113), 예컨대, 도 3에서 첫 번째 딥러닝(DL) 프로세서(111)와 세 번째 딥러닝(DL) 프로세서(113)에 후보 학습 모델의 후보 학습 가중치가 업데이트되어 로딩되도록 가중치 로딩부(130)를 제어한다(S26).

상술한 바와 같이, 딥러닝 기법은 학습 과정에서 가중치가 자동으로 조절되면서 원하는 답을 도출하는 기법으로, 각각의 딥러닝(DL) 프로세서(111a,112,113a)는 학습 개시시 가중치로 임의의 초기값이 설정된 상태로 학습 과정에서 가중치가 변하게 되는데, 첫 번째 에폭 주기에서 최적의 결과를 도출한 후보 학습 모델의 가중치를 나머지 모델에 로딩함으로써, 나머지 모델에 초기값에 따른 민감도를 줄이고 보다 안정적이고 정확한 모델의 도출을 가능하게 한다.

상기와 같이, 후보 학습 가중치가 나머지의 딥러닝(DL) 프로세서(111a,113a)에 로딩되면, 다시 에폭 주기 동안 각각의 딥러닝(DL) 프로세서(111a,112,113a)를 학습시키는 과정이 S21 및 S22 단계를 통해 진행된다. 여기서, 후보 학습 모델로 결정된 딥러닝(DL) 프로세서(112), 예컨대 도 3의 두 번째 딥러닝(DL) 프로세서(112)는 가중치의 변화 없이 그대로 학습이 진행된다.

그리고, 두 번째의 에폭 주기 동안의 학습이 종료되면, 마찬가지로, 성능 평가부(120)가 두 번째의 에폭 주기 동안의 학습 결과의 성능을 평가하고(S23), 평가 결과에 따라 후보 학습 모델을 결정하고, 후보 학습 모델의 가중치를 후보 학습 가중치로 추출하여 나머지 딥러닝(DL) 프로세서(112,113a)에 로딩한다(S26).

도 3에서는 두 번째 에폭 주기에서 첫 번째 딥러닝(DL) 프로세서(111a)가 후보 학습 모델로 결정된 예를 나타내고 있으며, 이에 따라 두 번째 및 세 번째 딥러닝(DL) 프로세서(112,113a)에 후보 학습 가중치가 로딩된다.

상기와 같은 과정을 N회 반복 수행한 후(S24), 예컨대 도 3에서는 3회 수행한 후, 성능 평가(S23) 결과에서 후보 학습 모델로 결정된 모델이 최적 학습 모델로 최종적으로 결정된다(S25). 도 3에서는 세 번째 딥러닝(DL) 프로세서(113b)의 학습 결과가 최적 학습 모델로 결정되는 것을 예로 하고 있다.

한편, 도 4는 본 발명에 따른 딥러닝 시스템(100)의 최적 학습 모델 결정 방법의 다른 예를 설명하기 위한 도면이다. 도 4에 도시된 실시예에서는 최적 학습 모델 결정 방법에 있어, 각 에폭 주기가 종료된 후 새로운 학습이 시작될 때, 후보 학습 모델을 제외한 타 모델의 하이퍼 파리미터가 수정된 후(S47), 새로운 학습이 수행되는 예를 나타내고 있다. 이외에 도 4에 도시된 S40 단계 내지 S46 단계는 전술한 실시예에서의 S20 단계 내지 S26 단계에 대응하는 바, 그 상세한 설명은 생략한다.

상기와 같은 구성에 따라, 복수의 딥러닝(DL) 프로세서(111,112,113)를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있게 된다.

특히, 복수의 딥러닝(DL) 프로세서(111,112,113)를 이용하는데 있어, 동일 에폭만큼 1회 학습할 경우, 기존의 학습법인 Try & Error 방식에 비해 다양한 하이퍼 파라미터를 적용하여 보다 다양한 학습 환경을 통해 초적의 학습 모델을 결정할 수 있게 된다.

또한, 설정된 에폭 주기 동안 학습이 진행된 후, 해당 에폭 주기에서 성능이 가장 뛰어난 후보 학습 모델의 가중치가 나머지 딥러닝(DL) 프로세서(111,112,113)에 적용되고, 나머지 딥러닝(DL) 프로세서(111,112,113)의 하이퍼 파라미터도 선택적으로 재조정함으로써, 초기값에 의한 영향을 최소화할 수 있게 된다.

또한, 하나의 에폭 주기에서 각각의 딥러닝(DL) 프로세서(111,112,113)에 상이하게 적용된 하이퍼 파리미터를 저장해둠으로써, 추후 새로운 딥러닝 과정에서 초기에 최적의 하이퍼 파라미터를 사용할 수 있게 됨으로써, 유사한 딥러닝 시스템(100)에 적용 가능한 자료의 수집이 가능하게 된다.

비록 본 발명의 몇몇 실시예들이 도시되고 설명되었지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 당업자라면 본 발명의 원칙이나 정신에서 벗어나지 않으면서 본 실시예를 변형할 수 있음을 알 수 있을 것이다. 발명의 범위는 첨부된 청구항과 그 균등물에 의해 정해질 것이다.

100 : 딥러닝 시스템 111,112,113 : 딥러닝(DL) 프로세서
120 : 성능 평가부 130 : 가중치 로딩부
140 : 학습 모델 결정부

Claims

딥러닝 시스템의 최적 학습 모델 결정 방법에 있어서,
(a) 복수의 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파라미터가 상호 상이하게 입력되는 단계와,
(b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와,
(c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어, 후보 학습 모델이 결정되는 단계와,
(e) 상기 후보 학습 모델의 가중치가 후보 학습 가중치로 추출되는 단계와,
(f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되는 단계와,
(g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와,
(h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계가 반복 수행되는 단계를 포함하며;
상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델이 최적 학습 모델로 결정되는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법.
제1항에 있어서,
상기 (g) 단계에서는 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서의 상기 하이퍼 파리미터가 상호 상이하게 재 입력되는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법.
제1항에 있어서,
상기 하이퍼 파라미터는 학습률(learning rate), 디케이 비율(decay rate), 신경망 층수, 정규화(normalization) 기법, 풀링(pooling) 방법, 및 드롭아웃 비율(dropout rate) 중 적어도 하나를 포함하는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법.
제1항에 있어서,
상기 (c) 단계에서는 다이스 스코어 또는 분류 정확도에 기초하여 상기 후보 학습 모델이 결정되는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법.
딥러닝 시스템에 있어서,
학습 데이터를 이용하여 학습하는 복수의 딥러닝(DL) 프로세서와,
상기 딥러닝(DL) 프로세서의 학습 결과를 평가하기 위한 성능 평가부와,
상기 딥러닝(DL) 프로세서의 가중치를 로딩하기 위한 가중치 로딩부와,
상기 복수의 딥러닝(DL) 프로세서의 학습 결과에 기초하여 최적 학습 모델을 결정하는 학습 모델 결정부를 포함하고;
상기 학습 모델 결정부는
(a) 복수의 상기 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파리미터를 상호 상이하게 입력하는 단계와,
(b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서를 학습시키는 단계와,
(c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어 후보 학습 모델이 결정되도록 상기 성능 평가부를 제어하는 단계와,
(e) 상기 후보 학습 모델의 가중치를 후보 학습 가중치로 추출하는 단계와,
(f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되도록 가중치 로딩부를 제어하는 단계와,
(g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서를 학습시키는 단계와,
(h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계를 반복 수행하는 단계를 수행하며;
상기 학습 모델 결정부는 상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델을 상기 최적 학습 모델로 결정하는 것을 특징으로 하는 딥러닝 시스템.
제5항에 있어서,
상기 학습 모델 결정부는 상기 (g) 단계에서 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서의 상기 하이퍼 파리미터를 상호 상이하게 재 입력하는 것을 특징으로 하는 딥러닝 시스템.
제5항에 있어서,
상기 하이퍼 파라미터는 학습률(learning rate), 디케이 비율(decay rate), 신경망 층수, 정규화(normalization) 기법, 풀링(pooling) 방법, 및 드롭아웃 비율(dropout rate) 중 적어도 하나를 포함하는 것을 특징으로 하는 딥러닝 시스템.
제5항에 있어서,
상기 성능 평가부는 (c) 단계에서 다이스 스코어 또는 분류 정확도에 기초하여 상기 후보 학습 모델을 결정하는 것을 특징으로 하는 딥러닝 시스템.