KR102037279B1 - 딥러닝 시스템 및 그 최적 학습 모델 결정 방법 - Google Patents

딥러닝 시스템 및 그 최적 학습 모델 결정 방법 Download PDF

Info

Publication number
KR102037279B1
KR102037279B1 KR1020190015502A KR20190015502A KR102037279B1 KR 102037279 B1 KR102037279 B1 KR 102037279B1 KR 1020190015502 A KR1020190015502 A KR 1020190015502A KR 20190015502 A KR20190015502 A KR 20190015502A KR 102037279 B1 KR102037279 B1 KR 102037279B1
Authority
KR
South Korea
Prior art keywords
learning
candidate
processors
deep learning
learning model
Prior art date
Application number
KR1020190015502A
Other languages
English (en)
Inventor
최우식
김태규
박무성
김화평
배준호
이용은
Original Assignee
주식회사 딥노이드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥노이드 filed Critical 주식회사 딥노이드
Priority to KR1020190015502A priority Critical patent/KR102037279B1/ko
Application granted granted Critical
Publication of KR102037279B1 publication Critical patent/KR102037279B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 딥러닝 시스템 및 그 최적 학습 모델 결정 방법에 관한 것이다. 본 발명에 따른 딥러닝 시스템의 최적 학습 모델 결정 방법은 (a) 복수의 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파리미터가 상호 상이하게 입력되는 단계와, (b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와, (c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어, 후보 학습 모델이 결정되는 단계와, (e) 상기 후보 학습 모델의 가중치가 후보 학습 가중치로 추출되는 단계와, (f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되는 단계와, (g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와, (h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계가 반복 수행되는 단계를 포함하며; 상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델이 최적 학습 모델로 결정되는 것을 특징으로 한다. 이에 따라, 복수의 딥러닝(DL) 프로세서를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있다.

Description

딥러닝 시스템 및 그 최적 학습 모델 결정 방법{DEEP LEARNING SYSTEM AND METHOD FOR DETERMINING OPTIMUM LEARNING MODEL}
본 발명은 딥러닝 시스템 및 그 최적 학습 모델 결정 방법에 관한 것으로서, 보다 상세하게는 복수의 딥러닝(DL) 프로세서를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있는 딥러닝 시스템 및 그 최적 학습 모델 결정 방법에 관한 것이다.
딥러닝이란 사람의 신경세포(Biological Neuron)를 모사하여 기계가 학습하도록 하는 인공신경망(Artificial Neural Network) 기반의 기계 학습법을 의미한다. 최근, 딥러닝 기술은 이미지 인식, 음성 인식, 자연어 처리의 발전에 기여하면서 크게 주목받고 있다. 그리고 오늘날의 딥러닝 모델들은 응용의 인식 성능을 높이기 위해 모델의 계층이 깊어지고(Deep), 특징(Feature)이 많아지는(Wide) 대규모 모델로 진화하고 있다.
그러나, 대형화되는 딥러닝 모델과 대규모의 학습 데이터를 단일 머신에서 처리하기에는 한계가 있어, 대규모 분산 컴퓨팅 자원을 활용하려는 노력의 일환으로 딥러닝 분산 플랫폼 기술이 개발되고 있으며, 이러한 딥러닝 분산 플랫폼에서는 분산 병렬 처리를 통하여 딥러닝 트레이닝 가속을 시도하는데, 분산 병렬 처리 방법으로 데이터 병렬 처리(Data Parallelism)와 모델 병렬 처리(Model Parallelism) 방법이 제안된 바 있다. 이와 같은 딥러닝 분산 플랫폼 기술의 예로, 한국공개특허 제10-2018-0131836호에 '파라미터 서버 및 그것에 의해 수행되는 분산 딥러닝 파라미터 공유 방법'이 제안되었다.
그러나, 상기와 같은 딥러닝 분산 플랫폼 기술은 대용량의 학습 데이터를 학습하는데 있어 학습 속도를 향상시킬 수 있다는 장점을 제공하고 있지만, 최종적으로 학습된 학습 모델의 정확도를 함께 보장하는 것은 아니다. 즉, 딥러닝 시스템에서 학습 속도 뿐만 아니라 주요한 요소가 학습된 모델의 정확도에 있어 이를 보장하지 못할 때 해당 딥러닝 시스템은 정확한 결과를 출력하지 못하는 문제점이 있다.
딥러닝 시스템에서는 하이퍼 파라미터, 초기값, 가중치 등 다양한 파라미터에 의해 학습 후 최종 모델의 정확도가 큰 영향을 받기 때문에, 기존의 딥러닝 시스템에서는 상기 파라미터들을 바꾸어 가면서 최종 모델의 정확도를 측정하는 Try & Error 방식을 사용하였다.
그런데, Try & Error 방식은 최종 모델을 학습하는 과정이 N회 반복되는 경우, 1회 학습 시간에 N회를 곱한 시간 만큼 많은 시간이 소요되는 단점이 있다. 또한, 최적의 파라미터가 어떤 거인지 학인할 수 없기 때문에 모두 실험을 통해 얻어야 하는 단점이 있다.
특히, 딥러닝의 경우, 수식적으로 이루어진 모델의 가중치(Weight)를 자동으로 조절하여 원하는 답을 도출하는 기계 학습 방법이라는 점에서, 가중치의 초기값이 어떻게 설정되느냐에 따라 최종 모델의 성능이 결정되는데, Try & Error 방식은 랜덤한 초기값이 설정되면 학습이 종료될 때까지 이를 변경하지 않아, 초기값에 따라 성능 차이가 크게 발생할 수 있으므로, 최적의 초기값을 얻기 위해서는 더 많은 횟수의 학습 과정을 반복하여야 하는 문제점이 있다.
이에, 본 발명은 상기와 같은 문제점을 해소하기 위해 안출된 것으로서, 복수의 딥러닝(DL) 프로세서를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있는 딥러닝 시스템 및 그 최적 학습 모델 결정 방법을 제공하는데 그 목적이 있다.
상기 목적은 본 발명에 따라, 딥러닝 시스템의 최적 학습 모델 결정 방법에 있어서, (a) 복수의 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파리미터가 상호 상이하게 입력되는 단계와, (b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와, (c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어, 후보 학습 모델이 결정되는 단계와, (e) 상기 후보 학습 모델의 가중치가 후보 학습 가중치로 추출되는 단계와, (f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되는 단계와, (g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와, (h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계가 반복 수행되는 단계를 포함하며; 상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델이 최적 학습 모델로 결정되는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법에 의해서 달성된다.
여기서, 상기 (g) 단계에서는 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서의 상기 하이퍼 파리미터가 상호 상이하게 재 입력될 수 있다.
또한, 상기 하이퍼 파라미터는 학습률(learning rate), 디케이 비율(decay rate), 신경망 층수, 정규화(normalization) 기법, 풀링(pooling) 방법, 및 드롭아웃 비율(dropout rate) 중 적어도 하나를 포함할 수 있다.
그리고, 상기 (c) 단계에서는 다이스 스코어 또는 분류 정확도에 기초하여 상기 후보 학습 모델이 결정될 수 있다.
한편, 상기 목적은 본 발명의 다른 실시 형태에 따라, 딥러닝 시스템에 있어서, 학습 데이터를 이용하여 학습하는 복수의 딥러닝(DL) 프로세서와, 상기 딥러닝(DL) 프로세서의 학습 결과를 평가하기 위한 성능 평가부와, 상기 딥러닝(DL) 프로세서의 가중치를 로딩하기 위한 가중치 로딩부와, 상기 복수의 딥러닝(DL) 프로세서의 학습 결과에 기초하여 최적 학습 모델을 결정하는 학습 모델 결정부를 포함하고; 상기 학습 모델 결정부는 (a) 복수의 상기 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파리미터를 상호 상이하게 입력하는 단계와, (b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서를 학습시키는 단계와, (c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어 후보 학습 모델이 결정되도록 상기 성능 평가부를 제어하는 단계와, (e) 상기 후보 학습 모델의 가중치를 후보 학습 가중치로 추출하는 단계와, (f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되도록 가중치 로딩부를 제어하는 단계와, (g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서를 학습시키는 단계와, (h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계를 반복 수행하는 단계를 수행하며; 상기 학습 모델 결정부는 상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델을 상기 최적 학습 모델로 결정하는 것을 특징으로 하는 딥러닝 시스템에 의해서 달성된다.
여기서, 상기 학습 모델 결정부는 상기 (g) 단계에서 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서의 상기 하이퍼 파리미터를 상호 상이하게 재 입력할 수 있다.
또한, 상기 하이퍼 파라미터는 학습률(learning rate), 디케이 비율(decay rate), 신경망 층수, 정규화(normalization) 기법, 풀링(pooling) 방법, 및 드롭아웃 비율(dropout rate) 중 적어도 하나를 포함할 수 있다.
그리고, 상기 성능 평가부는 (c) 단계에서 다이스 스코어 또는 분류 정확도에 기초하여 상기 후보 학습 모델을 결정할 수 있다.
상기와 같은 구성에 따라, 본 발명에 따르면, 복수의 딥러닝(DL) 프로세서를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있는 딥러닝 시스템 및 그 최적 학습 모델 결정 방법이 제공된다.
특히, 복수의 딥러닝(DL) 프로세서를 이용하는데 있어, 동일 에폭만큼 1회 학습할 경우, 기존의 학습법인 Try & Error 방식에 비해 다양한 하이퍼 파라미터를 적용하여 보다 다양한 학습 환경을 통해 최적의 학습 모델을 결정할 수 있게 된다.
또한, 설정된 에폭 주기 동안 학습이 진행된 후, 해당 에폭 주기에서 성능이 가장 뛰어난 후보 학습 모델의 가중치가 나머지 딥러닝(DL) 프로세서에 적용되고, 나머지 딥러닝(DL) 프로세서의 하이퍼 파라미터도 선택적으로 재조정함으로써, 초기값에 의한 영향을 최소화할 수 있게 된다.
또한, 하나의 에폭 주기에서 각각의 딥러닝(DL) 프로세서에 상이하게 적용된 하이퍼 파리미터를 저장해둠으로써, 추후 새로운 딥러닝 과정에서 초기에 최적의 하이퍼 파라미터를 사용할 수 있게 됨으로써, 유사한 딥러닝 시스템에 적용 가능한 자료의 수집이 가능하게 된다.
도 1은 본 발명에 따른 딥러닝 시스템의 구성을 나타낸 도면이고,
도 2 및 도 3은 본 발명에 따른 딥러닝 시스템의 최적 학습 모델 결정 방법의 일 예를 설명하기 위한 도면이고,
도 4는 본 발명에 따른 딥러닝 시스템의 최적 학습 모델 결정 방법의 다른 예를 설명하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하에서는 첨부된 도면을 참조하여 본 발명에 따른 실시예들을 상세히 설명한다.
도 1은 본 발명에 따른 딥러닝 시스템(100)의 구성을 나타낸 도면이다. 도 1에 도시된 바와 같이, 본 발명에 따른 딥러닝 시스템(100)은 복수의 딥러닝(DL) 프로세서(111,112,113), 성능 평가부(120), 가중치 로딩부(130) 및 학습 모델 결정부(140)를 포함한다.
각각의 딥러닝(DL) 프로세서(111,112,113)는 학습 데이터를 이용하여 학습한다. 본 발명에서는 딥러닝(DL) 프로세서(111,112,113)가 딥러닝 방식을 이용하여 학습하는 것을 예로 하며, 의료 영상의 진단에 적용 가능하게 의료 영상과 진단 정보를 학습 데이터로 사용하는 것을 예로 한다. 여기서, 학습 데이터가 의료 영상과 같은 이미지인 경우, 딥러닝(DL) 프로세서(111,112,113)는 GPU(Graphic Processing Unit) 형태로 마련될 수 있는데, 그 명칭에 본 발명의 기술적 사상이 국한되지 않음은 물론이다.
성능 평가부(120)는 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가한다. 본 발명에서는 성능 평가부(120)가 다이스 스코어(Dice Score, 또는 Dice coefficient, 이하 동일) 또는 분류 정확도에 기초하여 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가하는 것을 예로 한다.
예컨대, 본 발명에 따른 딥러닝 시스템(100)이 세그멘테이션 모델(Segmentation model)인 경우, 다이스 스코어를 이용하여 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가할 수 있다. 다이스 스코어는 정답 영역가 예측 영역의 겹치는 비율을 점수화한 판단 기준으로, 두 영역이 많이 겹칠수록 점수가 높아지는 특징이 있다.
다른 예로, 본 발명에 따른 딥러닝 시스템(100)이 분류 모델(Classificaton model)인 경우, 분류 정확도를 이용하여 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가할 수 있다. 일반적으로 전체 개수와 정답 개수의 비율을 이용한다.
가중치 로딩부(130)는 딥러닝(DL) 프로세서(111,112,113)의 가중치를 각각의 딥러닝(DL) 프로세서(111,112,113)에 로딩한다. 딥러닝은 복잡한 수식으로 이루어진 모델의 가중치, 즉 Weight를 자동으로 조절하여 원하는 답을 도출하는 기계 학습 기법이다. 학습을 시작할 때는 적절한 가중치가 없으므로 무작위로 가중치를 정하는데, 이를 초기값이라 한다. 일반적으로 딥러닝 시스템(100)에서 초기값의 배분에 따라 학습이 잘 이루어질 수 있고, 반대로 아예 학습이 이루어지지 않을 수도 있으므로 적절한 초기값 설정이 중요한데, 본 발명에 따른 가중치 로딩부(130)가 각각의 딥러닝(DL) 프로세서(111,112,113)에 가중치를 로딩하는 방법에 대한 상세한 설명은 후술한다.
학습 모델 결정부(140)는 복수의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과에 기초하여 최적 학습 모델을 결정한다. 본 발명에 따른 학습 모델 결정부(140)는 복수의 딥러닝(DL) 프로세서(111,112,113)의 개별적인 학습 결과에 따라 서바이벌 방식으로 초적 학습 모델을 결정하는데, 이하에서는 학습 모델 결정부(140)가 상기와 같은 구성에 따라 초적 학습 모델을 결정하는 방법의 일 예를 도 2 및 도 3을 참조하여 설명한다.
먼저, 복수의 딥러닝(DL) 프로세서(111,112,113)에 의한 학습을 위해 상술한 예에서와 같이 학습 데이터가 준비되면, 각각의 딥러닝(DL) 프로세서(111,112,113)에 적어도 하나의 하이퍼 파라미터를 상호 상이하게 입력한다.
하이퍼 파라미터는 딥러닝에 있어 학습 전에 직접 등록해주여야 하는 학습 옵션으로, 본 발명에서는 학습률(learning rate), 디케이 비율(decay rate), 신경망 층수, 정규화(normalization) 기법, 풀링(pooling) 방법, 및 드롭아웃 비율(dropout rate)을 포함하는 것을 예로 하며, 이러한 하이퍼 파라미터 중 적어도 하나 또는 전부를 각각의 딥러닝(DL) 프로세서(111,112,113)에 상이하게 등록한다(S20).
여기서, 학습률(learning rate)은 가중치 갱신 비율, 즉 모델의 학습 속도를 의미한다. 학습률이 크면 학습 속도가 빨라지나, 학습이 불안정해질 수 있으며, 반대로 작으면 학습은 점진적으로 이루어지나, 학습이 느려지거나 중간에 학습이 멈추는 경우가 발생할 수 있다.
디케이 비율(decay rate)은 학습이 진행됨에 따라 학습률을 점차 낮추는 비율로, 초기에는 학습률을 높여 빨리 학습되게 하고, 점차 안정적인 학습을 위해 학습 속도를 줄이는 용도로 사용된다.
신경망 층수가 늘어날수록 표현력이 증가해 복잡한 표현을 할 수 있으나, 지나치게 많을 경우 훈련 데이터에 과적합(overfitting)이 발생할 수 있다.
정규화(normalization) 기법은 신경망 사이에 넣어주는 데이터 정규화 기법으로 학습이 수월하도록 데이터를 정제해준다. 주로 배치 정규화(batch normalization), 그룹 정규화(group normalization)가 사용되며, 모델에 따라 적합한 방식이 적용될 수 있는데, 2 이상의 정규화 기법이 선택적으로 적용될 수 있는 경우 이를 상이하게 등록할 수 있다.
풀링(pooling) 방법은 신경망 층 사이에서 이미지 사이즈를 줄여주는 기법으로 max pooling 과 average pooling이 주로 사용되며, 이를 각각의 딥러닝(DL) 프로세서(111,112,113)에 서로 다르게 적용할 수 있다.
드롭아웃 비율(dropout rate)은 학습 중간에 노드 일부를 무작위로 학습에서 배제하는 방식으로 훈련 데이터에 과적합(overfitting)을 방지해 준다. 드롭아웃 비율(dropout rate)이 높을수록 배제되는 노드가 많아져 과적합 방지에 효과적이나, 지나치게 비율이 높을 경우 학습을 지연시키게 된다.
상기와 같이 각각의 딥러닝(DL) 프로세서(111,112,113)에 상이한 하이퍼 파라미터가 등록된 상태에서, 학습 모델 결정부(140)는 각각의 딥러닝(DL) 프로세서(111,112,113)를 학습시킨다(S21). 본 발명에서는 1차적으로 기 설정된 에폭 주기(K-epochs) 동안 학습시키는 것을 예로 하는데, 도 3에서는 20 에폭을 에폭 주기로 설정하는 것을 예로 한다.
각각의 딥러닝(DL) 프로세서(111,112,113)는 에폭 주기 동안 학습이 되었는지 여부를 판단하고(S22), 에폭 주기 동안의 학습이 완료되면 1차적으로 학습을 종료한다. 여기서, 에폭 주기 동안의 학습은 각각의 딥러닝(DL) 프로세서(111,112,113)에 하이퍼 파라미터로 등록할 수 있다.
상기와 같이, 1차 에폭 주기 동안의 학습이 종료되면, 성능 평가부(120)는 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과를 평가한다(S23). 즉 성능 평가부(120)는 상술한 바와 같은 성능 평가 방법을 이용하여 각각의 딥러닝(DL) 프로세서(111,112,113)의 학습 결과의 성능을 평가하여, 최고의 성능을 나타낸 딥러닝(DL) 프로세서(111,112,113)의 학습 모델을 후보 학습 모델로 결정한다. 도 3에서는 두 번째 딥러닝(DL) 프로세서(112)의 학습 모델이 후보 학습 모델로 결정된 것을 예로 하고 있다.
후보 학습 모델이 결정되면, 학습 모델 결정부(140)는 후보 학습 모델의 가중치를 후보 학습 가중치로 추출하고, 후보 학습 모델을 제외한 나머지의 딥러닝(DL) 프로세서(111,113), 예컨대, 도 3에서 첫 번째 딥러닝(DL) 프로세서(111)와 세 번째 딥러닝(DL) 프로세서(113)에 후보 학습 모델의 후보 학습 가중치가 업데이트되어 로딩되도록 가중치 로딩부(130)를 제어한다(S26).
상술한 바와 같이, 딥러닝 기법은 학습 과정에서 가중치가 자동으로 조절되면서 원하는 답을 도출하는 기법으로, 각각의 딥러닝(DL) 프로세서(111a,112,113a)는 학습 개시시 가중치로 임의의 초기값이 설정된 상태로 학습 과정에서 가중치가 변하게 되는데, 첫 번째 에폭 주기에서 최적의 결과를 도출한 후보 학습 모델의 가중치를 나머지 모델에 로딩함으로써, 나머지 모델에 초기값에 따른 민감도를 줄이고 보다 안정적이고 정확한 모델의 도출을 가능하게 한다.
상기와 같이, 후보 학습 가중치가 나머지의 딥러닝(DL) 프로세서(111a,113a)에 로딩되면, 다시 에폭 주기 동안 각각의 딥러닝(DL) 프로세서(111a,112,113a)를 학습시키는 과정이 S21 및 S22 단계를 통해 진행된다. 여기서, 후보 학습 모델로 결정된 딥러닝(DL) 프로세서(112), 예컨대 도 3의 두 번째 딥러닝(DL) 프로세서(112)는 가중치의 변화 없이 그대로 학습이 진행된다.
그리고, 두 번째의 에폭 주기 동안의 학습이 종료되면, 마찬가지로, 성능 평가부(120)가 두 번째의 에폭 주기 동안의 학습 결과의 성능을 평가하고(S23), 평가 결과에 따라 후보 학습 모델을 결정하고, 후보 학습 모델의 가중치를 후보 학습 가중치로 추출하여 나머지 딥러닝(DL) 프로세서(112,113a)에 로딩한다(S26).
도 3에서는 두 번째 에폭 주기에서 첫 번째 딥러닝(DL) 프로세서(111a)가 후보 학습 모델로 결정된 예를 나타내고 있으며, 이에 따라 두 번째 및 세 번째 딥러닝(DL) 프로세서(112,113a)에 후보 학습 가중치가 로딩된다.
상기와 같은 과정을 N회 반복 수행한 후(S24), 예컨대 도 3에서는 3회 수행한 후, 성능 평가(S23) 결과에서 후보 학습 모델로 결정된 모델이 최적 학습 모델로 최종적으로 결정된다(S25). 도 3에서는 세 번째 딥러닝(DL) 프로세서(113b)의 학습 결과가 최적 학습 모델로 결정되는 것을 예로 하고 있다.
한편, 도 4는 본 발명에 따른 딥러닝 시스템(100)의 최적 학습 모델 결정 방법의 다른 예를 설명하기 위한 도면이다. 도 4에 도시된 실시예에서는 최적 학습 모델 결정 방법에 있어, 각 에폭 주기가 종료된 후 새로운 학습이 시작될 때, 후보 학습 모델을 제외한 타 모델의 하이퍼 파리미터가 수정된 후(S47), 새로운 학습이 수행되는 예를 나타내고 있다. 이외에 도 4에 도시된 S40 단계 내지 S46 단계는 전술한 실시예에서의 S20 단계 내지 S26 단계에 대응하는 바, 그 상세한 설명은 생략한다.
상기와 같은 구성에 따라, 복수의 딥러닝(DL) 프로세서(111,112,113)를 이용하여 서바이벌 방식의 기계 학습을 통해 보다 정확한 최적 학습 모델을 결정할 수 있게 된다.
특히, 복수의 딥러닝(DL) 프로세서(111,112,113)를 이용하는데 있어, 동일 에폭만큼 1회 학습할 경우, 기존의 학습법인 Try & Error 방식에 비해 다양한 하이퍼 파라미터를 적용하여 보다 다양한 학습 환경을 통해 초적의 학습 모델을 결정할 수 있게 된다.
또한, 설정된 에폭 주기 동안 학습이 진행된 후, 해당 에폭 주기에서 성능이 가장 뛰어난 후보 학습 모델의 가중치가 나머지 딥러닝(DL) 프로세서(111,112,113)에 적용되고, 나머지 딥러닝(DL) 프로세서(111,112,113)의 하이퍼 파라미터도 선택적으로 재조정함으로써, 초기값에 의한 영향을 최소화할 수 있게 된다.
또한, 하나의 에폭 주기에서 각각의 딥러닝(DL) 프로세서(111,112,113)에 상이하게 적용된 하이퍼 파리미터를 저장해둠으로써, 추후 새로운 딥러닝 과정에서 초기에 최적의 하이퍼 파라미터를 사용할 수 있게 됨으로써, 유사한 딥러닝 시스템(100)에 적용 가능한 자료의 수집이 가능하게 된다.
비록 본 발명의 몇몇 실시예들이 도시되고 설명되었지만, 본 발명이 속하는 기술분야의 통상의 지식을 가진 당업자라면 본 발명의 원칙이나 정신에서 벗어나지 않으면서 본 실시예를 변형할 수 있음을 알 수 있을 것이다. 발명의 범위는 첨부된 청구항과 그 균등물에 의해 정해질 것이다.
100 : 딥러닝 시스템 111,112,113 : 딥러닝(DL) 프로세서
120 : 성능 평가부 130 : 가중치 로딩부
140 : 학습 모델 결정부

Claims (8)

  1. 딥러닝 시스템의 최적 학습 모델 결정 방법에 있어서,
    (a) 복수의 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파라미터가 상호 상이하게 입력되는 단계와,
    (b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와,
    (c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어, 후보 학습 모델이 결정되는 단계와,
    (e) 상기 후보 학습 모델의 가중치가 후보 학습 가중치로 추출되는 단계와,
    (f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되는 단계와,
    (g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서가 학습되는 단계와,
    (h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계가 반복 수행되는 단계를 포함하며;
    상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델이 최적 학습 모델로 결정되는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법.
  2. 제1항에 있어서,
    상기 (g) 단계에서는 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서의 상기 하이퍼 파리미터가 상호 상이하게 재 입력되는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법.
  3. 제1항에 있어서,
    상기 하이퍼 파라미터는 학습률(learning rate), 디케이 비율(decay rate), 신경망 층수, 정규화(normalization) 기법, 풀링(pooling) 방법, 및 드롭아웃 비율(dropout rate) 중 적어도 하나를 포함하는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법.
  4. 제1항에 있어서,
    상기 (c) 단계에서는 다이스 스코어 또는 분류 정확도에 기초하여 상기 후보 학습 모델이 결정되는 것을 특징으로 하는 딥러닝 시스템의 최적 학습 모델 결정 방법.
  5. 딥러닝 시스템에 있어서,
    학습 데이터를 이용하여 학습하는 복수의 딥러닝(DL) 프로세서와,
    상기 딥러닝(DL) 프로세서의 학습 결과를 평가하기 위한 성능 평가부와,
    상기 딥러닝(DL) 프로세서의 가중치를 로딩하기 위한 가중치 로딩부와,
    상기 복수의 딥러닝(DL) 프로세서의 학습 결과에 기초하여 최적 학습 모델을 결정하는 학습 모델 결정부를 포함하고;
    상기 학습 모델 결정부는
    (a) 복수의 상기 딥러닝(DL) 프로세서에 적어도 하나의 하이퍼 파리미터를 상호 상이하게 입력하는 단계와,
    (b) 기 설정된 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서를 학습시키는 단계와,
    (c) 상기 (b) 단계의 각각의 상기 딥러닝(DL) 프로세서의 학습 결과가 평가되어 후보 학습 모델이 결정되도록 상기 성능 평가부를 제어하는 단계와,
    (e) 상기 후보 학습 모델의 가중치를 후보 학습 가중치로 추출하는 단계와,
    (f) 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서에 상기 후보 학습 가중치가 로딩되도록 가중치 로딩부를 제어하는 단계와,
    (g) 상기 후보 학습 가중치가 로딩된 상태로 상기 에폭 주기 동안 각각의 상기 딥러닝(DL) 프로세서를 학습시키는 단계와,
    (h) 기 설정된 학습 횟수동안 상기 (b) 단계 내지 상기 (g) 단계를 반복 수행하는 단계를 수행하며;
    상기 학습 모델 결정부는 상기 (h) 단계에서 마지막 반복 과정에 상기 (c) 단계에서 결정된 후보 학습 모델을 상기 최적 학습 모델로 결정하는 것을 특징으로 하는 딥러닝 시스템.
  6. 제5항에 있어서,
    상기 학습 모델 결정부는 상기 (g) 단계에서 상기 후보 학습 모델을 제외한 나머지의 상기 딥러닝(DL) 프로세서의 상기 하이퍼 파리미터를 상호 상이하게 재 입력하는 것을 특징으로 하는 딥러닝 시스템.
  7. 제5항에 있어서,
    상기 하이퍼 파라미터는 학습률(learning rate), 디케이 비율(decay rate), 신경망 층수, 정규화(normalization) 기법, 풀링(pooling) 방법, 및 드롭아웃 비율(dropout rate) 중 적어도 하나를 포함하는 것을 특징으로 하는 딥러닝 시스템.
  8. 제5항에 있어서,
    상기 성능 평가부는 (c) 단계에서 다이스 스코어 또는 분류 정확도에 기초하여 상기 후보 학습 모델을 결정하는 것을 특징으로 하는 딥러닝 시스템.
KR1020190015502A 2019-02-11 2019-02-11 딥러닝 시스템 및 그 최적 학습 모델 결정 방법 KR102037279B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190015502A KR102037279B1 (ko) 2019-02-11 2019-02-11 딥러닝 시스템 및 그 최적 학습 모델 결정 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190015502A KR102037279B1 (ko) 2019-02-11 2019-02-11 딥러닝 시스템 및 그 최적 학습 모델 결정 방법

Publications (1)

Publication Number Publication Date
KR102037279B1 true KR102037279B1 (ko) 2019-11-15

Family

ID=68578699

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190015502A KR102037279B1 (ko) 2019-02-11 2019-02-11 딥러닝 시스템 및 그 최적 학습 모델 결정 방법

Country Status (1)

Country Link
KR (1) KR102037279B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210061739A (ko) * 2019-11-20 2021-05-28 연세대학교 산학협력단 사용자 맞춤형 추천정보 제공장치 및 제공방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 해독 가능한 기록 매체
KR20210080756A (ko) * 2019-12-23 2021-07-01 주식회사 제로원에이아이 인공지능 모델의 분산 학습 기법
KR20220059120A (ko) 2020-11-02 2022-05-10 강릉원주대학교산학협력단 최적화된 하이퍼파라미터를 갖는 기계 학습 모델링 자동화 방법 및 이를 이용한 기계 학습 모델링 자동화 시스템
KR20220074087A (ko) * 2020-11-27 2022-06-03 한국환경연구원 인공지능기반 위성영상 의미분할 최적화시스템 및 최적화방법
WO2022145981A1 (ko) * 2020-12-29 2022-07-07 주식회사 인이지 자동학습 기반 시계열 데이터 예측 및 제어 방법 및 장치
KR20230024950A (ko) * 2020-11-26 2023-02-21 주식회사 노타 최적 파라미터 결정 방법 및 시스템
KR102516197B1 (ko) * 2021-12-22 2023-03-30 호서대학교 산학협력단 반응표면분석을 이용한 수요예측 모델을 생성하기 위한 장치 및 이를 위한 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160143512A (ko) * 2015-06-04 2016-12-14 더 보잉 컴파니 머신 러닝을 위한 진보된 분석 기반시설
KR20170034258A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160143512A (ko) * 2015-06-04 2016-12-14 더 보잉 컴파니 머신 러닝을 위한 진보된 분석 기반시설
KR20170034258A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kim, Jinwoong, et al. "CHOPT: Automated Hyperparameter Optimization Framework for Cloud-Based Machine Learning Platforms." arXiv preprint arXiv:1810.03527v2. 2018.10.16.* *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102262118B1 (ko) * 2019-11-20 2021-06-07 연세대학교 산학협력단 사용자 맞춤형 추천정보 제공장치 및 제공방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 해독 가능한 기록 매체
KR20210061739A (ko) * 2019-11-20 2021-05-28 연세대학교 산학협력단 사용자 맞춤형 추천정보 제공장치 및 제공방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 해독 가능한 기록 매체
KR102473613B1 (ko) 2019-12-23 2022-12-02 주식회사 제로원에이아이 인공지능 모델의 분산 학습 기법
KR20210080756A (ko) * 2019-12-23 2021-07-01 주식회사 제로원에이아이 인공지능 모델의 분산 학습 기법
KR20220059120A (ko) 2020-11-02 2022-05-10 강릉원주대학교산학협력단 최적화된 하이퍼파라미터를 갖는 기계 학습 모델링 자동화 방법 및 이를 이용한 기계 학습 모델링 자동화 시스템
KR20230024950A (ko) * 2020-11-26 2023-02-21 주식회사 노타 최적 파라미터 결정 방법 및 시스템
KR102580428B1 (ko) 2020-11-26 2023-09-20 주식회사 노타 최적 파라미터 결정 방법 및 시스템
KR20220074087A (ko) * 2020-11-27 2022-06-03 한국환경연구원 인공지능기반 위성영상 의미분할 최적화시스템 및 최적화방법
KR102547763B1 (ko) * 2020-11-27 2023-06-23 한국환경연구원 인공지능기반 위성영상 의미분할 최적화시스템 및 최적화방법
KR20220098336A (ko) * 2020-12-29 2022-07-12 주식회사 인이지 자동학습 기반 시계열 데이터 예측 및 제어 방법 및 장치
CN114981825A (zh) * 2020-12-29 2022-08-30 株式会社人利智 基于自动学习预测及控制时间序列数据的方法及装置
WO2022145981A1 (ko) * 2020-12-29 2022-07-07 주식회사 인이지 자동학습 기반 시계열 데이터 예측 및 제어 방법 및 장치
KR102662329B1 (ko) * 2020-12-29 2024-04-30 주식회사 인이지 자동학습 기반 시계열 데이터 예측 및 제어 방법 및 장치
KR102516197B1 (ko) * 2021-12-22 2023-03-30 호서대학교 산학협력단 반응표면분석을 이용한 수요예측 모델을 생성하기 위한 장치 및 이를 위한 방법

Similar Documents

Publication Publication Date Title
KR102037279B1 (ko) 딥러닝 시스템 및 그 최적 학습 모델 결정 방법
US20190354868A1 (en) Multi-task neural networks with task-specific paths
Knox et al. Reinforcement learning from simultaneous human and MDP reward.
Krueger et al. Enhancing metacognitive reinforcement learning using reward structures and feedback.
KR101582061B1 (ko) 비감독 신경 리플레이, 학습 리파인먼트, 연관 및 기억 전달: 구조적 가소성 및 구조적 제약 모델링을 위한 방법들 및 장치
CN109523029A (zh) 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
KR20140092879A (ko) 비감독 신경 리플레이, 학습 리파인먼트, 연관 및 기억 전달: 신경 연관 학습, 패턴 완성, 분리, 일반화 및 계층적 리플레이를 위한 방법들 및 장치
KR101755082B1 (ko) 신경 성분 기억 전달을 위한 방법, 장치 및 컴퓨터 판독가능 저장 매체
CN110288878B (zh) 自适应学习方法及装置
CN112989017B (zh) 用于生成对话策略学习用高质量模拟经验的方法
KR102299138B1 (ko) 딥러닝 기반의 바둑 게임 서비스 방법 및 그 장치
CN117808120A (zh) 用于大语言模型的强化学习的方法和装置
CN107798384B (zh) 一种基于可进化脉冲神经网络的鸢尾花卉分类方法和装置
Balaiah et al. A deep learning framework for automated transfer learning of neural networks
CN111221958A (zh) 一种训练藏字诗生成模型的方法、藏字诗生成方法及装置
Martin et al. How can connectionist cognitive models of language inform models of language rehabilitation?
CN113535911B (zh) 奖励模型处理方法、电子设备、介质和计算机程序产品
Priya et al. A deep dive into automatic code generation using character based recurrent neural networks
CN110084356A (zh) 一种深度神经网络数据处理方法和装置
Wu et al. Sensorimotor in space and time: Audition
Carlsson et al. Alphazero to alpha hero: A pre-study on additional tree sampling within self-play reinforcement learning
KR20180062004A (ko) 인공신경망에서의 선택적 추론 방법
CN110110853A (zh) 一种深度神经网络压缩方法、装置及计算机可读介质
Raviv et al. Learning Through Imitation by Using Formal Verification
Agnihotri Hyperparameter optimization on neural machine translation

Legal Events

Date Code Title Description
GRNT Written decision to grant