KR20210048058A - 심층 신경망 학습 장치 및 방법 - Google Patents

심층 신경망 학습 장치 및 방법 Download PDF

Info

Publication number
KR20210048058A
KR20210048058A KR1020190131873A KR20190131873A KR20210048058A KR 20210048058 A KR20210048058 A KR 20210048058A KR 1020190131873 A KR1020190131873 A KR 1020190131873A KR 20190131873 A KR20190131873 A KR 20190131873A KR 20210048058 A KR20210048058 A KR 20210048058A
Authority
KR
South Korea
Prior art keywords
data
data set
learning
label value
neural network
Prior art date
Application number
KR1020190131873A
Other languages
English (en)
Inventor
최종원
최영준
김지훈
김병집
박성원
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020190131873A priority Critical patent/KR20210048058A/ko
Priority to US16/665,957 priority patent/US11574185B2/en
Publication of KR20210048058A publication Critical patent/KR20210048058A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • G06N7/04Physical realisation
    • G06N7/046Implementation by means of a neural network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Automation & Control Theory (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

심층 신경망 학습 장치 및 방법이 개시된다. 일 실시예에 따른 방법은, 라벨링된(labeled) 복수의 데이터를 포함하는 제1 데이터 집합 및 라벨링되지 않은(unlabeled) 복수의 데이터를 포함하는 제2 데이터 집합을 이용하여 심층 신경망(Deep Neural Network) 모델을 학습하는 단계; 상기 라벨링되지 않은 복수의 데이터 중 일부에 참 라벨(ground-truth label) 값을 할당하는 단계; 상기 참 라벨 값이 할당된 데이터가 상기 제1 데이터 집합에 포함되도록 상기 제1 데이터 집합 및 상기 제2 데이터 집합을 갱신하는 단계; 및 상기 갱신된 제1 데이터 집합 및 상기 갱신된 제2 데이터 집합을 이용하여 상기 심층 신경망 모델을 추가 학습하는 단계를 포함한다.

Description

심층 신경망 학습 장치 및 방법{APPARATUS AND METHOD FOR TRAINING DEEP NEURAL NETWORK}
개시되는 실시예들은 심층 신경망에 대한 학습 기술과 관련된다.
종래 심층 신경망 모델 학습을 위한 능동 샘플링(Active Sampling) 방법론들은 라벨링된 데이터(labeled Data)만을 이용해 심층 신경망 모델을 학습하기 때문에 라벨링되지 않은 데이터(Unlabeled Data)의 정보들을 학습에 이용하지 못한다. 만약, 라벨링되지 않은 데이터의 정보들을 이용하고자 한다면 능동 샘플링이 끝난 뒤 전체 데이터를 기반으로 준지도 학습(Semi-supervised Learning) 기법을 통해 새로운 심층 신경망 모델을 처음부터 다시 학습해야 한다. 이 경우, 능동 샘플링 과정에 진행된 학습 리소스를 낭비하게 되며 모든 능동 샘플링이 끝난 뒤에도 긴 시간을 통해 새롭게 심층 신경망 모델을 학습해야 한다는 단점이 있다. 또한, 능동 샘플링에서 선택된 데이터의 학습 효과와 준지도 학습에서의 학습 효과 사이의 상관관계가 떨어질 수 있다.
한국 등록특허공보 제10-2002024호 (2019.07.22. 공고)
개시되는 실시예들은 심층 신경망 학습 장치 및 방법을 제공하기 위한 것이다.
일 실시예에 따른 방법은, 하나 이상의 프로세서, 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 라벨링된(labeled) 복수의 데이터를 포함하는 제1 데이터 집합 및 라벨링되지 않은(unlabeled) 복수의 데이터를 포함하는 제2 데이터 집합을 이용하여 심층 신경망(Deep Neural Network) 모델을 학습하는 단계; 상기 라벨링되지 않은 복수의 데이터 중 일부에 참 라벨(ground-truth label) 값을 할당하는 단계; 상기 참 라벨 값이 할당된 데이터가 상기 제1 데이터 집합에 포함되도록 상기 제1 데이터 집합 및 상기 제2 데이터 집합을 갱신하는 단계; 및 상기 갱신된 제1 데이터 집합 및 상기 갱신된 제2 데이터 집합을 이용하여 상기 심층 신경망 모델을 추가 학습하는 단계를 포함한다.
상기 심층 신경망 모델은, 상기 심층 신경망 모델의 입력 데이터에 대한 특징 벡터를 생성하는 특징 추출부 및 각각 상기 특징 벡터에 기초하여 상기 입력 데이터에 대한 추정 라벨 값을 생성하는 복수의 분류부를 포함할 수 이다.
상기 학습하는 단계는, 상기 제1 데이터 집합을 이용하여 상기 심층 신경망 모델의 학습 파라미터를 갱신하는 제1 전역 갱신(global update) 및 상기 제2 데이터 집합을 이용하여 상기 복수의 분류부 각각의 학습 파라미터를 갱신하는 제1 국소 갱신(local update)을 수행하여 상기 심층 신경망 모델을 학습할 수 있다.
상기 학습하는 단계는, 상기 제1 전역 갱신 및 상기 제1 국소 갱신을 교차하여 반복 수행할 수 있다.
상기 학습하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값이 일치하도록 상기 제1 전역 갱신을 수행하고, 상기 제2 데이터 집합에 포함된 데이터 각각에 대해 상기 복수의 분류부 각각이 상이한 추정 라벨 값을 생성하도록 상기 제1 국소 갱신을 수행할 수 있다.
상기 학습하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 제1 손실 함수(loss function)를 이용하여 상기 제1 전역 갱신을 수행하고, 상기 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값 및 상기 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 앙상블(ensemble) 추정 라벨 값에 기초한 제2 손실 함수를 이용하여 상기 제1 국소 갱신을 수행할 수 있다.
상기 할당하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초하여 상기 제1 데이터 집합에 포함된 데이터 중 일부를 라벨링 대상 데이터로 결정하는 단계; 사용자로부터 상기 라벨링 대상 데이터 각각에 할당할 참 라벨 값을 입력받는 단계; 및 상기 입력된 참 라벨 값을 상기 라벨링 대상 데이터 각각에 할당하는 단계를 포함할 수 있다.
상기 결정하는 단계는, 상기 복수의 분류부 각각의 추정 라벨 값이 상이할수록 높은 스코어(score)를 가지도록 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 스코어를 산출하고, 상기 산출된 스코어가 높은 순서대로 상기 제1 데이터 집합에 포함된 데이터 중 기 설정된 개수 또는 기 설정된 비율의 데이터를 상기 라벨링 대상 데이터로 결정할 수 있다.
상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합을 이용하여 상기 심층 신경망 모델의 학습 파라미터를 갱신하는 제2 전역 갱신 및 상기 갱신된 제2 데이터 집합을 이용하여 상기 특징 추출부의 학습 파라미터를 갱신하는 제2 국소 갱신을 수행하여 상기 심층 신경망 모델을 추가 학습할 수 있다.
상기 추가 학습하는 단계는, 상기 제2 전역 갱신 및 상기 제2 국소 갱신을 교차하여 반복 수행할 수 있다.
상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값이 일치하도록 상기 제2 전역 갱신을 수행하고, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대해 상기 복수의 분류부 각각이 동일한 추정 라벨 값을 생성하도록 상기 제2 국소 갱신을 수행할 수 있다.
상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 제1 손실 함수를 이용하여 상기 제2 전역 갱신을 수행하고, 상기 갱신된 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값 및 상기 갱신된 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 앙상블 추정 라벨 값에 기초한 제3 손실 함수를 이용하여 상기 제2 국소 갱신을 수행할 수 있다.
일 실시예에 따른 장치는, 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에 의해 실행되도록 구성되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 장치로서, 상기 프로그램은, 라벨링된(labeled) 복수의 데이터를 포함하는 제1 데이터 집합 및 라벨링되지 않은(unlabeled) 복수의 데이터를 포함하는 제2 데이터 집합을 이용하여 심층 신경망(Deep Neural Network) 모델을 학습하는 단계; 상기 라벨링되지 않은 복수의 데이터 중 일부에 참 라벨(ground-truth label) 값을 할당하는 단계; 상기 참 라벨 값이 할당된 데이터가 상기 제1 데이터 집합에 포함되도록 상기 제1 데이터 집합 및 상기 제2 데이터 집합을 갱신하는 단계; 및 상기 갱신된 제1 데이터 집합 및 상기 갱신된 제2 데이터 집합을 이용하여 상기 심층 신경망 모델을 추가 학습하는 단계를 실행하기 위한 명령어들을 포함한다.
상기 심층 신경망 모델은, 상기 심층 신경망 모델의 입력 데이터에 대한 특징 벡터를 생성하는 특징 추출부 및 각각 상기 특징 벡터에 기초하여 상기 입력 데이터에 대한 추정 라벨 값을 생성하는 복수의 분류부를 포함할 수 이다.
상기 학습하는 단계는, 상기 제1 데이터 집합을 이용하여 상기 심층 신경망 모델의 학습 파라미터를 갱신하는 제1 전역 갱신(global update) 및 상기 제2 데이터 집합을 이용하여 상기 복수의 분류부 각각의 학습 파라미터를 갱신하는 제1 국소 갱신(local update)을 수행하여 상기 심층 신경망 모델을 학습할 수 있다.
상기 학습하는 단계는, 상기 제1 전역 갱신 및 상기 제1 국소 갱신을 교차하여 반복 수행할 수 있다.
상기 학습하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값이 일치하도록 상기 제1 전역 갱신을 수행하고, 상기 제2 데이터 집합에 포함된 데이터 각각에 대해 상기 복수의 분류부 각각이 상이한 추정 라벨 값을 생성하도록 상기 제1 국소 갱신을 수행할 수 있다.
상기 학습하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 제1 손실 함수(loss function)를 이용하여 상기 제1 전역 갱신을 수행하고, 상기 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값 및 상기 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 앙상블(ensemble) 추정 라벨 값에 기초한 제2 손실 함수를 이용하여 상기 제1 국소 갱신을 수행할 수 있다.
상기 할당하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초하여 상기 제1 데이터 집합에 포함된 데이터 중 일부를 라벨링 대상 데이터로 결정하는 단계; 사용자로부터 상기 라벨링 대상 데이터 각각에 할당할 참 라벨 값을 입력받는 단계; 및 상기 입력된 참 라벨 값을 상기 라벨링 대상 데이터 각각에 할당하는 단계를 포함할 수 있다.
상기 결정하는 단계는, 상기 복수의 분류부 각각의 추정 라벨 값이 상이할수록 높은 스코어(score)를 가지도록 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 스코어를 산출하고, 상기 산출된 스코어가 높은 순서대로 상기 제1 데이터 집합에 포함된 데이터 중 기 설정된 개수 또는 기 설정된 비율의 데이터를 상기 라벨링 대상 데이터로 결정할 수 있다.
상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합을 이용하여 상기 심층 신경망 모델의 학습 파라미터를 갱신하는 제2 전역 갱신 및 상기 갱신된 제2 데이터 집합을 이용하여 상기 특징 추출부의 학습 파라미터를 갱신하는 제2 국소 갱신을 수행하여 상기 심층 신경망 모델을 추가 학습할 수 있다.
상기 추가 학습하는 단계는, 상기 제2 전역 갱신 및 상기 제2 국소 갱신을 교차하여 반복 수행할 수 있다.
상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값이 일치하도록 상기 제2 전역 갱신을 수행하고, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대해 상기 복수의 분류부 각각이 동일한 추정 라벨 값을 생성하도록 상기 제2 국소 갱신을 수행할 수 있다.
상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 제1 손실 함수를 이용하여 상기 제2 전역 갱신을 수행하고, 상기 갱신된 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값 및 상기 갱신된 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 앙상블 추정 라벨 값에 기초한 제3 손실 함수를 이용하여 상기 제2 국소 갱신을 수행할 수 있다.
본 발명의 실시예들에 따르면, 능동 샘플링을 위한 학습과 준지도 학습이 연속적으로 진행될 수 있도록 함으로써 심층 신경망 모델에 대한 학습 시간을 크게 줄일 수 있으며, 동일한 심층 신경망 모델을 기반으로 지속적으로 학습되기 때문에 기존 방법론에서 발생하는 학습 효과의 낮은 상관 관계 문제를 해결할 수 있다.
도 1은 일 실시예에 따른 학습 장치의 구성도
도 2는 일 실시예에 따른 심층 신경망 모델의 구성도
도 3은 일 실시예에 따른 학습 방법의 순서도
도 4는 일 실시예에 따른 심층 신경망 모델 학습 과정을 나타낸 순서도
도 5는 일 실시예에 따른 심층 신경망 모델 추가 학습 과정을 나타낸 순서도
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
도 1은 일 실시예에 따른 학습 장치의 구성도이다.
도 1을 참조하면, 일 실시예에 따른 학습 장치(100)는 제1 학습부(110), 라벨 할당부(130) 및 제2 학습부(120)를 포함한다.
제1 학습부(110)는 라벨링된(labeled) 복수의 데이터를 포함하는 제1 데이터 집합 및 라벨링되지 않은(unlabeled) 복수의 데이터를 포함하는 제2 데이터 집합을 이용하여 심층 신경망(Deep Neural Network) 모델을 학습한다.
일 실시예에 따르면, 심층 신경망 모델은 임의의 입력 데이터를 기 설정된 복수의 클래스 중 특정한 클래스로 분류하고, 분류된 클래스에 대응되는 추정 라벨 값을 출력하도록 학습되는 심층 신경망 기반의 분류(classification) 모델일 수 있다. 이때, 일 실시예에 따르면, 심층 신경망 모델의 입력 데이터는 예를 들어, 이미지 데이터일 수 있으나 반드시 특정한 형태의 데이터로 한정되는 것은 아니다.
한편, 일 실시예에 따르면, 심층 신경망 모델(200)은 도 2에 도시된 예와 같이 특징 추출부(210) 및 각각 특징 추출부(210)의 출력에 기초하여 심층 신경망 모델(200)로 입력된 입력 데이터에 대한 추정 라벨 값을 생성하는 복수의 분류부(220)을 포함할 수 있다.
구체적으로, 일 실시예에 따르면, 특징 추출부(210)는 심층 신경망 모델(200)의 입력 데이터에 대한 특징 벡터를 생성하기 위한 신경망일 수 있다. 예를 들어, 특징 추출부(210)는 심층 신경망 모델(200)의 입력 데이터를 입력 받는 입력 층(input layer), 입력 데이터에 대한 특징 벡터를 출력하는 출력 층(output layer) 및 입력 층과 출력 층 사이에 연결된 하나 이상의 은닉 층(hidden layer)을 포함하는 다층 신경망(multi-layer neural network)일 수 있다.
또한, 일 실시에에 따르면, 복수의 분류부(220)는 각각 특징 추출부(210)로부터 출력되는 특징 벡터를 입력 받아 입력 데이터에 대한 추정 라벨 값을 생성할 수 있다.
일 실시예에 따르면, 복수의 분류부(220)는 모두 동일한 구조를 가질 수 있으나, 반드시 이에 한정되는 것은 아니며, 실시예에 따라, 복수의 분류부(220)는 모두 상이한 구조를 가지거나 부분적으로 상이한 구조를 가질 수 있다.
예를 들어, 복수의 분류부(220) 중 적어도 하나는 각각 시그모이드(sigmoid) 함수, 쌍곡탄젠트(hyperbolic tangent) 함수, ReLU(Rectified Linear Unit) 함수, 소프트맥스(softmax) 함수 등과 같이 이진 분류(binary classification) 또는 다중 클래스 분류(multiclass classification)를 위해 이용할 수 있는 선형 또는 비선형 함수를 활성화 함수(activation function)로 이용한 단층 신경망(single-layer neural network)일 수 있다.
다른 예로, 복수의 분류부(220) 중 적어도 하나는 각각 상술한 선형 또는 비선형 분류 함수를 활성화 함수로 이용한 출력 층을 포함하는 다층 신경망일 수 있다.
또 다른 예로, 복수의 분류부(220) 중 적어도 하나는 각각 SVM(Support Vector Machine), 로지스틱 회귀(logistic regression) 등과 같은 기계 학습(machine learning) 기반 분류 모델로 구성될 수도 있다.
한편, 복수의 분류부(220) 각각의 구조는 반드시 상술한 예에 한정되는 것은 아니며, 학습 파라미터 갱신을 통해 학습 가능하며 이진 분류 또는 다중 클래스 분류를 위해 이용 가능한 다양한 형태의 구조로 구현될 수 있다.
또한, 복수의 분류부(220)의 개수는 반드시 특정한 개수로 한정되는 것은 아니며, 실시예에 따라 변경될 수 있다.
한편, 일 실시예에 따르면, 제1 학습부(110)는 제1 데이터 집합을 이용하여 심층 신경망 모델(200)의 학습 파라미터를 갱신하는 제1 전역 갱신(global update) 및 제2 데이터 집합을 이용하여 복수의 분류부(220) 각각의 학습 파라미터를 갱신하는 제1 국소 갱신(local update)를 수행하여 심층 신경망 모델(200)을 학습할 수 있다.
이때, 일 실시예에 따르면, 제1 학습부(110)는 제1 전역 갱신 및 제1 국소 갱신을 교차하여 반복 수행하여 심층 신경망 모델(200)을 학습할 수 있다. 즉, 제1 학습부(110)는 제1 데이터 집합에 포함된 라벨링된 데이터를 이용하여 특징 추출부(210) 및 복수의 분류부(220)의 학습 파라미터를 갱신한 후, 제2 데이터 집합에 포함된 라벨링되지 않은 데이터를 이용하여 복수의 분류부(220)의 학습 파라미터를 갱신하는 동작을 반복 수행할 수 있다.
한편, 학습 파라미터는 예를 들어, 활성화 함수의 가중치(weight), 바이어스(bias) 등과 같이 심층 신경망 모델(200)의 파라미터들 중 학습을 통해 갱신될 수 있는 파라미터를 의미할 수 있다.
일 실시예에 따르면, 제1 학습부(110)는 제1 데이터 집합에 포함된 라벨링된 데이터가 심층 신경망 모델(200)로 입력된 경우, 제1 전역 갱신을 수행하여, 복수의 분류부(220) 각각에 의해 생성되는 추정 라벨 값이 입력 데이터에 할당된 참 라벨(ground-truth label) 값과 일치하도록 특징 추출부(210) 및 복수의 분류부(220)의 학습 파라미터를 갱신할 수 있다.
구체적으로, 일 실시예에 따르면, 제1 학습부(110)는 제1 데이터 집합에 포함된 데이터 중 심층 신경망 모델(200)로 입력된 데이터에 할당된 참 라벨 값과 해당 입력된 데이터 대한 복수의 분류부(220) 각각의 추정 라벨 값에 기초한 제1 손실 함수(loss function)를 이용하여 제1 전역 갱신을 수행할 수 있다.
이때, 제1 손실 함수는 예를 들어, 아래의 수학식 1을 만족할 수 있으며, 제1 학습부(110)는 제1 손실 함수가 최소화되도록 특징 추출부(210) 및 복수의 분류부(220)의 학습 파터미터를 갱신함으로써, 복수의 분류부(220) 각각에서 출력되는 추정 라벨 값이 심층 신경망 모델(200)로 입력된 데이터에 할당된 참 라벨 값과 가까워지도록 심층 신경망 모델(200)을 학습할 수 있다.
[수학식 1]
Figure pat00001
이때, L1은 제1 손실 함수, Nb는 제1 전역 갱신을 위해 심층 신경망 모델(200)로 입력된 데이터의 개수, Nh는 복수의 분류부(220)의 개수, yi는 제1 전역 갱신을 위해 심층 신경망 모델(200)로 입력된 데이터 중 i 번째 데이터에 할당된 참 라벨 값, y'k,i는 복수의 분류부(220) 중 k번째 분류부의 i 번째 데이터에 대한 추정 라벨 값을 나타낸다.
한편, 일 실시예에 따르면, 제1 학습부(110)는 제2 데이터 집합에 포함된 라벨링되지 않은 데이터가 심층 신경망 모델(200)로 입력된 경우, 제1 국소 갱신을 수행하여, 복수의 분류부(220) 각각이 상이한 추정 라벨 값을 생성하도록 복수의 분류부(220)의 학습 파라미터를 갱신할 수 있다.
구체적으로, 일 실시예에 따르면, 제1 학습부(110)는 제2 데이터 집합에 포함된 데이터 중 심층 신경망 모델(200)로 입력된 데이터에 대한 복수의 분류부(220) 각각의 추정 라벨 값 및 해당 입력된 데이터에 대한 앙상블(ensemble) 추정 라벨 값에 기초한 제2 손실 함수를 이용하여 제1 국소 갱신을 수행할 수 있다.
이때, 제2 손실 함수는 예를 들어, 아래의 수학식 2를 만족할 수 있으며, 제1 학습부(110)는 제2 손실 함수가 최소화되도록 복수의 분류부(220)의 학습 파라미터를 갱신함으로써, 심층 신경망 모델(200)로 입력된 데이터에 대해 복수의 분류부(220) 각각이 상이한 추정 라벨 값을 출력하도록 심층 신경망 모델(200)을 학습할 수 있다
[수학식 2]
Figure pat00002
이때, L2는 제2 손실 함수, Nb는 제1 국소 갱신을 위해 심층 신경망 모델(200)로 입력된 데이터의 개수, Nh는 복수의 분류부(220)의 개수, y''i는 제1 국소 갱신을 위해 심층 신경망 모델(200)로 입력된 데이터 중 i 번째 데이터에 대한 앙상블 추정 라벨 값, y'k,i는 복수의 분류부(220) 중 k번째 분류부의 i 번째 데이터에 대한 추정 라벨 값을 나타낸다.
한편, 앙상블 추정 라벨 값은 예를 들어, 아래의 수학식 3과 같이 심층 신경망 모델(200)로 입력된 데이터에 대한 복수의 분류부(220) 각각의 추정 라벨 값의 평균 값일 수 있으나, 평균 값 외에도, 실시예에 따라 다양한 방식으로 산출될 수 있다.
[수학식 3]
Figure pat00003
라벨 할당부(120)는 제2 데이터 집합에 포함된 데이터 중 일부에 참 라벨 값을 할당하고, 참 라벨 값이 할당된 데이터가 제1 데이터 집합에 추가되도록 제1 데이터 집합 및 제2 데이터 집합을 갱신한다.
일 실시예에 따르면, 라벨 할당부(120)는 제2 데이터 집합에 포함된 데이터 각각에 대한 복수의 분류부(220) 각각의 추정 라벨 값에 기초하여 제2 데이터 집합에 포함된 데이터 중 일부를 라벨링 대상 데이터로 결정할 수 있다.
예를 들어, 라벨 할당부(120)는 복수의 분류부(220) 각각의 추정 라벨 값에 기초하여 제2 데이터 집합에 포함된 데이터 각각에 대한 스코어를 산출하고, 제2 데이터 집합에 포함된 데이터 중 산출된 스코어가 높은 순서대로 기 설정된 개수 또는 기 설정된 비율의 데이터를 라벨링 대상 데이터로 결정할 수 있다.
이때, 제2 데이터 집합에 포함된 데이터 각각에 대한 스코어는 예를 들어, 복수의 분류부(220) 각각의 추정 라벨 값이 상이할 수록 높은 스코어를 가지도록 결정될 수 있다.
한편, 라벨링 대상 데이터가 결정된 경우, 라벨 할당부(120)는 사용자로부터 라벨링 대상 데이터 각각에 할당할 참 라벨 값을 입력받아 입력된 참 라벨 값을 각 라벨링 대상 데이터에 할당할 수 있다. 예를 들어, 라벨 할당부(120)는 라벨링 대상 데이터를 디스플레이 화면을 통해 사용자에게 제공하고 제공된 라벨링 대상 데이터에 대한 참 라벨 값을 입력받기 위한 사용자 인터페이스 화면을 통해 사용자로부터 라벨링 대상 데이터 각각에 할당할 참 라벨 값을 입력받을 수 있다.
한편, 라벨링 대상 데이터에 대한 라벨 값을 할당한 후, 라벨 할당부(120)는 라벨 값이 할당된 라벨링 대상 데이터를 제2 데이터 집합에서 제외함과 동시에 제1 집합에 추가함으로써, 제1 데이터 집합 및 제2 데이터 집합을 갱신할 수 있다.
제2 학습부(130)는 갱신된 제1 데이터 집합 및 갱신된 제2 데이터 집합을 이용하여, 제1 학습부(110)에 의해 학습된 심층 신경망 모델(200)을 추가 학습한다.
일 실시예에 따르면, 제2 학습부(130)는 갱신된 제1 데이터 집합을 이용하여 심층 신경망 모델(200)의 학습 파라미터를 갱신하는 제2 전역 갱신 및 갱신된 제2 데이터 집합을 이용하여 특징 추출부(210)의 학습 파라미터를 갱신하는 제2 국소 갱신을 수행하여 심층 신경망 모델(200)을 추가 학습할 수 있다.
이때, 일 실시예에 따르면, 제2 학습부(130)는 제2 전역 갱신 및 제2 국소 갱신을 교차하여 반복 수행할 수 있다. 즉, 제2 학습부(130)는 갱신된 제1 데이터 집합에 포함된 라벨링된 데이터를 이용하여 특징 추출부(210) 및 복수의 분류부(220)의 학습 파라미터를 갱신한 후, 갱신된 제2 데이터 집합에 포함된 라벨링되지 않은 데이터를 이용하여 특징 추출부(210)의 학습 파라미터를 갱신하는 동작을 반복 수행할 수 있다.
구체적으로, 일 실시예에 따르면, 제2 학습부(130)는 갱신된 제1 데이터 집합에 포함된 라벨링된 데이터가 심층 신경망 모델(200)로 입력된 경우, 제2 전역 갱신을 수행하여, 복수의 분류부(220) 각각에 의해 생성되는 추정 라벨 값이 입력 데이터에 할당된 참 라벨 값과 일치하도록 특징 추출부(210) 및 복수의 분류부(220)의 학습 파라미터를 갱신할 수 있다.
이때, 일 실시예에 따르면, 제2 학습부(130)는 상술한 제1 손실 함수가 최소화되도록 특징 추출부(210) 및 복수의 분류부(220)의 학습 파터미터를 갱신함으로써, 복수의 분류부(220) 각각에서 출력되는 추정 라벨 값이 심층 신경망 모델(200)로 입력된 데이터에 할당된 참 라벨 값과 가까워지도록 심층 신경망 모델(200)을 학습할 수 있다.
한편, 일 실시예에 따르면, 제2 학습부(130)는 갱신된 제2 데이터 집합에 포함된 라벨링되지 않은 데이터가 심층 신경망 모델(200)로 입력된 경우, 제2 국소 갱신을 수행하여, 복수의 분류부(220) 각각이 동일한 추정 라벨 값을 생성하도록 특징 추출부(210)의 학습 파라미터를 갱신할 수 있다.
구체적으로, 일 실시예에 따르면, 제2 학습부(130)는 갱신된 제2 데이터 집합에 포함된 데이터 중 심층 신경망 모델(200)로 입력된 데이터에 대한 복수의 분류부(220) 각각의 추정 라벨 값 및 해당 입력된 데이터에 대한 앙상블 추정 라벨 값에 기초한 제3 손실 함수를 이용하여 제2 국소 갱신을 수행할 수 있다.
이때, 제3 손실 함수는 예를 들어, 아래의 수학식 4를 만족할 수 있으며, 제2 학습부(130)는 제3 손실 함수가 최소화되도록 특징 추출부(210)의 학습 파라미터를 갱신함으로써, 심층 신경망 모델(200)로 입력된 데이터에 대해 복수의 분류부(220) 각각이 동일한 추정 라벨 값을 출력하도록 심층 신경망 모델(200)을 학습할 수 있다.
[수학식 4]
Figure pat00004
이때, L3는 제3 손실 함수, Nb는 제2 국소 갱신을 위해 심층 신경망 모델(200)로 입력된 데이터의 개수, Nh는 복수의 분류부(220)의 개수, y''i는 제2 국소 갱신을 위해 심층 신경망 모델(200)로 입력된 데이터 중 i 번째 데이터에 대한 앙상블 추정 라벨 값, y'k,i는 복수의 분류부(220) 중 k번째 분류부의 i 번째 데이터에 대한 추정 라벨 값을 나타낸다.
도 3은 일 실시예에 따른 학습 방법의 순서도이다.
도 3에 도시된 방법은 예를 들어, 도 1에 도시된 학습 장치(100)에 의해 수행될 수 있다.
도 3을 참조하면, 우선, 학습 장치(100)는 라벨링된 복수의 데이터를 포함하는 제1 데이터 집합 및 라벨링되지 않은 복수의 데이터를 포함하는 제2 데이터 집합을 이용하여 심층 신경망 모델(200)을 학습한다(310).
이후, 학습 장치(100)는 제2 데이터 집합에 포함된 데이터 중 일부에 참 라벨 값을 할당한다(320).
이때, 일 실시예에 따르면, 학습 장치(100)는 제2 데이터 집합에 포함된 데이터 각각에 대한 복수의 분류부(220) 각각의 추정 라벨 값에 기초하여 제2 데이터 집합에 포함된 데이터 중 일부를 라벨링 대상 데이터로 결정할 수 있다.
예를 들어, 학습 장치(100)는 복수의 분류부(220) 각각의 추정 라벨 값이 상이할 수록 높은 스코어를 가지도록 제2 데이터 집합에 포함된 데이터 각각에 대한 스코어를 산출하고, 제2 데이터 집합에 포함된 데이터 중 산출된 스코어가 높은 순서대로 기 설정된 개수 또는 기 설정된 비율의 데이터를 라벨링 대상 데이터로 결정할 수 있다.
또한, 일 실시예에 따르면, 학습 장치(100)는 사용자로부터 라벨링 대상 데이터 각각에 할당할 참 라벨 값을 입력받아 입력된 참 라벨 값을 각 라벨링 대상 데이터에 할당할 수 있다.
이후, 학습 장치(100)는 320 단계에서 참 라벨 값이 할당된 라벨링 대상 데이터가 제1 데이터 집합에 포함되도록 제1 데이터 집합 및 제2 데이터 집합을 갱신한다(330).
구체적으로, 학습 장치(100)는 라벨 값이 할당된 라벨링 대상 데이터를 제2 데이터 집합에서 제외함과 동시에 제1 집합에 추가함으로써, 제1 데이터 집합 및 제2 데이터 집합을 갱신할 수 있다.
이후, 학습 장치(100)는 갱신된 제1 데이터 집합 및 갱신된 제2 데이터 집합을 이용하여 심층 신경망 모델(200)을 추가 학습한다(340).
한편, 도 3에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 4는 일 실시예에 따른 심층 신경망 모델 학습 과정을 나타낸 순서도이다.
구체적으로, 도 4에 도시된 학습 과정은 도 3에 도시된 310 단계에서 수행될 수 있다.
도 4를 참조하면, 우선, 학습 장치(100)는 제1 데이터 집합에 포함된 라벨링된 데이터를 심층 신경망 모델(200)로 입력한다(410).
이후, 학습 장치(100)는 제1 전역 갱신을 수행하여 심층 신경망 모델(200)의 학습 파라미터를 갱신한다(420).
이때, 일 실시예에 따르면, 학습 장치(100)는 상술한 제1 손실 함수가 최소화되도록 심층 신경망 모델(200)에 포함된 특징 추출부(210) 및 복수의 분류부(200)의 학습 파라미터를 갱신할 수 있다.
이후, 학습 장치(100)는 제2 데이터 집합에 포함된 라벨링되지 않은 데이터를 심층 신경망 모델(200)로 입력한다(430).
이후, 학습 장치(100)는 제1 국소 갱신을 수행하여 심층 신경망 모델(200)에 포함된 복수의 분류부(220)의 학습 파라미터를 갱신한다(440).
이때, 일 실시예에 따르면, 학습 장치(100)는 상술한 제2 손실 함수가 최소화되도록 심층 신경망 모델(200)에 포함된 복수의 분류부(220)의 학습 파라미터를 갱신할 수 있다.
이후, 학습 장치(100)는 제1 전역 갱신 및 제1 국소 갱신 과정에서 제1 손실 함수 및 제2 손실 함수 각각에 의해 산출된 손실 값이 수렴되는지 여부를 판단하고(450), 수렴되지 않은 경우, 수렴될 때까지 410 내지 440 단계를 반복 수행한다.
한편, 도 4에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 5는 일 실시예에 따른 심층 신경망 모델 추가 학습 과정을 나타낸 순서도이다.
구체적으로, 도 5에 도시된 학습 과정은 도 3에 도시된 340 단계에서 수행될 수 있다.
도 5를 참조하면, 우선, 학습 장치(100)는 갱신된 제1 데이터 집합에 포함된 라벨링된 데이터를 심층 신경망 모델(200)로 입력한다(510).
이후, 학습 장치(100)는 제2 전역 갱신을 수행하여 심층 신경망 모델(200)의 학습 파라미터를 갱신한다(520).
이때, 일 실시예에 따르면, 학습 장치(100)는 상술한 제1 손실 함수가 최소화되도록 심층 신경망 모델(200)에 포함된 특징 추출부(210) 및 복수의 분류부(200)의 학습 파라미터를 갱신할 수 있다.
이후, 학습 장치(100)는 갱신된 제2 데이터 집합에 포함된 라벨링되지 않은 데이터를 심층 신경망 모델(200)로 입력한다(530).
이후, 학습 장치(100)는 제2 국소 갱신을 수행하여 심층 신경망 모델(200)에 포함된 특징 추출부(210)의 학습 파라미터를 갱신한다(440).
이때, 일 실시예에 따르면, 학습 장치(100)는 상술한 제3 손실 함수가 최소화되도록 심층 신경망 모델(200)에 포함된 특징 추출부(210)의 학습 파라미터를 갱신할 수 있다.
이후, 학습 장치(100)는 제2 전역 갱신 및 제2 국소 갱신 과정에서 제1 손실 함수 및 제3 손실 함수 각각에 의해 산출된 손실 값이 수렴되는지 여부를 판단하고(550), 수렴되지 않은 경우, 수렴될 때까지 510 내지 540 단계를 반복 수행한다.
한편, 도 5에 도시된 순서도에서 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 6은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술되지 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 본 발명의 실시예들에 따른 학습 장치(100)에 포함되는 하나 이상의 컴포넌트일 수 있다. 컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 전술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100: 학습 장치
110: 제1 학습부
120: 라벨 할당부
130: 제2 학습부
200; 심층 신경망 모델
210; 특징 추출부
220: 분류부

Claims (24)

  1. 하나 이상의 프로세서, 및
    상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    라벨링된(labeled) 복수의 데이터를 포함하는 제1 데이터 집합 및 라벨링되지 않은(unlabeled) 복수의 데이터를 포함하는 제2 데이터 집합을 이용하여 심층 신경망(Deep Neural Network) 모델을 학습하는 단계;
    상기 라벨링되지 않은 복수의 데이터 중 일부에 참 라벨(ground-truth label) 값을 할당하는 단계;
    상기 참 라벨 값이 할당된 데이터가 상기 제1 데이터 집합에 포함되도록 상기 제1 데이터 집합 및 상기 제2 데이터 집합을 갱신하는 단계; 및
    상기 갱신된 제1 데이터 집합 및 상기 갱신된 제2 데이터 집합을 이용하여 상기 심층 신경망 모델을 추가 학습하는 단계를 포함하는 방법.
  2. 청구항 1에 있어서,
    상기 심층 신경망 모델은, 상기 심층 신경망 모델의 입력 데이터에 대한 특징 벡터를 생성하는 특징 추출부 및 각각 상기 특징 벡터에 기초하여 상기 입력 데이터에 대한 추정 라벨 값을 생성하는 복수의 분류부를 포함하는 방법.
  3. 청구항 2에 있어서,
    상기 학습하는 단계는, 상기 제1 데이터 집합을 이용하여 상기 심층 신경망 모델의 학습 파라미터를 갱신하는 제1 전역 갱신(global update) 및 상기 제2 데이터 집합을 이용하여 상기 복수의 분류부 각각의 학습 파라미터를 갱신하는 제1 국소 갱신(local update)을 수행하여 상기 심층 신경망 모델을 학습하는 방법.
  4. 청구항 3에 있어서,
    상기 학습하는 단계는, 상기 제1 전역 갱신 및 상기 제1 국소 갱신을 교차하여 반복 수행하는 방법.
  5. 청구항 3에 있어서,
    상기 학습하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값이 일치하도록 상기 제1 전역 갱신을 수행하고,
    상기 제2 데이터 집합에 포함된 데이터 각각에 대해 상기 복수의 분류부 각각이 상이한 추정 라벨 값을 생성하도록 상기 제1 국소 갱신을 수행하는 방법.
  6. 청구항 3에 있어서,
    상기 학습하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 제1 손실 함수(loss function)를 이용하여 상기 제1 전역 갱신을 수행하고,
    상기 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값 및 상기 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 앙상블(ensemble) 추정 라벨 값에 기초한 제2 손실 함수를 이용하여 상기 제1 국소 갱신을 수행하는 방법.
  7. 청구항 2에 있어서,
    상기 할당하는 단계는,
    상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초하여 상기 제1 데이터 집합에 포함된 데이터 중 일부를 라벨링 대상 데이터로 결정하는 단계;
    사용자로부터 상기 라벨링 대상 데이터 각각에 할당할 참 라벨 값을 입력받는 단계; 및
    상기 입력된 참 라벨 값을 상기 라벨링 대상 데이터 각각에 할당하는 단계를 포함하는 방법.
  8. 청구항 7에 있어서,
    상기 결정하는 단계는, 상기 복수의 분류부 각각의 추정 라벨 값이 상이할수록 높은 스코어(score)를 가지도록 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 스코어를 산출하고, 상기 산출된 스코어가 높은 순서대로 상기 제1 데이터 집합에 포함된 데이터 중 기 설정된 개수 또는 기 설정된 비율의 데이터를 상기 라벨링 대상 데이터로 결정하는 방법.
  9. 청구항 2에 있어서,
    상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합을 이용하여 상기 심층 신경망 모델의 학습 파라미터를 갱신하는 제2 전역 갱신 및 상기 갱신된 제2 데이터 집합을 이용하여 상기 특징 추출부의 학습 파라미터를 갱신하는 제2 국소 갱신을 수행하여 상기 심층 신경망 모델을 추가 학습하는 방법.
  10. 청구항 9에 있어서,
    상기 추가 학습하는 단계는, 상기 제2 전역 갱신 및 상기 제2 국소 갱신을 교차하여 반복 수행하는 방법.
  11. 청구항 9에 있어서,
    상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값이 일치하도록 상기 제2 전역 갱신을 수행하고,
    상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대해 상기 복수의 분류부 각각이 동일한 추정 라벨 값을 생성하도록 상기 제2 국소 갱신을 수행하는 방법.
  12. 청구항 9에 있어서,
    상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 제1 손실 함수를 이용하여 상기 제2 전역 갱신을 수행하고,
    상기 갱신된 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값 및 상기 갱신된 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 앙상블 추정 라벨 값에 기초한 제3 손실 함수를 이용하여 상기 제2 국소 갱신을 수행하는 방법.
  13. 하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서에 의해 실행되도록 구성되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 장치로서,
    상기 프로그램은,
    라벨링된(labeled) 복수의 데이터를 포함하는 제1 데이터 집합 및 라벨링되지 않은(unlabeled) 복수의 데이터를 포함하는 제2 데이터 집합을 이용하여 심층 신경망(Deep Neural Network) 모델을 학습하는 단계;
    상기 라벨링되지 않은 복수의 데이터 중 일부에 참 라벨(ground-truth label) 값을 할당하는 단계;
    상기 참 라벨 값이 할당된 데이터가 상기 제1 데이터 집합에 포함되도록 상기 제1 데이터 집합 및 상기 제2 데이터 집합을 갱신하는 단계; 및
    상기 갱신된 제1 데이터 집합 및 상기 갱신된 제2 데이터 집합을 이용하여 상기 심층 신경망 모델을 추가 학습하는 단계를 실행하기 위한 명령어들을 포함하는 장치.
  14. 청구항 13에 있어서,
    상기 심층 신경망 모델은, 상기 심층 신경망 모델의 입력 데이터에 대한 특징 벡터를 생성하는 특징 추출부 및 각각 상기 특징 벡터에 기초하여 상기 입력 데이터에 대한 추정 라벨 값을 생성하는 복수의 분류부를 포함하는 장치.
  15. 청구항 14에 있어서,
    상기 학습하는 단계는, 상기 제1 데이터 집합을 이용하여 상기 심층 신경망 모델의 학습 파라미터를 갱신하는 제1 전역 갱신(global update) 및 상기 제2 데이터 집합을 이용하여 상기 복수의 분류부 각각의 학습 파라미터를 갱신하는 제1 국소 갱신(local update)을 수행하여 상기 심층 신경망 모델을 학습하는 장치.
  16. 청구항 15에 있어서,
    상기 학습하는 단계는, 상기 제1 전역 갱신 및 상기 제1 국소 갱신을 교차하여 반복 수행하는 장치.
  17. 청구항 15에 있어서,
    상기 학습하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값이 일치하도록 상기 제1 전역 갱신을 수행하고,
    상기 제2 데이터 집합에 포함된 데이터 각각에 대해 상기 복수의 분류부 각각이 상이한 추정 라벨 값을 생성하도록 상기 제1 국소 갱신을 수행하는 장치.
  18. 청구항 15에 있어서,
    상기 학습하는 단계는, 상기 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 제1 손실 함수(loss function)를 이용하여 상기 제1 전역 갱신을 수행하고,
    상기 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값 및 상기 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 앙상블(ensemble) 추정 라벨 값에 기초한 제2 손실 함수를 이용하여 상기 제1 국소 갱신을 수행하는 장치.
  19. 청구항 14에 있어서,
    상기 할당하는 단계는,
    상기 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초하여 상기 제1 데이터 집합에 포함된 데이터 중 일부를 라벨링 대상 데이터로 결정하는 단계;
    사용자로부터 상기 라벨링 대상 데이터 각각에 할당할 참 라벨 값을 입력받는 단계; 및
    상기 입력된 참 라벨 값을 상기 라벨링 대상 데이터 각각에 할당하는 단계를 포함하는 장치.
  20. 청구항 19에 있어서,
    상기 결정하는 단계는, 상기 복수의 분류부 각각의 추정 라벨 값이 상이할수록 높은 스코어(score)를 가지도록 상기 제1 데이터 집합에 포함된 데이터 각각에 대한 스코어를 산출하고, 상기 산출된 스코어가 높은 순서대로 상기 제1 데이터 집합에 포함된 데이터 중 기 설정된 개수 또는 기 설정된 비율의 데이터를 상기 라벨링 대상 데이터로 결정하는 장치.
  21. 청구항 14에 있어서,
    상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합을 이용하여 상기 심층 신경망 모델의 학습 파라미터를 갱신하는 제2 전역 갱신 및 상기 갱신된 제2 데이터 집합을 이용하여 상기 특징 추출부의 학습 파라미터를 갱신하는 제2 국소 갱신을 수행하여 상기 심층 신경망 모델을 추가 학습하는 장치.
  22. 청구항 21에 있어서,
    상기 추가 학습하는 단계는, 상기 제2 전역 갱신 및 상기 제2 국소 갱신을 교차하여 반복 수행하는 장치.
  23. 청구항 21에 있어서,
    상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값이 일치하도록 상기 제2 전역 갱신을 수행하고,
    상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대해 상기 복수의 분류부 각각이 동일한 추정 라벨 값을 생성하도록 상기 제2 국소 갱신을 수행하는 장치.
  24. 청구항 21에 있어서,
    상기 추가 학습하는 단계는, 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 할당된 참 라벨 값과 상기 갱신된 제1 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 제1 손실 함수를 이용하여 상기 제2 전역 갱신을 수행하고,
    상기 갱신된 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값 및 상기 갱신된 제2 데이터 집합에 포함된 데이터 각각에 대한 상기 복수의 분류부 각각의 추정 라벨 값에 기초한 앙상블 추정 라벨 값에 기초한 제3 손실 함수를 이용하여 상기 제2 국소 갱신을 수행하는 장치.
KR1020190131873A 2019-10-23 2019-10-23 심층 신경망 학습 장치 및 방법 KR20210048058A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190131873A KR20210048058A (ko) 2019-10-23 2019-10-23 심층 신경망 학습 장치 및 방법
US16/665,957 US11574185B2 (en) 2019-10-23 2019-10-28 Apparatus and method for training deep neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190131873A KR20210048058A (ko) 2019-10-23 2019-10-23 심층 신경망 학습 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20210048058A true KR20210048058A (ko) 2021-05-03

Family

ID=75587125

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190131873A KR20210048058A (ko) 2019-10-23 2019-10-23 심층 신경망 학습 장치 및 방법

Country Status (2)

Country Link
US (1) US11574185B2 (ko)
KR (1) KR20210048058A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102337070B1 (ko) * 2021-07-12 2021-12-08 (주)에이아이매틱스 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
KR20230067729A (ko) 2021-11-08 2023-05-17 전남대학교산학협력단 이미지 기반으로 물품의 불량 여부를 결정하는 엣지 컴퓨팅 시스템 및 그의 중앙 클라우드 서버

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210304039A1 (en) * 2020-03-24 2021-09-30 Hitachi, Ltd. Method for calculating the importance of features in iterative multi-label models to improve explainability
US11803657B2 (en) * 2020-04-23 2023-10-31 International Business Machines Corporation Generation of representative data to preserve membership privacy
US11676036B2 (en) * 2020-05-21 2023-06-13 Dimaag-Ai, Inc. Apparatus for knowledge based evolutionary learning in AI systems
GB2601165A (en) * 2020-11-20 2022-05-25 Wallife S R L Transaction verification
US20220210140A1 (en) * 2020-12-30 2022-06-30 Atb Financial Systems and methods for federated learning on blockchain
US11532169B1 (en) * 2021-06-15 2022-12-20 Motive Technologies, Inc. Distracted driving detection using a multi-task training process

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102002024B1 (ko) 2018-12-06 2019-07-22 주식회사 아임클라우드 객체 라벨링 처리 방법 및 객체 관리 서버

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734567B2 (en) * 2015-06-24 2017-08-15 Samsung Electronics Co., Ltd. Label-free non-reference image quality assessment via deep neural network
US10510336B2 (en) * 2017-06-12 2019-12-17 International Business Machines Corporation Method, apparatus, and system for conflict detection and resolution for competing intent classifiers in modular conversation system
WO2020014903A1 (en) * 2018-07-18 2020-01-23 Shenzhen Malong Technologies Co., Ltd. Complexity-based progressive training for machine vision models
US20210264214A1 (en) * 2018-07-19 2021-08-26 The Regents Of The University Of California Method and system for digital staining of label-free phase images using deep learning
WO2020068784A1 (en) * 2018-09-24 2020-04-02 Schlumberger Technology Corporation Active learning framework for machine-assisted tasks
CN113168567A (zh) * 2018-10-29 2021-07-23 Hrl实验室有限责任公司 用于小样本转移学习的系统和方法
US11322256B2 (en) * 2018-11-30 2022-05-03 International Business Machines Corporation Automated labeling of images to train machine learning
US20200210553A1 (en) * 2018-12-28 2020-07-02 12 Sigma Technologies Protection of data and deep learning models from piracy and unauthorized uses
KR102631160B1 (ko) * 2019-07-11 2024-01-30 엘지전자 주식회사 차량 탑승자 상태 감지방법 및 차량 탑승자 상태 감지장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102002024B1 (ko) 2018-12-06 2019-07-22 주식회사 아임클라우드 객체 라벨링 처리 방법 및 객체 관리 서버

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102337070B1 (ko) * 2021-07-12 2021-12-08 (주)에이아이매틱스 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
WO2023287064A1 (ko) * 2021-07-12 2023-01-19 (주)에이아이매틱스 이상 데이터 자동 검출 및 자동 라벨링 기술을 이용한 학습 데이터베이스 구축 방법 및 시스템
KR20230067729A (ko) 2021-11-08 2023-05-17 전남대학교산학협력단 이미지 기반으로 물품의 불량 여부를 결정하는 엣지 컴퓨팅 시스템 및 그의 중앙 클라우드 서버

Also Published As

Publication number Publication date
US11574185B2 (en) 2023-02-07
US20210125057A1 (en) 2021-04-29

Similar Documents

Publication Publication Date Title
KR20210048058A (ko) 심층 신경망 학습 장치 및 방법
US10937416B2 (en) Cross-domain multi-task learning for text classification
US20210151034A1 (en) Methods and systems for multimodal content analytics
CN111373417B (zh) 与基于度量学习的数据分类相关的设备及其方法
US20160078339A1 (en) Learning Student DNN Via Output Distribution
US11651214B2 (en) Multimodal data learning method and device
WO2019075771A1 (en) SEMI-SUPERVISED APPRENTICESHIP SELF-LEARNING METHOD AND SYSTEM USING GENERATIVE ANTAGONIST NETWORKS
US11875253B2 (en) Low-resource entity resolution with transfer learning
JP2019527440A (ja) マルチ関連ラベルを生成する方法及びシステム
CN107112005A (zh) 深度神经支持向量机
US11436497B2 (en) System and method for optimization of deep learning model
Hazan et al. Perturbations, optimization, and statistics
JP2018537788A (ja) 外部メモリを用いたニューラルネットワークの拡張
JP2017500638A (ja) 機械学習における重み生成
KR102283283B1 (ko) 데이터 레이블링 우선순위 결정방법
KR20210149530A (ko) 이미지 분류 모델 학습 방법 및 이를 수행하기 위한 장치
Za’in et al. Evolving large-scale data stream analytics based on scalable PANFIS
CN109726386B (zh) 一种词向量模型生成方法、装置和计算机可读存储介质
US11531863B1 (en) Systems and methods for localization and classification of content in a data set
US20210042625A1 (en) Performance of neural networks using learned specialized transformation functions
KR20200052411A (ko) 영상 분류 장치 및 방법
KR20220102012A (ko) 데이터 생성 방법 및 장치
KR101864301B1 (ko) 데이터 분류 장치 및 방법
KR20210142930A (ko) 퓨 샷 학습 방법 및 이를 수행하기 위한 장치
US20230140444A1 (en) Document classification method and document classification device

Legal Events

Date Code Title Description
A201 Request for examination