KR20210103825A - 데이터의 동적샘플링을 통한 심층신경망 학습에서의 최악망각현상 완화방법 - Google Patents

데이터의 동적샘플링을 통한 심층신경망 학습에서의 최악망각현상 완화방법 Download PDF

Info

Publication number
KR20210103825A
KR20210103825A KR1020200018481A KR20200018481A KR20210103825A KR 20210103825 A KR20210103825 A KR 20210103825A KR 1020200018481 A KR1020200018481 A KR 1020200018481A KR 20200018481 A KR20200018481 A KR 20200018481A KR 20210103825 A KR20210103825 A KR 20210103825A
Authority
KR
South Korea
Prior art keywords
network
sampling
learning
task
data
Prior art date
Application number
KR1020200018481A
Other languages
English (en)
Other versions
KR102411526B1 (ko
Inventor
신병석
이연
홍대용
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020200018481A priority Critical patent/KR102411526B1/ko
Publication of KR20210103825A publication Critical patent/KR20210103825A/ko
Application granted granted Critical
Publication of KR102411526B1 publication Critical patent/KR102411526B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

일 실시예에 따른 컴퓨터로 구현되는 학습 시스템에 의해 수행되는 최악 망각 현상 완화 방법은, 새로운 태스크가 입력됨을 수신하는 단계; 상기 수신된 새로운 태스크를 샘플링 네트워크를 이용하여 학습을 수행할 태스크를 추출하기 위한 샘플링을 수행하는 단계; 및 상기 샘플링이 수행됨에 따라 추출된 태스크를 학습 네트워크에 입력하여 학습시키는 단계를 포함할 수 있다.

Description

데이터의 동적샘플링을 통한 심층신경망 학습에서의 최악망각현상 완화방법{MITIGATING CATASTROPHIC FORGETTING THROUGH DYNAMIC SAMPLING OF DATA IN DEEP LEARNING}
아래의 설명은 데이터의 동적 샘플링을 통한 심층신경망 학습에서의 최악 망각 현상 완화 기술에 관한 것이다.
저장 장치 및 데이터 수집 능력의 발전으로 다양한 분야에서 ImageNet, COCO, WordNet, VQA 등 큰 규모의 데이터 셋이 생성되고 있다. 이에 더불어 컴퓨팅 파워의 향상은 다량의 데이터를 학습하는 방식에 대한 연구가 활발해졌다. 이 중 전이 학습은 여러 개의 태스크를 학습하는데 있어 효과적이다. 같은 문제를 푸는데 있어, 새로운 태스크를 도입하면 기본적으로 새로운 모델을 생성해야 한다. 이때, 새로운 모델을 생성하는데 이전에 학습한 모델을 활용할 수 있는 기법이 전이 학습이다. 이를 통해 부족한 새 태스크 데이터를 보강하거나, 새 태스크에 대한 정확도를 높이는 데 기여한다. 그러나 전이 학습에는 catastrophic forgetting problem(CFP)이라는 문제가 있다. 다수의 태스크를 이용하여 전이 학습을 할 때 새로운 태스크를 이용한 학습이 이전 데이터 셋에 의한 학습 결과에 부정적인 영향을 주어 딥 네트워크의 성능이 저하되는 현상을 말한다. 일반적으로 사람이 새로운 내용을 공부하면 이전에 공부한 것을 부분적으로 잊어버리는 증상에 비유된다.
기초적인 해결책으로써 모든 태스크를 하나의 셋으로 합쳐 스크래치부터 다시 학습시키는 방법이 있다. 그러나 매번 새로운 태스크가 들어올 때 마다 처음부터 다시 학습하는 방식은 학습해둔 네트워크를 재사용하지 않기 때문에 효율적이지 못하다. EWC(Elastic Weight Consolidation)은 이를 완화하기 위해 고안된 방법으로서 피셔 정보(Fisher Information)를 이용한 동적인 업데이트 기법을 사용한다. 네트워크를 구성한 각 링크의 가중치마다 피셔 정보(fisher information)를 계산해두고, 역전파(backpropagation) 시 업데이트 강도를 결정하는 계수(coefficient)로 활용한다. 이에 따라 중요한 역할을 한 가중치는 보존되고 그렇지 않은 가중치는 업데이트된다. 그러나 EWC는 새로운 태스크 내 데이터를 모두 수용하여 학습에 적용한다. 이에 따라, 새로운 태스크가 크거나 새로운 태스크의 개수가 많으면 여전히 최악의 망각 현상이 발생한다.
PEWC(Predictive Elastic Weight Consolidation)는 네트워크가 학습할 데이터를 선별하여 학습을 진행한다. 이미 네트워크가 학습을 진행하였기 때문에, 다량의 새로운 학습 데이터는 오히려 학습해둔 가중치를 왜곡할 수 있다. 매 태스크가 들어올 때마다 네트워크로 예측 과정을 수행해 예측이 크게 틀린 이미지만을 추출하여 학습을 진행한다. 이로써 효율적이고 망각 없는 학습 스킴(scheme)을 제안하였다. 그러나 PEWC는 정적인(static) 샘플 레이트(sample rate)를 사용한다. 하이퍼파라미터(hyperparameter)로서 지정된 특정 비율에 따라 일정하게 샘플링을 수행한다. 각 태스크마다 네트워크의 가중치에 미치는 영향이 다르기 때문에, 여기에는 최적화의 여지가 있다.
데이터의 동적 샘플링을 통한 심층신경망 학습에서의 최악 망각 현상 완화방법 및 시스템을 제공할 수 있다. 구체적으로, 학습 네트워크와 별도로, 샘플링만을 위한 샘플링 네트워크를 사용하여 이미지의 추출을 동적인 비율로 수행함으로써, 학습 데이터를 최소화하면서도 최악 망각 현상을 완화시키는 방법 및 시스템을 제공할 수 있다.
컴퓨터로 구현되는 학습 시스템에 의해 수행되는 최악 망각 현상 완화 방법은, 새로운 태스크가 입력됨을 수신하는 단계; 상기 수신된 새로운 태스크를 샘플링 네트워크를 이용하여 학습을 수행할 태스크를 추출하기 위한 샘플링을 수행하는 단계; 및 상기 샘플링이 수행됨에 따라 추출된 태스크를 학습 네트워크에 입력하여 학습시키는 단계를 포함할 수 있다.
상기 최악 망각 현상 완화 방법은, 최악 망각 현상 완화를 위한 샘플링 네트워크 및 학습 네트워크를 구성하는 단계를 더 포함하고, 상기 샘플링 네트워크는, 상기 학습 네트워크가 학습할 데이터를 추출하고, 상기 학습 네트워크는 상기 샘플링 네트워크를 통하여 샘플링된 태스크를 학습할 수 있다.
상기 샘플링 네트워크는, 출력 사이즈(output size)가 1로 구성되고, 상기 샘플링을 수행하는 단계는, 상기 샘플링 네트워크에서 출력값으로 상기 새로운 태스크의 각 데이터에 대한 점수를 산출하고, 상기 산출된 데이터에 대한 점수에 기초하여 데이터를 학습에 사용할 것인지 여부를 결정하는 단계를 포함할 수 있다.
상기 샘플링을 수행하는 단계는, 상기 새로운 태스크를 상기 샘플링 네트워크에 입력하여 학습시킴에 따라 참조(reference) 과정을 수행하여 상기 새로운 태스크의 각 데이터가 학습 네트워크에 적용될 것인지 여부를 결정하여 학습할 데이터를 추출하는 단계를 포함할 수 있다.
상기 샘플링을 수행하는 단계는, 상기 새로운 태스크에서, 첫번째 태스크 및 마지막 태스크를 제외한 나머지 태스크로부터 상기 샘플링 네트워크를 통해 태스크를 다운사이즈(downsize)하는 과정을 수행하는 단계를 포함할 수 있다.
상기 샘플링 네트워크는, L2 정규화 손실(regularization loss)을 사용하고, 과적합을 완화시키기 위하여 L1 regularizer를 함께 사용하고, 상기 샘플링 네트워크가 상기 학습 네트워크의 가중치 분포를 반영하기 위하여 상기 학습 네트워크의 파라미터 셋이 손실 함수(Loss Function)에 추가된 것일 수 있다.
상기 샘플링 네트워크는, 상기 샘플링 네트워크에서 새로운 태스크의 각 데이터와 점수를 이용하여 학습 네트워크의 파라미터에 기초하여 학습이 진행될 수 있다.
상기 학습시키는 단계는, 상기 샘플링이 수행됨에 따라 추출된 태스크를 학습 네트워크에 입력하여 학습시킴으로써 학습 데이터의 양을 최소화하면서 최악 망각 현상을 완화하는 단계를 포함할 수 있다.
최악 망각 현상 완화를 위한 학습 시스템은, 새로운 태스크가 입력됨을 수신하는 수신부; 상기 수신된 새로운 태스크를 샘플링 네트워크를 이용하여 학습을 수행할 태스크를 추출하기 위한 샘플링을 수행하는 샘플링 수행부; 및 상기 샘플링이 수행됨에 따라 추출된 태스크를 학습 네트워크에 입력하여 학습시키는 학습부를 포함할 수 있다.
일 실시예에 따른 학습 시스템은 학습 데이터를 최소화하면서도 최악 망각 현상을 완화시킬 수 있다.
일 실시예에 따른 학습 시스템은 샘플링만을 위한 샘플링 네트워크를 별도로 사용하여 동적인 비율로 이미지를 추출함으로써 태스크 사이즈의 조절이 가능하다.
도 1은 일 실시예에 따른 학습 시스템에서 Sort-Free PEWC의 구조 및 새로운 태스크가 입력되었을 때의 동작을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 학습 시스템에서 Sort-Free PEWC 의 샘플링 프로세스를 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 학습 시스템의 구성을 설명하기 위한 블록도이다.
도 4는 일 실시예에 따른 학습 시스템에서 최악 망각 현상을 완화하는 방법을 설명하기 위한 흐름도이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 1은 일 실시예에 따른 학습 시스템에서 Sort-Free PEWC의 구조 및 새로운 태스크가 입력되었을 때의 동작을 설명하기 위한 도면이다.
전이 학습 시 발생하는 최악 망각 현상은 다량의 데이터를 다룰 때 새로 학습한 데이터 셋에 의해 기존에 학습한 데이터 셋에 대한 정확도가 상실되는 것을 의미한다. PEWC(Predictive Elastic Weight Consolidation)은 기존 네트워크 기술로써 분류(classification)하지 못한 이미지만을 추출하여 다음 학습 과정을 진행함으로써 최악 망각 현상을 완화시킨다. 그러나 정적 샘플링을 수행하기 때문에 네트워크가 제대로 분류할 수 있는 영상도 학습 데이터에 포함될 수 있다. 이는 네트워크가 올바르게 분류할 수 있는 이미지도 학습 데이터에 포함시키므로 해당 이미지를 제외함으로써 학습 데이터를 줄일 수 있다. 실시예에서는 네트워크가 정렬없이 동적으로 학습할 이미지를 추출하는 샘플링 네트워크를 추가로 적용하여, 전반적으로 비슷한 정도로 예측이 틀린 이미지만을 추출하도록 하여 학습 데이터를 최소화하면서도 최악 망각 현상을 PEWC와 비슷한 수준으로 완화시키는 동작을 설명하기로 한다.
PEWC의 샘플링은 네트워크의 예측과 실제 주석의 L1-norm이라는 고정된 기준에 따라 이미지를 추출하며, 이를 위해 정렬 과정이 필요할 뿐 아니라 샘플링 레이트(sampling rate)라는 새로운 하이퍼파라미터(hyperparameter)를 필요로 한다. 각각의 새로운 태스크의 데이터 분포는 네트워크가 이미 학습한 분포와의 상관관계가 모두 다르다. 때문에 이처럼 고정된 샘플링 레이트를 사용하면, 새로운 태스크가 학습한 분포와 비슷한 양상을 가져 많은 데이터를 제외할 수 있는 경우에도 동일한 비율로 샘플링하기 때문에 최악 망각 현상의 완화에 방해요인이 된다.
도 1을 참고하면, 실시예에서 제안하는 Sort-Free PEWC는 학습 네트워크와 별도로, 샘플링만을 위한 네트워크, 다시 말해서 샘플링 네트워크를 별도로 사용함으로써 어려운 이미지의 추출을 동적인 비율로 수행할 수 있다. Sort-Free PEWC는 새로운 태스크가 입력되면, 샘플링 네트워크를 이용한 참조(reference) 과정을 수행하여 새로운 태스크의 각 이미지가 학습 네트워크에 적용될지 여부를 결정할 수 있다. 이때, 샘플링 네트워크는 출력(output)된 결과값으로 1개로, 오직 이미지의 점수(score)만을 산출할 수 있다. 산출된 점수(값)는 이미지를 학습에 사용할 것인지 여부만을 결정하고 학습 네트워크로 전달되지 않는다. 이로써 샘플링 네트워크는 학습 네트워크가 학습할 이미지를 추출하는 역할을 수행하고, 학습 네트워크는 샘플링을 통해 생성된 태스크를 학습하는 역할을 수행할 수 있다. 실시예에서는 샘플링 네트워크의 손실 함수(loss function)를 수학식 1과 같이 정의하여, 각 태스크에서 사용될 이미지와 이미지의 수를 네트워크가 동적으로 선택할 수 있도록 유도할 수 있다.
수학식 1:
Figure pat00001
샘플링 네트워크는 기본적으로 L2 regularization loss를 사용한다. 그러나 이미지를 참조(reference)할 때 해당하는 이미지가 학습 네트워크에 사용될 것인지 여부만을 결정하는 단순한 형태이기 때문에, 과적합(overfitting)을 완화시키기 위해 L1 regularizer를 함께 사용할 수 있다. 이에 더해, 샘플링 네트워크가 학습 네트워크의 가중치 분포를 반영하기 위해 학습 네트워크의 파라미터 셋을 손실 함수(loss function)에 추가할 수 있다. 이는 knowledge distillation 기법 중 하나인 teacher-student을 응용한 것으로, teacher-student 기법의 주 목적인 model compression과 달리 모델 간 분류 능력의 전달을 목적으로 단순화할 수 있다.
도 2는 일 실시예에 따른 학습 시스템에서 Sort-Free PEWC 의 샘플링 프로세스를 설명하기 위한 도면이다.
도 2를 참고하면, 각 막대를 이미지라 하고, 막대의 높이를 각 이미지의 난이도라고 하였을 때, 기존의 PEWC와 실시예에서 제안된 Sort-Free PEWC의 선예측 과정의 차이를 도식화한 것이다.
기존의 PEWC와 실시예에서 제안된 Sort-Free PEWC의 가장 큰 차이는 사용되는 네트워크의 수이다. 기존의 PEWC는 하나의 네트워크만으로 선예측 과정과 학습 과정을 모두 진행한 반면, 실시예에서 제안된 Sort-Free PEWC은 선예측 과정에서 수행되는 태스크 샘플링을 위한 별도의 네트워크를 사용하며, 그 과정에 정렬 연산이 포함되어 있지 않다.
도 2는 기존의 PEWC와 실시예에서 제안된 Sort-Free PEWC의 선예측 과정 내에서 태스크를 나타낸 것으로, 이미지를 막대로 나타내고, 해당 이미지의 난이도를 막대의 높이로 나타낸 것을 첫 번째 컬럼(column)이라고 기재하기로 한다. 새로운 태스크가 입력되면, 기존의 PEWC는 참조(reference) 과정을 통하여 각 이미지를 예측하고 실제 주석과의 L1-norm으로 이미지의 어려운 난이도를 정량화한다. 그리고 막대의 높이에 따라 태스크 내 모든 이미지를 정렬하고, 주어진 샘플 레이트(sample rate)에 따라 일정한 비율의 어려운 이미지를 샘플링할 수 있다.
반면, 실시예에서 제안된 Sort-Free PEWC은 출력 사이즈(output size)가 1인 샘플링 네트워크를 구성하여, 참조(reference) 과정을 학습 네트워크가 아닌 샘플링 네트워크에게 수행시킬 수 있다. 이에 따라 각 이미지는 참조(reference) 되는 순간 학습 네트워크에 적용될 건인지 여부를 바로 판별 받을 수 있다. 이를 통해, 정렬 과정이 사라지며, 최종적으로 사용할 이미지 수에 제한을 두지 않기 때문에 보다 동적인 태스크 사이즈의 조절이 가능하다.
알고리즘 1은 실시예에서 제안된 Sort-Free PEWC의 아키텍처를 학습시키기 위한 프로세스이다.
알고리즘 1:
Figure pat00002
먼저, 아키텍처 구성을 위한 학습 네트워크와 샘플링 네트워크를 초기화할 수 있다. 전이 학습은 이미 학습된 태스크를 가지고 있는 것을 전제로 하기 때문에, 첫 번째 태스크는 샘플링 하지 않고 학습 네트워크가 학습을 수행할 수 있다. 학습 네트워크에는 neural net이나 convolutional neural net 등이 사용될 수 있으며, 모든 학습을 마친 뒤 최종 모델이 저장될 수 있다. 샘플링 네트워크는 학습 네트워크와 크기가 같거나 작은 모델로서, 오로지 새로운 태스크의 샘플링 만을 위해 학습될 수 있다. 학습 네트워크가 convolutional neural net이더라도 샘플링 네트워크는 단순 neural net으로 구성할 수 있다. 모든 학습 네트워크 학습 과정 뒤에는 샘플링 네트워크의 학습 과정이 뒤따른다. 이때, 샘플링 네트워크는 각 데이터(예를 들면, 이미지 데이터)의 클래스 라벨(class label)이 아닌 각 데이터(예를 들면, 이미지 데이터)의 점수(score)이기 때문에, 학습 네트워크의 참조(reference)과정을 통해 샘플 데이터(샘플링된 태스크)를 생성할 수 있다. 샘플링 네트워크는 데이터와 점수(score)를 가지고 학습 네트워크 파라미터를 따르도록 학습이 진행될 수 있다. 두 번째 태스크부터는 샘플링 네트워크를 통해 태스크를 다운사이즈(downsize)하는 과정이 이루어 진 뒤, 상기 언급한 과정이 반복될 수 있다. 마지막 태스크의 경우에는 샘플링 네트워크를 학습할 필요가 없기 때문에 샘플링 과정이 제외될 수 있다.
도 3은 일 실시예에 따른 학습 시스템의 구성을 설명하기 위한 블록도이고, 도 4는 일 실시예에 따른 학습 시스템에서 최악 망각 현상을 완화하는 방법을 설명하기 위한 흐름도이다.
학습 시스템(100)에 포함된 프로세서는 수신부(310), 샘플링 수행부(320) 및 학습부(330)를 포함할 수 있다. 이러한 프로세서 및 프로세서의 구성요소들은 도 4의 최악 망각 현상을 완화하는 방법이 포함하는 단계들(410 내지 430)을 수행하도록 학습 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서의 구성요소들은 학습 시스템(100)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다.
프로세서는 최악 망각 현상을 완화하는 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 학습 시스템(100)에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 학습 시스템을 제어할 수 있다.
단계(410)에서 수신부(310)는 새로운 태스크가 입력됨을 수신할 수 있다.
단계(420)에서 샘플링 수행부(320)는 수신된 새로운 태스크를 샘플링 네트워크를 이용하여 학습을 수행할 태스크를 추출하기 위한 샘플링을 수행할 수 있다. 이때, 최악 망각 현상 완화를 위한 샘플링 네트워크 및 학습 네트워크를 구성하는 네트워크 구성부(미도시됨)이 더 포함될 수 있다. 샘플링 네트워크는, 학습 네트워크가 학습할 데이터를 추출하고, 학습 네트워크는 샘플링 네트워크를 통하여 샘플링된 태스크를 학습할 수 있다. 샘플링 네트워크는, L2 정규화 손실(regularization loss)을 사용하고, 과적합을 완화시키기 위하여 L1 regularizer를 함께 사용하고, 샘플링 네트워크가 학습 네트워크의 가중치 분포를 반영하기 위하여 학습 네트워크의 파라미터 셋이 손실 함수(Loss Function)에 추가된 것일 수 있다. 샘플링 네트워크는, 샘플링 네트워크에서 새로운 태스크의 각 데이터와 점수를 이용하여 학습 네트워크의 파라미터에 기초하여 학습이 진행될 수 있다.
샘플링 수행부(320)는 샘플링 네트워크에서 출력값으로 새로운 태스크의 각 데이터에 대한 점수를 산출하고, 산출된 데이터에 대한 점수에 기초하여 데이터를 학습에 사용할 것인지 여부를 결정할 수 있다. 이때, 샘플링 네트워크는, 출력 사이즈(output size)가 1로 구성될 수 있다. 샘플링 수행부(320)는 새로운 태스크를 샘플링 네트워크에 입력하여 학습시킴에 따라 참조(reference) 과정을 수행하여 새로운 태스크의 각 데이터가 학습 네트워크에 적용될 것인지 여부를 결정하여 학습할 데이터를 추출할 수 있다. 샘플링 수행부(320)는 새로운 태스크에서, 첫번째 태스크 및 마지막 태스크를 제외한 나머지 태스크로부터 샘플링 네트워크를 통해 태스크를 다운사이즈(downsize)하는 과정을 수행할 수 있다.
단계(430)에서 학습부(330)는 샘플링이 수행됨에 따라 추출된 태스크를 학습 네트워크에 입력하여 학습시킬 수 있다. 학습부(330)는 샘플링이 수행됨에 따라 추출된 태스크를 학습 네트워크에 입력하여 학습시킴으로써 학습 데이터의 양을 최소화하면서 최악 망각 현상을 완화할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (9)

  1. 컴퓨터로 구현되는 학습 시스템에 의해 수행되는 최악 망각 현상 완화 방법에 있어서,
    새로운 태스크가 입력됨을 수신하는 단계;
    상기 수신된 새로운 태스크를 샘플링 네트워크를 이용하여 학습을 수행할 태스크를 추출하기 위한 샘플링을 수행하는 단계; 및
    상기 샘플링이 수행됨에 따라 추출된 태스크를 학습 네트워크에 입력하여 학습시키는 단계
    를 포함하는 최악 망각 현상 완화 방법.
  2. 제1항에 있어서,
    최악 망각 현상 완화를 위한 샘플링 네트워크 및 학습 네트워크를 구성하는 단계
    를 더 포함하고,
    상기 샘플링 네트워크는, 상기 학습 네트워크가 학습할 데이터를 추출하고, 상기 학습 네트워크는 상기 샘플링 네트워크를 통하여 샘플링된 태스크를 학습하는, 것을 특징으로 하는 최악 망각 현상 완화 방법.
  3. 제1항에 있어서,
    상기 샘플링 네트워크는, 출력 사이즈(output size)가 1로 구성되고,
    상기 샘플링을 수행하는 단계는,
    상기 샘플링 네트워크에서 출력값으로 상기 새로운 태스크의 각 데이터에 대한 점수를 산출하고, 상기 산출된 데이터에 대한 점수에 기초하여 데이터를 학습에 사용할 것인지 여부를 결정하는 단계
    를 포함하는 최악 망각 현상 완화 방법.
  4. 제3항에 있어서,
    상기 샘플링을 수행하는 단계는,
    상기 새로운 태스크를 상기 샘플링 네트워크에 입력하여 학습시킴에 따라 참조(reference) 과정을 수행하여 상기 새로운 태스크의 각 데이터가 학습 네트워크에 적용될 것인지 여부를 결정하여 학습할 데이터를 추출하는 단계
    를 포함하는 최악 망각 현상 완화 방법.
  5. 제4항에 있어서,
    상기 샘플링을 수행하는 단계는,
    상기 새로운 태스크에서, 첫번째 태스크 및 마지막 태스크를 제외한 나머지 태스크로부터 상기 샘플링 네트워크를 통해 태스크를 다운사이즈(downsize)하는 과정을 수행하는 단계
    를 포함하는 최악 망각 현상 완화 방법.
  6. 제1항에 있어서,
    상기 샘플링 네트워크는, L2 정규화 손실(regularization loss)을 사용하고, 과적합을 완화시키기 위하여 L1 regularizer를 함께 사용하고, 상기 샘플링 네트워크가 상기 학습 네트워크의 가중치 분포를 반영하기 위하여 상기 학습 네트워크의 파라미터 셋이 손실 함수(Loss Function)에 추가된 것인, 최악 망각 현상 완화 방법.
  7. 제1항에 있어서,
    상기 샘플링 네트워크는, 상기 샘플링 네트워크에서 새로운 태스크의 각 데이터와 점수를 이용하여 학습 네트워크의 파라미터에 기초하여 학습이 진행되는, 것을 특징으로 하는 최악 망각현상 완화 방법.
  8. 제1항에 있어서,
    상기 학습시키는 단계는,
    상기 샘플링이 수행됨에 따라 추출된 태스크를 학습 네트워크에 입력하여 학습시킴으로써 학습 데이터의 양을 최소화하면서 최악 망각 현상을 완화하는 단계
    를 포함하는 최악 망각 현상 완화 방법.
  9. 최악 망각 현상 완화를 위한 학습 시스템에 있어서,
    새로운 태스크가 입력됨을 수신하는 수신부;
    상기 수신된 새로운 태스크를 샘플링 네트워크를 이용하여 학습을 수행할 태스크를 추출하기 위한 샘플링을 수행하는 샘플링 수행부; 및
    상기 샘플링이 수행됨에 따라 추출된 태스크를 학습 네트워크에 입력하여 학습시키는 학습부
    를 포함하는 학습 시스템.
KR1020200018481A 2020-02-14 2020-02-14 데이터의 동적샘플링을 통한 심층신경망 학습에서의 최악망각현상 완화방법 KR102411526B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200018481A KR102411526B1 (ko) 2020-02-14 2020-02-14 데이터의 동적샘플링을 통한 심층신경망 학습에서의 최악망각현상 완화방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200018481A KR102411526B1 (ko) 2020-02-14 2020-02-14 데이터의 동적샘플링을 통한 심층신경망 학습에서의 최악망각현상 완화방법

Publications (2)

Publication Number Publication Date
KR20210103825A true KR20210103825A (ko) 2021-08-24
KR102411526B1 KR102411526B1 (ko) 2022-06-21

Family

ID=77506943

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200018481A KR102411526B1 (ko) 2020-02-14 2020-02-14 데이터의 동적샘플링을 통한 심층신경망 학습에서의 최악망각현상 완화방법

Country Status (1)

Country Link
KR (1) KR102411526B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180132487A (ko) * 2017-06-02 2018-12-12 에스케이텔레콤 주식회사 신경망에 복수의 태스크를 순차 학습시키는 방법
KR20190107984A (ko) * 2018-03-13 2019-09-23 재단법인대구경북과학기술원 샘플링 및 적응적으로 변경되는 임계치에 기초하여 뉴럴 네트워크를 학습하는데 이용되는 하드 네거티브 샘플을 추출하는 영상 학습 장치 및 상기 장치가 수행하는 방법
KR102071179B1 (ko) * 2019-05-20 2020-01-29 주식회사 루닛 데이터 셋의 연속적인 학습 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180132487A (ko) * 2017-06-02 2018-12-12 에스케이텔레콤 주식회사 신경망에 복수의 태스크를 순차 학습시키는 방법
KR20190107984A (ko) * 2018-03-13 2019-09-23 재단법인대구경북과학기술원 샘플링 및 적응적으로 변경되는 임계치에 기초하여 뉴럴 네트워크를 학습하는데 이용되는 하드 네거티브 샘플을 추출하는 영상 학습 장치 및 상기 장치가 수행하는 방법
KR102071179B1 (ko) * 2019-05-20 2020-01-29 주식회사 루닛 데이터 셋의 연속적인 학습 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kibok Lee 외 3인, "Overcoming Catastrophic Forgetting with Unlabeled Data in the Wild", 2019 IEEE/CVF International Conference on Computer Vision(ICCV) (2019.10.27)* *

Also Published As

Publication number Publication date
KR102411526B1 (ko) 2022-06-21

Similar Documents

Publication Publication Date Title
KR102492318B1 (ko) 모델 학습 방법 및 장치, 및 데이터 인식 방법
US20180336453A1 (en) Domain specific language for generation of recurrent neural network architectures
WO2020081229A1 (en) Automatic feature subset selection using feature ranking and scalable automatic search
CN112396173A (zh) 用于映射工作负载的方法、系统、制品和装置
US11030750B2 (en) Multi-level convolutional LSTM model for the segmentation of MR images
CN104794527A (zh) 基于卷积神经网络的分类模型构建方法和设备
KR102167011B1 (ko) 샘플링 및 적응적으로 변경되는 임계치에 기초하여 뉴럴 네트워크를 학습하는데 이용되는 하드 네거티브 샘플을 추출하는 영상 학습 장치 및 상기 장치가 수행하는 방법
Zhai et al. Deep q-learning with prioritized sampling
CN111008693A (zh) 一种基于数据压缩的网络模型构建方法、系统和介质
KR20220073088A (ko) 자원이 제약된 모바일 기기에서 동적 데이터 변환에 적응하기 위한 전문화된 경량 신경망 교체 방법 및 장치
KR20210099795A (ko) 준 지도 학습을 위한 오토인코더 기반 그래프 설계
JP7014230B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20210397948A1 (en) Learning method and information processing apparatus
KR102256289B1 (ko) 인공 신경망에서 학습을 통한 로드 밸런싱 방법 및 시스템
JP6860084B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR102411526B1 (ko) 데이터의 동적샘플링을 통한 심층신경망 학습에서의 최악망각현상 완화방법
KR20210083624A (ko) 신경망의 데이터 입력 및 출력을 제어하는 제어 방법 및 장치
Fujimori et al. Modality-specific learning rate control for multimodal classification
KR20220166716A (ko) 퓨샷 모방을 위한 시연 조건부 보강 학습
CN117999560A (zh) 机器学习模型的硬件感知渐进训练
KR20230038136A (ko) 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템
KR102090109B1 (ko) 학습 및 추론 장치 및 그 방법
KR20220067740A (ko) 사용자가 요청하는 전문화된 경량 신경망 모델을 실시간으로 생성하는 방법 및 장치
Nasir et al. Epidemics control model with consideration of seven-segment population model
CN112740237A (zh) 训练人工神经网络的方法和装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant