KR20210136344A

KR20210136344A - 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법

Info

Publication number: KR20210136344A
Application number: KR1020200054448A
Authority: KR
Inventors: 최용석; 전윤호; 김지원; 박재선; 이수빈; 조동연
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2021-11-17
Also published as: CN115398450A; WO2021225294A1; KR102421349B1; US20230153631A1

Abstract

샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법을 개시한다.
본 실시예는, 기트레이닝된 소스 모델의 구조 및 파라미터를 차용하여 초기화된 타겟 모델을, 소수의 학습 샘플을 이용하여 트레이닝함에 있어서, 동일 클래스(class)에 포함된 학습 샘플로부터 추출된 특성 간 유사성(similarity)을 증대시키는 샘플 기반 정규화 기법(sample-based regularization)을 이용하여 타겟 모델을 정밀 조정(fine-tuning)함으로써, 타겟 모델의 성능 향상이 가능한 전이 학습장치 및 방법을 제공한다.

Description

샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법{Method and Apparatus for Transfer Learning Using Sample-based Regularization}

본 개시는 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법에 관한 것이다. 더욱 상세하게는, 학습용 샘플이 갖는 특성 간 유사성을 증대시키는 샘플 기반 정규화 기법을 이용하여 타겟 모델을 정밀 조정(fine-tuning)하는 것이 가능한 전이 학습장치 및 방법에 대한 것이다.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.

전이 학습(transfer learning)이란 딥러닝(deep learning)의 한 분야로서, 특정 과제(task)에 대한 학습을 마친 모델이 습득한 지식을 이용하여 다른 유사한 과제를 수행하기 위한 모델을 학습시키는 방식을 의미한다. 전이 학습은 딥러닝 기반 심층신경망(deep neural network) 모델을 이용하는 모든 분야에 적용이 가능하며, 특히 학습용 데이터를 충분히 확보하기 어려운 과제에 적용되어야 하는 모델을 학습시키기 위한 중요한 방법 중의 하나이다.

도 1에 도시된 바와 같이, 대표적인 전이 학습방법은, 소스 과제(source task)를 수행하도록 기트레이닝된(pre-trained) 소스 모델(source model, 110)의 구조 및 파라미터를 그대로 차용하여 소스 과제와 유사한 타겟 과제(target task)를 위한 타겟 모델(target model, 100)을 초기화한 후, 타겟 과제용 학습 데이터를 이용하여 타겟 모델(100)을 추가로 트레이닝함으로써 타겟 모델(100)을 정밀 조정(fine-tuning)한다.

기트레이닝된 모델을 정밀 조정하는 방식은 소스 모델(110)의 전체를 이용하거나, 도 1에 도시된 바와 같이 하부의 특성 추출기(feature extractor)만을 그대로 차용하기 때문에, 추가적인 학습 시간 및 메모리를 감소시킬 수 있다는 장점이 있다. 반면, 정밀 조정을 위한 트레이닝은 소수의 학습용 데이터에 의존하는 경우가 많으므로, 전이 학습을 이용하여 성취된 타겟 모델(100)의 일반화 성능(generalization performance)이 매우 중요하다. 소수의 학습 데이터로부터 기인하는 과적합(overfitting)을 방지하고 일반화 성능을 향상시키기 위하여, 전이 학습의 정밀 조정 과정에 적절한 정규화(regularization) 기법을 이용할 수 있다. 정규화 기법을 이용하는 전이 학습 방법으로는, 소스 모델(110)의 파라미터들 간의 차이를 감소시키는(비특허문헌 1 참조) 정규화 항목(regularization term), 소스 모델(110)과 타겟 모델(100) 각각의 활성(activation) 간의 차이를 감소시키는(비특허문헌 2 참조) 정규화 항목, 또는 크기가 작은 특이치(singular value)를 유발하는 특성의 활성화(feature activation)을 억제하는(비특허문헌 3 참조) 정규화 항목을 손실 함수(loss function)에 추가하여 정밀 조정을 위한 트레이닝을 수행하는 방법들이 존재한다.

소스 모델(110)이 가진 가치있는 지식(knowledge)이 타겟 모델(100)에도 유익할 수 있다는 전제 하에, 전술한 바와 같은 기존의 방법은 소스 모델(110)과 타겟 모델(100) 사이의 유사성을 가능한 한 증대시킴으로써, 타겟 모델(100)의 일반화된 성능을 향상시킬 수 있다는 장점이 있다. 그러나, 기존의 정규화 기법은 타겟 모델(100)의 잠재력(potential)을 제한하고, 소스 모델(110)로부터 전이된 지식이 정밀 조정 과정에 방해가 될 수 있다는 문제가 있다. 즉, 소스 과제와 타겟 과제의 간격(gap)이 클 경우, 소스 모델(110)의 지식에 기반하는 정규화 항목을 타겟 모델(100)에 대한 정밀 조정에 적용하는 것은, 타겟 모델(100)의 성능 향상 측면에서 도움이 되지 않을 수 있다.

따라서, 소스 모델을 정규화 기준(reference)으로 이용하지 않는 대신, 학습용 샘플로부터 추출된 특성에 기반하여 정밀 조정을 위한 트레이닝을 수행함으로써, 타겟 모델의 성능 향상이 가능한 전이 학습장치 및 방법을 필요로 한다.

비특허문헌 1: Li, X., Grandvalet, Y., Davoine, F.: Explicit inductive bias for transfer learning with convolutional networks. In: International Conference on Machine Learning(ICML) (2018) 비특허문헌 2: Li, X., Xiong, H., Wang, H., Rao, Y., Liu, L., Huan, J.: DELTA: Deep learning transfer using feature map with attention for convolutional networks. In: International Conference on Learning Representations (ICLR) (2019) 비특허문헌 3: Chen, X., Wang, S., Fu, B., Long, M., Wang, J.: Catastrophic forgetting meets negative transfer: Batch spectral shrinkage for safe transfer learning. In: Advances in Neural Information Processing Systems (NeurIPS) (2019)

본 개시는, 기트레이닝된 소스 모델의 구조 및 파라미터를 차용하여 초기화된 타겟 모델을, 소수의 학습 샘플을 이용하여 트레이닝함에 있어서, 동일 클래스(class)에 포함된 학습 샘플로부터 추출된 특성 간 유사성(similarity)을 증대시키는 샘플 기반 정규화 기법(sample-based regularization)을 이용하여 타겟 모델을 정밀 조정(fine-tuning)함으로써, 타겟 모델의 성능 향상이 가능한 전이 학습장치 및 방법을 제공하는 데 주된 목적이 있다.

본 개시의 실시예에 따르면, 전이 학습장치의 타겟 모델(target model)에 대한 전이 학습방법에 있어서, 상기 타겟 모델(target model)을 이용하여, 입력 샘플로부터 특성(feature)을 추출하고, 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 과정, 여기서 상기 타겟 모델은 상기 특성을 추출하는 특성 추출기(feature extractor), 및 상기 출력 결과를 생성하는 분류기(classifier)를 포함함; 상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정; 동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 타겟 모델의 파라미터를 업데이트하는 과정을 포함하는 것을 특징으로 하는 전이 학습방법을 제공한다.

본 개시의 다른 실시예에 따르면, 입력 샘플로부터 특성(feature)을 추출하는 특성 추출기(feature extractor); 및 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 분류기(classifier)를 포함하는 타겟 모델(target model)을 포함하되, 상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하고, 동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하며, 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 특성 추출기 및 상기 분류기 중 적어도 어느 하나의 파라미터를 업데이트함으로써 상기 타겟 모델을 트레이닝시키는 것을 특징으로 하는 전이 학습장치를 제공한다.

본 개시의 다른 실시예에 따르면, 입력 샘플로부터 특성(feature)를 추출하는 특성 추출기(feature extractor); 및 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)하는 분류기(classifier)를 포함하는 타겟 모델(target model)을 이용하여 상기 클래스를 분류한 출력 결과를 생성하되, 학습용 입력 샘플에 대한 출력 결과 및 상기 학습용 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정; 동일 클래스(class)에 속하는 학습용 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 특성 추출기 및 상기 분류기 중 적어도 어느 하나의 파라미터를 업데이트하는 과정을 이용하여, 상기 타겟 모델이 사전에 트레이닝되는 것을 특징으로 하는 분류장치를 제공한다.

본 개시의 다른 실시예에 따르면, 전이 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 소수의 학습 샘플을 이용하여 타겟 모델을 트레이닝함에 있어서, 동일 클래스에 포함된 학습 샘플로부터 추출된 특성 간 유사성을 증대시키는 샘플 기반 정규화 기법을 이용하여 타겟 모델을 정밀 조정하는 전이 학습장치 및 방법을 제공함으로써, 과적합(overfitting)되는 것을 방지하여 타겟 모델의 성능 향상이 가능해지는 효과가 있다.

또한 본 실시예에 따르면, 소수의 학습 샘플을 이용하여 타겟 모델을 트레이닝함에 있어서, 동일 클래스에 포함된 학습 샘플로부터 추출된 특성 간 유사성을 증대시키는 샘플 기반 정규화 항목을 효율적으로 계산하여 타겟 모델을 정밀 조정하는 전이 학습장치 및 방법을 제공함으로써, 타겟 모델에 대한 트레이닝 복잡도를 감소시키는 것이 가능해지는 효과가 있다.

도 1은 전이 학습방법에 대한 개념도이다.
도 2는 본 개시의 일 실시예에 따른 전이 학습장치의 블록도이다.
도 3은 본 개시의 일 실시예에 따른 샘플 기반 정규화 기법에 대한 개념도이다.
도 4는 본 개시의 일 실시예에 따른 전이 학습방법의 순서도이다.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.

본 실시예는 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법에 대한 내용을 개시한다. 보다 자세하게는, 기트레이닝된 소스 모델의 구조 및 파라미터를 차용하여 초기화된 타겟 모델을, 소수의 학습 샘플을 이용하여 트레이닝함에 있어서, 동일 클래스(class)에 포함된 학습 샘플로부터 추출된 특성 간 유사성(similarity)을 증대시키는 샘플 기반 정규화 기법(sample-based regularization)을 이용하여 타겟 모델을 정밀 조정(fine-tuning)하는 전이 학습장치 및 방법을 제공한다.

도 1에 도시된 바와 같이 전이 학습(transfer learning)은 소스 과제에 대한 소스 모델(110)의 기트레이닝, 소스 모델(110)의 구조 및 파라미터의 타겟 모델(100) 측의 전이, 및 타겟 과제에 대한 타겟 모델(100)의 정밀 조정을 모두 포함하는 것이 일반적이나, 이하 소수의 학습용 데이터를 이용하는 정밀 조정의 구현에 대한 특징을 갖는 전이 학습장치 및 방법을 설명한다.

소스 모델(110) 및 타겟 모델(100)이 분류(classification)을 수행하는 심층신경망(deep neural network)인 경우, 도 1에 도시된 바와 같이 각 심층신경망은 특성 추출기(feature extractor)와 분류기(classifier)를 포함할 수 있다. 최종적인 클래스로 분류된 출력을 생성하는 선형 레이어(linear layer)가 분류기로 간주되고, 입력을 획득하는 레이어(예컨대, 도 1의 레이어 1)부터 분류기 측으로 출력을 전달하는 레이어(예컨대, 도 1의 레이어 L(L은 자연수))까지를 포함하는 부분이 특성 추출기로 간주될 수 있다.

본 실시예에서, 전이(transfer)는 동일 구조를 갖는 딥러닝(deep learning) 기반 심층신경망 모델들 간에 실행되는 것으로 가정한다.

본 실시예에 따른 전이 학습장치 및 방법은 서버(미도시) 또는 서버에 준하는 연산 능력을 보유하는 프로그램가능 시스템에서 구현되는 것으로 가정한다.

도 2는 본 개시의 일 실시예에 따른 전이 학습장치의 블록도이다.

본 개시에 따른 실시예에 있어서, 전이 학습장치(200)는, 기트레이닝된 소스 모델(110)의 구조 및 파라미터를 차용하여 초기화된 타겟 모델(100)을 트레이닝함에 있어서, 동일 클래스에 포함된 학습 샘플로부터 추출된 특성 간 유사성을 증대시키는 샘플 기반 정규화 기법을 이용하여 타겟 모델(100)을 정밀 조정(fine-tuning)한다. 전이 학습장치(200)는 타겟 모델(100)의 구성요소인 특성 추출기(202)와 분류기(204), 및 경사도 감쇄 레이어(gradient reduction layer, 206)까지의 전부 또는 일부를 포함한다. 여기서, 본 실시예에 따른 전이 학습장치(200)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 전이 학습장치(200)는 심층신경망 기반 타겟 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.

본 실시예에 따른 타겟 모델(100)의 특성 추출기(202)는 학습용 입력 샘플로부터 특성을 추출한다.

타겟 모델(100)의 분류기(204)는 추출된 특성을 이용하여 입력 샘플의 클래스를 분류(classify)한 출력을 생성한다.

본 실시예에 따른 경사도 감쇄 레이어(206)는, 분류 손실(classification loss)에 따른 경사도(gradient)를 특성 추출기(202) 측으로 역방향 전파(backward propagation) 시, 경사도를 감쇄시킨다. 분류 손실 및 경사도 감쇄 레이어(206)의 역할에 대한 사항은 추후에 설명하기로 한다.

도 2의 도시는 본 실시예에 따른 예시적인 구성이며, 입력의 형태, 특성 추출기 및 분류기의 구조 및 형태에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 다양한 구현이 가능하다.

타겟 과제(target task)를 학습하기 위한 타겟 모델(100)의 학습용 데이터는 N(N은 자연수) 개의 입력 샘플 x 및 해당하는 레이블(label) y로 구성되고, 따라서 전체 학습용 데이터세트 X는

와 같이 표현할 수 있다. 또한, 특성 추출기(202)는 f, 분류기(204)는 g로 표시하고, f와 g 각각의 파라미터는 w_f와 w_g로 표시하며, f 및 g를 포함하는 타겟 모델(100)의 파라미터는 w로 표현한다.

기트레이닝된 소스 모델(110)의 구조 및 파라미터를 차용하여 타겟 모델(100)을 초기화함에 있어서, 전이 학습장치(200)의 트레이닝부는 소스 모델(110)의 특성 추출기의 파라미터

를 이용하여 특성 추출기(202)의 파라미터를 초기화하고, 분류기(204)의 파라미터를 랜덤값(random value)으로 초기화할 수 있다.

본 실시예에 따른 트레이닝부가 타겟 모델(100)을 트레이닝하기 위한 일반적인 손실 함수 L_T는 수학식 1로 나타낼 수 있다.

여기서, 첫 번째 항은 타겟 모델(100)의 레이블에 대한 추론 수준을 평가하는 분류 손실(classification loss) L_cls이고, 두 번째 항은 일반화 성능(generalization performance)을 향상시키기 위한 정규화 항목(regularization term) Ω(예컨대, L2 정규화 기법이 이용된 경우

로 설정)에 하이퍼파라미터 λ를 승산한 것이다.

분류 손실 L_cls는 타겟 모델(100)의 분류기(204)의 출력과 레이블 간의 비유사도(dissimilarity)를 기반으로 산정될 수 있다. 분류기(204)의 경우, 출력과 레이블 간의 비유사도를 표현하기 위해 크로스 엔트로피(cross entropy)가 주로 이용되나, 반드시 이에 한정하는 것은 아니며, 거리 메트릭(distance metric, 예컨대, L1 메트릭, L2 메트릭 등), 유사도 메트릭(similarity metric, 예컨대, 코사인 유사도(cosine similarity), 내적(inner product), 크로스 엔트로피 등) 등과 같이 두 비교 대상 간의 차이(difference)를 표현할 수 있는 어느 것이든 이용될 수 있다.

도 3은 본 개시의 일 실시예에 따른 샘플 기반 정규화 기법에 대한 개념도이다.

수학식 1에 나타낸 바와 같은 정규화 항목 Ω에 더하여, 타겟 모델의 일반화 성능을 더 개선하기 위하여, 본 실시예에 따른 트레이닝부는 추가적인 정규화 항목을 이용한다. 본 실시예에서는, 정규화의 기준으로서 소스 모델(110)을 이용하는 대신, 학습용 샘플로부터 추출된 특성이 이용된다. 도 3에 예시된 바와 같이, 동일 클래스에 포함된 각각의 샘플은 정규화를 위한 상호 간의 기준일 수 있으며, 이하 이러한 샘플을 기준으로 정규화 항목을 산정하는 방법을 샘플 기반 정규화 기법(Sample-based Regularization: SBR)으로 표현한다. SBR을 이용하여 동일 클래스에 포함된 샘플들 간의 유사성을 최대화하는 방향으로 타겟 모델(100)을 트레이닝함으로써, 트레이닝부는 소수의 학습용 데이터의 사용에 따른 과적합(overfitting)을 방지할 수 있다.

동일 클래스에 포함된 각 샘플에 대한 특성이 근접시킨다라는 측면에서, 유사성의 최대화는 크로스 엔트로피를 기반으로 분류를 수행하는 타겟 모델(100)에 대한 일반적인 학습 방법일 수 있다. 그러나, 본 실시예에 따른 SBR은 상이한 클래스의 샘플들을 직접 구별하지는 않으며, 타겟 모델(100)의 분류기(204)가 클래스 간의 구별을 실행하도록 한다.

본 실시예에 있어서, SBR의 적용에 따른 정규화 항목 L_sbr은 수학식 2로 나타낼 수 있다.

여기서, C는 분류하고자 하는 전체 클래스의 개수이며, X_c는 학습용 데이터 중 클래스 c에 포함된 샘플 페어의 집합(

)으로서 하나의 레이블을 갖는다. 함수 D는 두 대상, 즉 샘플 페어에 대한 특성 추출기(202)의 출력들 간의 비유사도를 측정한다. SBR은 동일 클래스에 포함된 상이한 두 샘플 각각에 대한 특성 추출기(202)의 출력들이 서로 유사한 값을 갖도록 유도한다. SBR은 하나의 클래스에 포함된 모든 가능한 샘플 페어, 및 학습용 데이터에 포함된 모든 클래스를 고려한다.

본 개시의 다른 실시예에 있어서, 비교 대상이 되는 두 샘플의 동일 클래스에 대한 포함 여부와 무관하게, 모든 가능한 샘플 페어에 대한 유사도의 증가를 추구하는 단순 형태의 SBR인 경우, 정규화 항목 L_sbr은 수학식 3으로 나타낼 수 있다.

여기서, X는 학습용 데이터 전체의 집합이다.

수학식 2 또는 수학식 3에 나타낸 바와 같이 학습용 데이터 또는 동일 클래스에 포함된 데이터 중에서 가능한 샘플 페어를 모두 고려하는 경우, 학습 시간이 길어질 수 있다. 이를 보완하기 위해, 클래스에 대하여 미니 배치(mini-batch) 단위로 트레이닝을 수행하는 경우, 하나의 미니 배치에 포함된 샘플 페어에 대한 유사도를 고려하는 정규화 항목 L_sbr을 수학식 4에 나타낸 바와 같이 정의할 수 있다.

여기서, N_c는 하나의 미니 배치 내에서 클래스 c에 포함된 샘플의 개수, B_c는 하나의 미니 배치 내에서 클래스 c에 포함된 샘플의 집합을 나타낸다.

는 미니 배치 내에서 클래스 c에 포함된 샘플로 이루어진 모든 페어의 개수이다.

한편, 수학식 2 내지 수학식 4에서, 함수 D가 측정하는 비유사도는 거리 메트릭(예컨대, L1, L2 메트릭 등), 유사도 메트릭(예컨대, 코사인 유사도, 내적, 크로스 엔트로피 등) 등과 같이 두 비교 대상 간의 차이를 표현할 수 있는 어느 것이든 이용할 수 있다.

이하, 손실 함수에 사용되는 정규화 항목 Ω와 구분하기 위하여 정규화 항목 L_sbr을 SBR 손실로 표현한다.

전술한 바와 같이 분류를 위한 학습에서, 크로스 엔트로피 기반의 손실 함수 및 소수의 학습용 데이터를 이용하여 심층신경망 모델을 트레이닝하는 경우, 소수의 학습용 데이터와 실제 분류에 이용되는 데이터 간의 분포가 상이할 수 있다. 이러한 분포 간 상이성에 기인하는 과적합 문제의 발생 가능성 때문에, 트레이닝된 모델의 분류 성능이 심하게 저하될 수 있다.

따라서, 수학식 5에 나타낸 바와 같이, 본 실시예에 따른 트레이닝부는 타겟 모델(100)에 포함된 특성 추출기(202) 및 분류기(204) 각각의 트레이닝에 상이한 손실 함수 L_f및 L_g를 이용함으로써, 과적합 문제에 따른 성능 저하에 대처한다.

수학식 1에서 나타낸 바와 같이, L_cls는 타겟 모델(100)의 레이블 추론 수준을 평가하는 분류 손실이다. 분류기(204)를 위한 손실 함수 L_g는 L_cls와 Ω의 선형 결합이고, 특성 추출기(202)를 위한 손실 함수 L_f는 L_cls, L_sbr및 Ω 각각의 가중 결합이다. 여기서, α, β, λ_g 및 λ_f는 하이퍼파라미터이다. 손실 함수 L_f에 이용된 L_sbr은 수학식 4에 나타낸 SBR 손실이나, 반드시 이에 한정하는 것은 아니며, 수학식 2 또는 3에 나타낸 SBR 손실이 이용될 수도 있다.

본 실시예에 따른 트레이닝부는 수학식 5에 나타낸 바와 같은 손실 함수를 이용하여 특성 추출기(202) 및 분류기(204) 각각의 파라미터를 업데이트함으로써, 타겟 모델(100)에 대한 정밀 조정을 실행할 수 있다.

수학식 5에 나타낸 바와 같이 손실 함수를 분리함으로써, 트레이닝부는 하이퍼파라미터 α을 조절하여 분류기(204)와는 다른 비중으로 L_cls를 특성 추출기(202)를 위한 손실 함수 L_f에 반영할 수 있고, 하이퍼파라미터 β를 조절하여 L_cls와 적절한 비율로 SBR 손실 L_sbr을 손실 함수 L_f에 반영할 수 있다. 하이퍼파라미터 α와 β는 어떤 값이든 설정이 가능하나, 학습용 데이터가 소수인 경우, 트레이닝부는 α를 1보다 작은 값으로 설정하여 L_cls의 비중을 상대적으로 감소시킴으로써 레이블에 대한 의존도를 저하시킬 수 있다. 또한 트레이닝부는 β를 적절한 값으로 설정함으로써, 샘플 페어의 상대적인 관계를 이용하는 SBR의 효과를 기반으로 특성 추출기(202)에서 과적합의 영향을 감소시키는 것을 기대할 수 있다.

한편, 트레이닝부는 타겟 모델(100)에 대한 정밀 조정을 위하여, 수학식 6에 나타낸 바와 같이 파라미터 w_f및 w_g를 업데이트할 수 있다.

여기서, η _g 및 η _f 는 하이퍼파라미터로서, 분류기(204) 및 특성 추출기(202) 각각의 트레이닝 속도를 조절하기 위한 학습률(learning rate)이다. 또한,

는 손실 항목 각각에 대한 경사도를 산정하는 것을 의미하는 연산자이다.

특징 추출기(202)에 대한 손실 함수 L_f가 산정될 때 L_cls에 α를 승산하는 것은, 도 2의 도시 및 수학식 6에 나타낸 바와 같이, 역방향전파(backward propagation)를 이용하는 트레이닝 시, 분류기(204)에서 특성 추출기(202)의 방향(즉 역방향)으로 전달되는 L_cls의 경사도(gradient)

에 α를 승산하여 전달하는 것과 동일하다. 따라서, 전술한 바와 같이 α가 1보다 작게 설정되면 경사도가 감쇄되고, 특성 추출기(202)의 트레이닝 시, L_cls의 영향력이 상대적으로 감소될 수 있다. 도 2에 도시된 바와 같은 경사도 감쇄 레이어(206)는 L_cls에 기초하는 역방향 경사도에 α를 승산함으로써, L_cls에 α를 승산하는 것과 동일한 효과를 생성할 수 있다.

수학식 6에 따르면, 특성 추출기(202)의 트레이닝 시, 학습률 η _f 를 조절하여 경사도를 감쇄시킬 수 있으나, 학습률은 손실 함수 L_f의 모든 항목에 공통적으로 영향을 줄 수 있다. 따라서, L_cls의 영향을 독립적으로 조절하기 위해서 하이퍼파라미터 α를 이용하여 경사도를 감쇄시키는 것이 특성 추출기(202)의 트레이닝에 더 효율적일 수 있다.

한편, SBR 손실 L_sbr로서 유클리디안 거리의 제곱(square of Euclidian distance)을 이용하는 경우, 트레이닝부는 다음과 같은 학습 속도의 개선 방안을 이용할 수 있다. 유클리디안 거리의 제곱을 이용하는

은 수학식 7로 나타낼 수 있다.

수학적인 전개 과정을 이용하여, 수학식 7은 수학식 8로 변경될 수 있다.

여기서, C_c는 하나의 미니 배치 내에서 클래스 c에 포함되는 모든 샘플 각각에 대한 특성 추출기(202)의 출력의 평균이며, 수학식 9로 나타낼 수 있다.

N_c ^pair개의 샘플 페어에 대한 특성 추출기(202)의 출력 간 차이를 계산하는 대신, 수학식 8에 나타낸 바와 같이, 트레이닝부는 특성 추출기(202)의 출력의 클래스 별 평균(C_c)을 계산하고, 이 평균과 N_c개의 샘플의 특성 추출기(202)의 출력 간의 차이를 구한다. 수학식 8에 나타낸 바와 같은 변형을 이용하여 더 적은 연산량으로 수학식 7과 동일한 결과를 획득하는 것이 가능하며, 점근 계산 복잡도(asymptotic computational complexity) 측면에서 수학식 7은 O(N_c ²), 수학식 8은 O(N_c)의 복잡도를 갖는다. 따라서, 유클리디안 거리의 제곱에 기반하여 미니 배치 단위로 트레이닝을 수행하는 경우, 수학식 8에 나타낸 바를 이용하여 SBR 손실이 더 효율적으로 산정될 수 있다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 소수의 학습 샘플을 이용하여 타겟 모델을 트레이닝함에 있어서, 동일 클래스에 포함된 학습 샘플로부터 추출된 특성 간 유사성을 증대시키는 샘플 기반 정규화 항목을 효율적으로 계산하여 타겟 모델을 정밀 조정하는 전이 학습장치를 제공함으로써, 타겟 모델에 대한 트레이닝 복잡도를 감소시키는 것이 가능해지는 효과가 있다.

도 4는 본 개시의 일 실시예에 따른 전이 학습방법의 순서도이다.

본 실시예에 따른 전이 학습장치(200)의 트레이닝부는 타겟 모델(target model)을 이용하여, 입력 샘플로부터 특성(feature)을 추출하고, 추출된 특성을 이용하여 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성한다(S400). 여기서, 타겟 모델(100)은 특성을 추출하는 특성 추출기(202), 및 출력 결과를 생성하는 분류기(204)를 포함한다.

타겟 모델(100)은 심층신경망으로 구현되고, 기트레이닝된 심층신경망 기반 소스 모델(110)의 구조 및 파라미터를 차용하여 초기화된다. 트레이닝부는 소스 모델(110)의 특성 추출기의 파라미터를 이용하여 타겟 모델(100)의 특성 추출기(202)의 파라미터를 초기화하고, 분류기(204)의 파라미터를 랜덤값(random value)으로 초기화할 수 있다.

타겟 모델(100)의 전이 학습에는 소수의 학습용 데이터가 이용되고, 학습용 데이터는 입력 샘플을 포함하는 것으로 가정한다.

트레이닝부는 출력 결과 및 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정한다(S402).

분류 손실은 타겟 모델(100)의 레이블에 대한 추론 수준을 평가하는 손실 항목으로서, 타겟 모델(100)의 분류기(204)의 출력과 레이블 간의 비유사도를 기반으로 산정될 수 있다. 분류기(204)의 경우, 출력과 레이블 간의 비유사도를 표현하기 위해 크로스 엔트로피(cross entropy)가 주로 이용되나, 반드시 이에 한정하는 것은 아니며, 거리 메트릭(예컨대, L1, L2 메트릭 등), 유사도 메트릭(예컨대, 코사인 유사도, 내적, 크로스 엔트로피 등) 등과 같이 두 비교 대상 간의 차이를 표현할 수 있는 어느 것이든 이용할 수 있다.

트레이닝부는 동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정한다(S404).

타겟 모델(100)의 일반화 성능을 개선하기 위하여, 트레이닝부는 정규화 항목으로서 SBR 손실을 이용한다. 정규화의 기준으로서 소스 모델(110)을 이용하는 대신, 학습용 입력 샘플로부터 추출된 특성이 이용된다. 동일 클래스에 포함된 각각의 샘플은 정규화를 위한 상호 간의 기준일 수 있으며, 이하 이러한 샘플을 기준으로 정규화 항목을 산정하는 방법을 샘플 기반 정규화 기법(Sample-based Regularization: SBR)으로 표현한다. SBR을 이용하여 동일 클래스에 포함된 샘플들 각각에 대한 출력 간의 유사성을 최대화하는 방향으로 타겟 모델(100)을 트레이닝함으로써, 트레이닝부는 소수의 학습용 데이터의 사용에 따른 과적합(overfitting)을 방지할 수 있다.

트레이닝부는 동일 클래스에 속하는 입력 샘플 페어로부터 추출된 특성 페어를 구성하는 두 특성 간의 비유사도에 기반하여 SBR 손실을 산정한다.

동일 클래스에 포함된 데이터 중에서 가능한 샘플 페어를 모두 고려하는 경우, 학습 시간이 길어질 수 있다. 이를 보완하기 위해, 클래스에 대하여 미니 배치(mini-batch) 단위로 트레이닝을 수행하는 경우, 하나의 미니 배치에 포함된 샘플 페어로부터 추출된 특성 페어의 비유사도에 기반하여 SBR 손실이 산정될 수 있다. 여기서, 비유사도는 거리 메트릭(예컨대, L1, L2 메트릭 등), 유사도 메트릭(예컨대, 코사인 유사도, 내적, 크로스 엔트로피 등) 등과 같이 두 비교 대상 간의 차이를 표현할 수 있는 어느 것이든 이용할 수 있다.

트레이닝부는 분류 손실 및 SBR 손실의 전부 또는 일부를 기반으로 타겟 모델의 파라미터를 업데이트한다(S406).

타겟 모델의 정밀 조정하기 위해 파라미터를 업데이트함에 있어서, 트레이닝부는 타겟 모델(100)에 포함된 특성 추출기(202) 및 분류기(204) 각각의 트레이닝에 상이한 손실 함수를 이용함으로써, 과적합 문제에 따른 성능 저하에 대처한다. 분류 손실을 이용하여 분류기(204)를 위한 손실 함수가 생성되고, 분류 손실 및 SBR 손실을 하이퍼파라미터로 가중 결합하여 특성 추출기(202)를 위한 손실 함수가 생성된다. 따라서, 트레이닝부는 분류 손실을 기반으로 분류기(204)의 파라미터를 업데이트하고, 분류 손실 및 상기 SBR 손실을 기반으로 특성 추출기(202)의 파라미터를 업데이트할 수 있다.

손실 함수를 분리함으로써, 트레이닝부는 분류 손실에 승산되는 하이퍼파라미터를 조절하여 분류기(204)와는 다른 비중으로 분류 손실을 특성 추출기(202)를 위한 손실 함수에 반영할 수 있다. 학습용 데이터가 소수인 경우, 트레이닝부는 하이퍼파라미터를 1보다 작은 값으로 설정하여 분류 손실의 비중을 상대적으로 감소시킴으로써 레이블에 대한 의존도를 저하시킬 수 있다.

한편, 특성 추출기(202)를 위한 손실 함수가 산정될 때, 분류 손실에 하이퍼파라미터를 승산하는 것은, 역방향전파(backward propagation)를 통한 트레이닝 시, 분류기(204)에서 특성 추출기(202)의 방향(즉 역방향)으로 전달되는 분류 손실의 경사도(gradient)에 하이퍼파라미터를 승산하여 전달하는 것과 동일하다. 따라서, 전술한 바와 같이 하이퍼파라미터가 1보다 작게 설정되면 경사도가 감쇄되고, 특성 추출기(202)의 트레이닝 시, 분류 손실의 영향력이 상대적으로 감소될 수 있다.

본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는　기록매체"에 저장된다.

컴퓨터가 읽을 수 있는　기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는　기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송) 및 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한 컴퓨터가 읽을 수 있는　기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 타겟 모델 110: 소스 모델
200: 전이 학습장치 202: 특성 추출기
204: 분류기 206: 경사도 감쇄 레이어

Claims

전이 학습장치의 타겟 모델(target model)에 대한 전이 학습방법에 있어서,
상기 타겟 모델(target model)을 이용하여, 입력 샘플로부터 특성(feature)을 추출하고, 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 과정, 여기서 상기 타겟 모델은 상기 특성을 추출하는 특성 추출기(feature extractor), 및 상기 출력 결과를 생성하는 분류기(classifier)를 포함함;
상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정;
동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및
상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 타겟 모델의 파라미터를 업데이트하는 과정
을 포함하는 것을 특징으로 하는 전이 학습방법.
제1항에 있어서,
상기 분류 손실에 따른 경사도(gradient)를 상기 특성 추출기 측으로 역방향 전파(backward propagation) 시, 경사도 감쇄 레이어(gradient reduction layer)를 이용하여 하이퍼파라미터를 승산함으로써 상기 경사도를 감소시키는 과정을 더 포함하는 것을 특징으로 하는 전이 학습방법.
제1항에 있어서,
상기 타겟 모델은,
심층신경망(deep neural network)으로 구현되고, 기트레이닝된(pre-trained) 심층신경망 기반 소스 모델(source model)의 구조 및 파라미터를 이용하여 초기화되되, 상기 소스 모델의 파라미터를 이용하여 상기 특성 추출기의 파라미터가 초기화되고, 랜덤값(random value)으로 상기 분류기의 파라미터가 초기화되는 것을 특징으로 하는 전이 학습방법.
제1항에 있어서,
상기 분류 손실은 상기 출력 결과와 상기 레이블 간의 비유사도(dissimilarity)에 기반하여 산정되고, 상기 SBR 손실은 상기 특성 페어를 구성하는 두 특성 간의 비유사도에 기반하여 산정되는 것을 특징으로 하는 전이 학습방법.
제1항에 있어서,
상기 파라미터를 업데이트하는 과정은,
상기 분류 손실을 기반으로 상기 분류기의 파라미터를 업데이트하고, 상기 분류 손실 및 상기 SBR 손실을 기반으로 상기 특성 추출기의 파라미터를 업데이트하는 것을 특징으로 하는 전이 학습방법.
제1항에 있어서,
상기 동일 클래스에 대하여 미니 배치(mini-batch) 단위로 상기 타겟 모델에 대한 트레이닝을 수행함에 있어서, 상기 미니 배치에 포함된 입력 샘플로부터 추출된 특성과 상기 미니 배치에 포함된 모든 입력 샘플로부터 추출된 특성들의 평균 간의 유클리디안 거리의 제곱(square of Euclidian distance)을 이용하여 상기 SBR 손실을 산정하는 것을 특징으로 하는 전이 학습방법.
입력 샘플로부터 특성(feature)을 추출하는 특성 추출기(feature extractor); 및
상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 분류기(classifier)
를 포함하는 타겟 모델(target model)을 포함하되,
상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하고, 동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하며, 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 특성 추출기 및 상기 분류기 중 적어도 어느 하나의 파라미터를 업데이트함으로써 상기 타겟 모델을 트레이닝시키는 것을 특징으로 하는 전이 학습장치.
제7항에 있어서,
상기 분류 손실에 따른 경사도(gradient)를 상기 특성 추출기 측으로 역방향 전파(backward propagation) 시, 하이퍼파라미터를 승산하여 상기 경사도를 감소시키는 경사도 감쇄 레이어(gradient reduction layer)를 더 포함하는 것을 특징으로 하는 전이 학습장치.
제7항에 있어서,
상기 타겟 모델은,
심층신경망(deep neural network)으로 구현되고, 기트레이닝된(pre-trained) 심층신경망 기반 소스 모델(source model)의 구조 및 파라미터를 이용하여 초기화되되, 상기 소스 모델의 파라미터를 이용하여 상기 특성 추출기의 파라미터가 초기화되고, 랜덤값(random value)으로 상기 분류기의 파라미터가 초기화되는 것을 특징으로 하는 전이 학습장치.
입력 샘플로부터 특성(feature)를 추출하는 특성 추출기(feature extractor); 및
상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)하는 분류기(classifier)
를 포함하는 타겟 모델(target model)을 이용하여 상기 클래스를 분류한 출력 결과를 생성하되,
학습용 입력 샘플에 대한 출력 결과 및 상기 학습용 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정; 동일 클래스(class)에 속하는 학습용 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 특성 추출기 및 상기 분류기 중 적어도 어느 하나의 파라미터를 업데이트하는 과정을 이용하여, 상기 타겟 모델이 사전에 트레이닝되는 것을 특징으로 하는 분류장치.
제1항 내지 제6항 중 어느 한 항에 따른 전이 학습방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.