KR102439606B1

KR102439606B1 - 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치

Info

Publication number: KR102439606B1
Application number: KR1020180130616A
Authority: KR
Inventors: 추진호; 이정선; 박민아
Original assignee: 삼성에스디에스 주식회사
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2022-09-01
Also published as: KR20200048474A; US20200134469A1; US11734571B2

Abstract

타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델을 결정하는 방법이 제공된다. 컴퓨팅 장치에 의하여 수행되는 상기 방법은, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 적합도를 측정하는 신경망 모델을 구축하는 단계, 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 적합도를 측정하는 단계 및 상기 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 단계를 포함할 수 있다.

Description

전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치{METHOD FOR DETERMINING A BASE MODEL FOR TRANSFER LEARNING AND APPARATUS FOR SUPPORTING THE SAME}

본 발명은 전이 학습(transfer learning)을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치에 관한 것이다. 보다 자세하게는, 전이 학습의 학습 효과를 향상시키기 위해, 사전 학습된(pre-trained) 복수의 소스 모델(source model) 중에서 타깃 도메인(target domain)으로의 전이 학습에 가장 적합한 모델을 상기 전이 학습의 기반 모델로 결정하는 방법 및 그 방법을 지원하는 장치에 관한 것이다.

대부분의 기계 학습(machine learning) 기법들은 학습 데이터셋과 실제 데이터셋이 같은 특징과 분포를 가지는 경우에만 효율적이다. 따라서, 목적 도메인 또는 목적 태스크가 달라지면, 목적 도메인 또는 목적 태스크에 대한 학습 데이터셋을 다시 수집하거나 생성한 다음, 새롭게 기계 학습 모델을 구축하여야 한다.

그러나, 현실 세계의 일부 도메인에서는, 학습 데이터셋을 새로 수집하거나 생성(e.g. 라벨링 작업)하는데 비용이 매우 많이 들거나 불가능한 경우가 있다. 가령, 의료 도메인에서 환자의 방사선 이미지로부터 병변의 위치를 예측하는 모델을 구축하는 경우를 가정해보자. 이와 같은 경우, 의료 도메인에 병변의 위치가 태깅된 대량의 방사선 이미지는 거의 존재하지 않기 때문에, 상기 예측 모델의 학습 데이터셋을 확보하는 것은 불가능하다. 또한, 방사선 이미지에 병변의 위치를 태깅(tagging)하기 위해서는, 방사선 전문의와 같은 전문 인력이 도움이 필수적이다. 따라서, 학습 데이터셋을 직접 생성하기 위해서는 상당히 많은 비용이 소모된다.

학습 데이터셋을 새로 수집하거나 생성하는데 드는 비용을 줄이기 위한 방편으로 지식 이전(knowledge transfer) 혹은 전이 학습(transfer learning)이 활용될 수 있다.

도 1 및 도 2에 도시된 바와 같이, 일반적인 기계 학습 기법은 각각의 도메인에 속한 데이터셋(1, 3)을 이용하여 해당 도메인에 적용될 모델(5, 7)을 구축한다. 반면, 전이 학습은 다른 도메인의 데이터셋(11)으로 사전 학습된 소스 모델(15)의 지식(e.g. 학습된 가중치 값)을 이전 받아 타깃 도메인에 적용될 타깃 모델(17)을 구축한다는 점에서, 일반적인 기계 학습 기법과는 차이가 있다.

전이 학습이 수행된 이후, 모델의 성능 향상을 위해 타깃 도메인에 속한 데이터셋(13)으로 타깃 모델(17)에 대한 미세 조정(fine-tuning)이 수행될 수 있다. 이때, 미세 조정은 소량의 데이터셋(13)으로도 가능하기 때문에, 전이 학습을 활용하면 라벨링(labeling)에 소요되는 비용이 획기적으로 절감될 수 있다.

위와 같은 장점이 있는 반면, 전이 학습에는 명확한 한계점도 존재하는데, 그것은 바로 타깃 모델의 성능이 사전 학습된 소스 모델에 크게 의존한다는 점이다. 즉, 타깃 도메인에 적합하지 않은 소스 모델을 기반으로 타깃 모델을 구축하게 되면, 타깃 모델의 성능이 크게 저하될 수 있다는 단점이 있다.

그러나, 다수의 소스 모델이 존재하는 경우, 어떤 소스 모델이 타깃 도메인에 가장 적합한지를 판단하는 것은 쉽지 않은 문제이다. 상기 문제를 해결하기 위한 종래의 접근 방식은 모든 소스 모델을 기반 모델로 이용하여 실제 학습을 시도해보는 나이브(na

ve)한 방식이었다. 즉, 종래의 경우, 각각의 소스 모델에 대해 추가 학습(e.g. 미세 조정)을 진행하고, 타깃 도메인의 데이터셋으로 성능 평가를 수행하여, 가장 우수한 성능을 보이는 소스 모델을 타깃 모델로 활용하였다.

위와 같은 종래의 방식은, 모든 소스 모델에 대해 추가 학습을 수행하기 위해 매우 많은 시간 비용 및 컴퓨팅 비용이 소모되는 문제가 있으며, 무엇보다 성능이 우수한 것으로 평가된 소스 모델이 실제로 타깃 도메인에 적용되면, 예측했던 성능이 나오지 않는 경우가 빈번하였다.

따라서, 다수의 소스 모델이 존재하는 환경에서, 타깃 도메인에 가장 적합한 소스 모델을 정확하게 선정함으로써, 보다 적은 비용으로 보다 성능이 우수한 타깃 모델을 구축할 수 있는 방법이 요구된다.

한국공개특허 제10-2016-0143512호 (2016.12.14 공개)

본 발명이 해결하고자 하는 기술적 과제는, 다수의 소스 모델 중 전이 학습의 기반이 될 모델을 정확하게 결정하는 방법 및 그 방법을 지원하는 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는, 상기 기반 모델을 정확하게 결정하기 위해, 사전 학습된 소스 모델의 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 방법 및 그 방법을 지원하는 장치를 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 전이 학습을 위한 기반 모델 결정 방법은, 컴퓨팅 장치에 의하여 타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 방법에 있어서, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 단계, 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하는 단계 및 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 단계를 포함할 수 있다.

일 실시예에서, 상기 신경망 모델을 구축하는 단계는, 제1 소스 모델의 특징 추출 레이어와 연동하여 학습 데이터의 특징 값을 추출하는 단계 및 상기 특징 값을 미리 설정된 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함할 수 있다.

일 실시예에서, 상기 신경망 모델을 구축하는 단계는, 제1 소스 모델이 사전에 학습한 제1 데이터를 제1 적합도로 학습하여, 상기 신경망 모델의 가중치를 조정하는 단계 및 제1 소스 모델이 사전에 학습하지 않은 제2 데이터를 제2 적합도로 학습하여, 상기 신경망 모델의 가중치를 조정하는 단계를 포함하되, 상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정될 수 있다.

일 실시예에서, 상기 신경망 모델을 구축하는 단계는, 상기 복수의 소스 모델 각각의 특징 추출 레이어와 연동하여 학습 데이터에 대한 복수의 특징 값을 추출하는 단계, 상기 복수의 특징 값을 종합(aggregating)하는 단계 및 상기 종합된 특징 값을 상기 복수의 소스 모델 별로 미리 설정된 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함할 수 있다.

상기 기술적 과제를 해결하기 위한, 본 발명의 다른 실시예에 따른 전이 학습 적합도를 측정하는 신경망 모델 구축 방법은, 컴퓨팅 장치에 의하여 사전 학습된(pre-trained) 소스 모델(source model)의 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 방법에 있어서, 상기 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하는 단계, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계 및 상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함하되, 상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정될 수 있다.

일 실시예에서, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는, 상기 소스 모델의 특징 추출 레이어와 연동하여 상기 제1 데이터의 특징 값을 추출하는 단계, 상기 특징 값을 상기 신경망 모델에 입력하여 상기 특징 값에 대한 예측 적합도를 획득하는 단계 및 상기 제1 적합도와 상기 예측 적합도 간의 오차를 역전파함으로써, 상기 신경망 모델의 가중치를 조정하는 단계를 포함할 수 있다.

일 실시예에서, 상기 소스 모델은 제1 소스 모델이고, 상기 학습 데이터셋은 제2 소스 모델이 사전 학습한 제3 데이터를 더 포함하되, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는, 상기 제1 소스 모델의 특징 추출 레이어로부터 추출된 상기 제1 데이터의 특징을 상기 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함하고, 상기 제2 소스 모델의 특징 추출 레이어로부터 추출된 상기 제3 데이터의 특징을 제3 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 더 포함하며, 상기 제1 적합도는 상기 제3 적합도보다 높은 값으로 설정될 수 있다.

일 실시예에서, 상기 소스 모델은 제1 소스 모델이고, 상기 제1 적합도는 상기 제1 소스 모델에 대하여 설정된 제1-1 적합도와 제2 소스 모델에 대하여 설정된 제1-2 적합도를 포함하며, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는, 상기 제1 소스 모델의 특징 추출 레이어로부터 상기 제1 데이터의 제1 특징 값을 추출하는 단계, 상기 제2 소스 모델의 특징 추출 레이어로부터 상기 제1 데이터의 제2 특징 값을 추출하는 단계, 상기 제1 특징 값과 상기 제2 특징 값을 종합하는 단계 및 상기 종합된 특징 값을 상기 제1 적합도로 학습하여, 상기 신경망 모델의 가중치를 조정하는 단계를 포함하되, 상기 제1-1 적합도는 상기 제1-2 적합도보다 높은 값으로 설정될 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 전이 학습을 위한 기반 모델 결정 장치는, 타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 장치에 있어서, 하나 이상의 인스트럭션들(instructions)을 포함하는 메모리 및 상기 하나 이상의 인스트럭션들을 실행함으로써, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하고, 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하며, 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 프로세서를 포함할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 전이 학습을 위한 기반 모델 결정 장치는, 타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 장치에 있어서, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 적합도 측정 모델 구축부 및 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하며, 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 기반 모델 결정부를 포함할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 장치는, 사전 학습된(pre-trained) 소스 모델(source model)의 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 장치에 있어서, 하나 이상의 인스트럭션들(instructions)을 포함하는 메모리 및 상기 하나 이상의 인스트럭션들을 실행함으로써, 상기 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하고, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하며, 상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 프로세서를 포함하되, 상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정될 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 단계, 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하는 단계 및 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 단계를 실행시키기 위하여, 컴퓨터로 판독가능한 기록매체에 저장될 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하는 단계, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계 및 상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 실행시키기 위하여, 컴퓨터로 판독가능한 기록매체에 저장될 수 있다. 이때, 상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정될 수 있다.

도 1 및 도 2는 전이 학습의 개념을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 학습 장치의 입력 및 출력을 개략적으로 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 학습 장치를 나타내는 예시적인 블록도이다.
도 5는 본 발명의 일 실시예에 따른 전이 학습을 위한 기반 모델 결정 방법을 나타내는 예시적인 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 전이 학습 적합도를 측정하는 신경망 모델 구축 방법을 나타내는 예시적인 흐름도이다.
도 7 내지 도 11은 본 발명의 제1 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 12는 본 발명의 제2 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 13 및 도 14는 본 발명의 제3 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 15는 본 발명의 제4 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 16은 본 발명의 제5 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 17은 본 발명의 제6 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 18은 본 발명의 일 실시예에 따른 학습 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 나타내는 하드웨어 구성도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.

본 명세서에서, 소스 도메인(source domain)이란, 전이 학습(transfer learning)의 출발지 도메인이다. 즉, 전이 학습을 통해 소스 도메인에서 학습된 지식이 타깃 도메인으로 전이될 수 있다. 일반적으로, 소스 도메인은 다수의 학습 데이터셋을 용이하게 확보할 수 있는 도메인일 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.

본 명세서에서, 소스 모델(source model)이란, 상기 소스 도메인에 속한 데이터셋을 학습하여 구축된 사전 학습(pre-trained) 모델이다.

본 명세서에서, 타깃 도메인(target domain)이란, 전이 학습의 목적지 도메인이자 전이 학습을 통해 목적 태스크를 수행하고자 하는 도메인이다. 즉, 전이 학습을 통해 소스 도메인에서 학습된 지식이 타깃 도메인으로 전이될 수 있다. 일반적으로, 상기 타깃 도메인은, 의료 도메인과 같이, 학습 데이터셋을 용이하게 확보하기 어려운 도메인이 될 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다. 가령, 학습 데이터셋을 용이하게 확보할 수 있는 도메인이라 할지라도, 학습에 소모되는 시간 및 컴퓨팅 비용을 줄이거나 테스팅 목적으로 전이 학습이 이용될 수 있다.

본 명세서에서, 타깃 데이터셋(target dataset)이란, 타깃 도메인에 속한 데이터셋이다. 상기 타깃 데이터셋은 다수의 소스 모델 중에서 전이 학습의 기반 모델을 결정하거나 상기 타깃 모델을 추가 학습(e.g. 미세 조정)하기 위해 이용될 수 있다.

본 명세서에서, 타깃 모델(target model)이란, 타깃 도메인에서 목적 태스크(e.g. 분류 태스크)를 수행하는 모델이자, 전이 학습을 통해 구축하고자 하는 목표 모델이다.

본 명세서에서, 인스트럭션(instruction)은 기능을 기준으로 묶인 일련의 명령어들로서 컴퓨터 프로그램의 구성 요소이자 프로세서에 의해 실행되는 것을 가리킨다.

이하, 본 발명의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.

도 3은 본 발명의 일 실시예에 따른 학습 장치(200)의 입력 및 출력을 개략적으로 설명하기 위한 도면이다.

도 3에 도시된 바와 같이, 학습 장치(200)는 전이 학습을 통해 복수의 소스 모델(21)로부터 타깃 모델(27)을 구축하는 컴퓨팅 장치이다. 여기서, 상기 컴퓨팅 장치는 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 상기 컴퓨팅 장치의 일 예는 도 18을 참조하도록 한다.

보다 구체적으로, 학습 장치(200)는 복수의 소스 모델(21), 학습 데이터셋(23)과 타깃 데이터셋(25)을 입력으로 하여 타깃 모델(27)을 구축할 수 있다.

본 발명의 실시예에 따르면, 학습 장치(200)는 소스 모델(21)과 학습 데이터셋(23)을 이용하여 각 소스 모델의 전이 학습 적합도(이하, "적합도"로 약칭함)를 측정하는 신경망 모델(이하, "적합도 측정 모델"로 칭함)을 구축할 수 있다. 이때, 학습 데이터셋(23)은 소스 모델(21)의 사전 학습에 이용된 제1 데이터와 상기 사전 학습에 이용되지 않은 제2 데이터를 포함한다. 보다 구체적으로, 학습 장치(200)는 상기 제1 데이터를 높은 적합도 값으로 학습하고, 상기 제2 데이터를 낮은 적합도 값으로 학습하여 상기 제1 소스 모델에 대한 적합도 측정 모델을 구축할 수 있다. 이렇게 구축된 적합도 측정 모델은 상기 제1 데이터와 유사한 특성을 가진 데이터가 입력되면, 높은 적합도 값을 출력하고, 반대의 경우 낮은 적합도 값을 출력하게 된다. 따라서, 상기 적합도 측정 모델은 타깃 데이터셋(25)이 상기 제1 데이터와 유사한 특성을 갖는지(즉, 상기 제1 소스 모델이 전이 학습에 얼마나 적합한지)를 판단할 수 있다. 이와 같은 실시예에 한하여, 학습 장치(200)는 신경망 모델 구축 장치(200)로 명명될 수도 있다. 본 실시예에 대한 자세한 설명은 도 4, 도 6 내지 도 17을 참조하여 후술하도록 한다.

또한, 본 발명의 실시예에 따르면, 학습 장치(200)는 전술한 실시예에 따라 구축된 적합도 측정 모델을 이용하여 복수의 소스 모델(21) 중에 타깃 모델(27)의 기반이 될 기반 모델(base model)을 결정할 수 있다. 가령, 학습 장치(200)는 적합도 측정 모델을 통해 복수의 소스 모델(21) 각각의 적합도를 측정하고, 적합도가 가장 높은 소스 모델을 상기 기반 모델로 결정할 수 있다. 이와 같은 실시예에 한하여, 학습 장치(200)을 기반 모델 결정 장치(200)로 명명될 수도 있다. 본 실시예에 대한 자세한 설명 또한 추후 도 4 및 도 5를 참조하여 후술하도록 한다.

학습 장치(200)의 구성 및 동작에 대한 보다 자세한 설명은 도 4 이하의 도면을 참조하여 후술하도록 한다.

참고로, 도 3은 학습 장치(200)가 하나의 물리적 컴퓨팅 장치로 구현된 것을 예로써 도시하고 있으나, 실제 물리적 환경에서 학습 장치(200)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다.

또한, 프로세스의 신속한 처리를 위해 학습 장치(200)는 복수의 프로세서(e.g. GPU)를 통해 병렬 처리를 수행할 수 있으며, 복수의 컴퓨팅 장치를 포함하는 분산 시스템으로 구현될 수도 있다.

지금까지 도 3을 참조하여 본 발명의 일 실시예에 따른 학습 장치(200)의 입력 및 출력에 대하여 설명하였다. 이하에서는, 학습 장치(200)의 구성 및 동작에 대하여 도 4를 참조하여 설명하도록 한다.

도 4는 본 발명의 일 실시예에 따른 학습 장치(200)를 나타내는 예시적인 블록도이다.

도 4를 참조하면, 학습 장치(200)는 소스 모델 획득부(210), 적합도 측정 모델 구축부(230), 기반 모델 결정부(250) 및 타깃 모델 구축부(270)를 포함할 수 있다. 다만, 도 4에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 4에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다. 또한, 도 4에 도시된 학습 장치(200)의 각각의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 복수의 구성 요소가 실제 물리적 환경에서는 서로 통합되는 형태로 구현될 수도 있음에 유의한다. 이하, 학습 장치(200)의 각 구성 요소에 대하여 설명한다.

소스 모델 획득부(210)는 사전 학습된 복수의 소스 모델(21)을 획득한다. 소스 모델 획득부(210)가 복수의 소스 모델(21)을 획득하는 방식은 어떠한 방식이 되더라도 무방하다. 실시예에 따라, 소스 모델 획득부(210)는 소스 도메인의 데이터셋을 학습하여 직접 소스 모델(21)을 구축할 수도 있다.

다음으로, 적합도 측정 모델 구축부(230)는 타깃 도메인에 대한 소스 모델(21)의 적합도를 측정할 수 있는 적합도 측정 모델을 구축한다. 상기 적합도 측정 모델의 구조 및 그 모델의 구축 방법에 관한 다양한 실시예는 도 7 내지 도 17의 도면을 참조하여 상세하게 설명하도록 한다.

다음으로, 기반 모델 결정부(250)는 상기 적합도 측정 모델을 이용하여 복수의 소스 모델(21) 중 타깃 모델의 기반이 될 기반 모델을 결정한다. 보다 구체적으로, 기반 모델 결정부(250)는 목적 태스크와 연관된 타깃 데이터셋(25)을 상기 적합도 측정 모델에 입력하여, 복수의 소스 모델(21) 각각에 대한 적합도를 측정한다. 또한, 기반 모델 결정부(250)는 각 소스 모델(21)의 적합도에 기초하여 타깃 모델(27)의 기반 모델을 결정한다.

전술한 바와 같이, 상기 적합도는 소스 모델(21)이 타깃 도메인으로의 전이 학습에 얼마나 적합한지를 가리키는 값이며, 특정 소스 모델이 전이 학습에 적합하다는 것은 상기 특정 소스 모델이 타깃 데이터셋(25)과 유사한 특성을 갖는 데이터로 사전 학습되었다는 것을 의미한다.

다음으로, 타깃 모델 구축부(270)는 결정된 기반 모델을 기초로 목적 태스크를 수행할 타깃 모델(27)을 구축한다. 가령, 타깃 모델 구축부(270)는 타깃 데이터셋(25)으로 상기 기반 모델을 미세 조정함으로써, 타깃 모델(27)을 구축할 수 있다.

한편, 도 4에 도시된 모든 구성 요소가 학습 장치(200)를 구현하기 위한 필수적인 구성 요소는 아닐 수도 있음에 유의하여야 한다. 가령, 본 발명의 다른 실시예에 따른 학습 장치(200)는 도 4에 도시된 구성 요소 중 일부만으로 구현될 수도 있다.

또한, 도 4에 도시된 구성 요소 중 제1 구성 요소는 제1 컴퓨팅 장치로 구현되고, 제2 구성 요소는 제2 컴퓨팅 장치로 구현될 수도 있다. 가령, 소스 모델 획득부(210)와 타깃 모델 구축부(270)는 별개의 컴퓨팅 장치로 구현될 수도 있다.

도 4에 도시된 학습 장치(200)의 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 상기 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.

이하에서는, 도 5 내지 도 17을 참조하여 본 발명의 다양한 실시예들에 따른 방법들에 대하여 설명하도록 한다.

이하에서 후술될 본 발명의 다양한 실시예들에 따른 방법들의 각 단계는, 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 방법들의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 상기 방법들에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나 상기 방법들의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법들의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 이해의 편의를 제공하기 위해, 상기 방법들의 각 단계가 학습 장치(200)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다.

도 5는 본 발명의 일 실시예에 따른 전이 학습을 위한 기반 모델 결정 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.

도 5에 도시된 바와 같이, 상기 기반 모델 결정 방법은 적합도 측정 모델을 구축하는 단계 S10에서 시작된다. 상기 적합도 측정 모델은, 전술한 바와 같이, 각 소스 모델의 적합도를 측정하는 신경망 모델을 의미한다.

본 단계 S10에서, 적합도 측정 모델을 구축하는 자세한 방법은 실시예에 따라 달라질 수 있는데, 이에 대한 자세한 설명은 도 6 내지 도 17을 참조하여 후술하도록 한다.

단계 S30에서, 학습 장치(200)는 적합도 측정 모델을 이용하여 복수의 소스 모델 각각의 적합도를 측정한다. 구체적으로, 학습 장치(200)는 주어진 타깃 데이터셋(e.g. 도 1의 25)을 적합도 측정 모델에 입력하여 각 소스 모델 별로 적합도를 측정한다. 여기서, 상기 측정된 적합도는 상기 적합도 측정 모델에 의해 출력된 컨피던스 스코어(confidence score) 또는 상기 컨피던스 스코어를 기초로 가공된 값이 될 수 있다.

몇몇 실시예에서, 타깃 데이터셋이 복수개의 데이터로 구성된 경우, 학습 장치(200)는 복수의 데이터에 대한 적합도 값의 평균 또는 가중 평균 등을 통해 각 소스 모델의 최종 적합도를 산출할 수 있다. 이때, 상기 가중 평균에 이용되는 가중치는 예를 들어 데이터의 품질(e.g. 해상도 등), 유형, 중요도 등에 따라 차등적으로 결정될 수도 있다. 예를 들어, 고품질의 데이터에 더 높은 가중치가 부여되거나, 중요 데이터에 더 높은 가중치가 부여될 수 있다. 다른 예를 들어, 제1 데이터가 타깃 도메인의 원본 데이터이고 제2 데이터는 상기 원본 데이터에 확장(augmentation) 기법을 적용하여 생성된 가공 데이터인 경우, 상기 제1 데이터에 더 높은 가중치가 부여될 수 있다. 상기 데이터 확장 기법의 예로는 크롭(crop), 회전(rotate), 플립(flip), 지터링(jittering), 스케일링(scaling) 등을 포함할 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.

단계 S50에서, 학습 장치(200)는 측정된 적합도를 기초로 전이 학습에 이용될 기반 모델을 결정한다. 보다 구체적으로, 학습 장치(200)는 지정된 조건을 만족하는 소스 모델을 기반 모델로 결정할 수 있는데, 상기 지정된 조건은 실시예에 따라 얼마든지 달라질 수 있다. 가령, 학습 장치(200)는 적합도가 가장 높은 소스 모델, 적합도가 임계치 이상이 되는 소스 모델, 적합도가 높은 상위 n(단, n은 1 이상의 자연수)개의 소스 모델 등을 기반 모델로 결정할 수 있다.

상기 지정된 조건에 따라 기반 모델이 복수개로 결정된 경우, 학습 장치(200)는 각 기반 모델을 이용하여 복수개의 후보 모델을 구축하고, 후보 모델에 대한 성능 평가(e.g. cross-validation)을 통해 실제 타깃 도메인에 활용될 타깃 모델을 결정할 수도 있다.

몇몇 실시예에서, 학습 장치(200)는 단계 S70를 더 수행할 수 있다.

단계 S70에서, 학습 장치(200)는 타깃 데이터셋(e.g. 도 1의 25)으로 기반 모델을 미세 조정하여 타깃 모델을 구축한다. 상기 타깃 모델은, 전술한 바와 같이, 타깃 도메인에서 목적 태스크를 수행할 기계 학습 모델이다. 본 단계 S70의 타깃 데이터셋은 단계 S30에서 적합도 측정을 위해 입력되는 데이터셋과 적어도 일부는 동일할 수 있고, 상이할 수도 있다.

참고로, 전술한 단계 S10 내지 S70 중에서, 단계 S10는 적합도 측정 모델 구축부(230)에 의해 실행되고, 단계 S30 및 S50은 기반 모델 결정부(250)에 의해 실행되며, 단계 S70은 타깃 모델 구축부(270)에 의해 실행될 수 있다.

지금까지 도 5를 참조하여 본 발명의 일 실시예에 따른 전이 학습을 위한 기반 모델 결정 방법에 대하여 설명하였다. 상술한 방법에 따르면, 소스 모델 별로 측정된 적합도에 기반하여 기반 모델이 결정될 수 있다. 따라서, 종래와 같이, 모든 소스 모델에 대해 타깃 모델의 구축을 시도하는 비효율성이 제거될 수 있다. 나아가, 적합도에 기반하여 타깃 데이터셋과 유사한 특성을 가진 데이터셋을 학습한 소스 모델이 전이 학습의 기반 모델로 결정되는 바, 저렴한 비용으로 고성능의 타깃 모델이 구축될 수 있다.

이하에서는, 도 6 내지 도 17을 참조하여 단계 S10에서 적합도 측정 모델을 구축하는 방법과 연관된 다양한 실시예에 대하여 설명하도록 한다.

도 6은 본 발명의 일 실시예에 따른 전이 학습 적합도를 측정하는 신경망 모델 구축 방법의 기본 흐름을 나타내는 예시적인 흐름도이다.

도 6에 도시된 바와 같이, 적합도 측정 모델을 구축하는 기본 원리는 특정 소스 모델이 사전에 학습한 제1 데이터와 학습하지 않은 제2 데이터를 서로 다른 적합도 값으로 학습하는 것이다. 상기 학습을 통해, 적합도 측정 모델은 주어진 타깃 데이터셋이 상기 특정 소스 모델이 학습한 데이터와 유사한지 여부를 측정할 수 있게 된다. 또한, 특정 소스 모델이 타깃 데이터셋과 유사한 데이터를 학습했다는 것은 곧 상기 특정 소스 모델이 전이 학습에 적합하다는 것을 의미하므로, 적합도 측정 모델의 출력 값이 전이 학습 적합도로 활용될 수 있는 것이다.

도 6을 참조하여 부연 설명하면, 상기 신경망 모델 구축 방법은 학습 데이터셋을 획득하는 단계 S110에서 시작된다. 이때, 상기 학습 데이터셋은 소스 모델의 사전 학습에 이용된 제1 데이터와 이용되지 않은 제2 데이터를 포함한다.

단계 S130에서, 상기 제1 데이터를 이용하여 적합도 측정 모델이 학습된다. 가령, 상기 제1 데이터가 제1 소스 모델이 사전 학습한 데이터이고, 상기 제1 소스 모델에 대한 제1 적합도 측정 모델을 구축한다고 가정하면, 학습 장치(200)는 상대적으로 높은 적합도(e.g. 1)로 상기 제1 데이터를 학습하게 된다. 그렇게 함으로써, 제1 적합도 측정 모델은 상기 제1 데이터와 유사한 특성을 가진 타깃 데이터셋에 대해, 높은 적합도 값을 출력하게 된다.

단계 S150에서, 상기 제2 데이터를 이용하여 적합도 측정 모델이 학습된다. 가령, 상기 제2 데이터가 제1 소스 모델이 사전 학습하지 않은 데이터이고, 상기 제1 소스 모델에 대한 제1 적합도 측정 모델을 구축한다고 가정하면, 학습 장치(200)는 상대적으로 낮은 적합도(e.g. 0)로 상기 제2 데이터를 학습한다. 그렇게 함으로써, 제1 적합도 측정 모델은 상기 제2 데이터와 유사하지 않은 특성을 가진 타깃 데이터셋에 대해, 낮은 적합도 값을 출력하게 된다.

모든 학습 데이터셋에 대하여, 단계 S130 및 S150이 반복 수행됨에 따라 적합도 측정 모델이 구축될 수 있다.

전술한 단계 S110 내지 S150는 적합도 측정 모델을 구축하기 위한 기본 흐름만을 도시하고 있고, 상기 적합도 측정 모델을 구축하는 상세 과정은 모델의 구조에 달라지게 된다. 보다 이해의 편의를 제공하기 위해, 도 7 내지 도 17에 도시된 적합도 측정 모델의 구조를 참조하여 각 모델의 구축 방법에 대하여 상세하게 설명하도록 한다.

본 발명의 다양한 실시예들에 따르면, 적합도 측정 모델은 각 소스 모델마다 구축(즉, 1:1 관계)될 수 있고, 복수의 소스 모델의 적합도를 한번에 측정하도록 구축(즉, 다:1 관계)될 수도 있다. 먼저, 각 소스 모델마다 적합도 측정 모델이 구축되는 실시예들에 대하여 도 7 내지 도 15를 참조하여 설명하도록 한다.

도 7 내지 도 11을 참조하여 본 발명의 제1 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명한다.

도 7는 본 발명의 일 실시예에 따른 적합도 측정 모델(35)의 기본적인 학습 구조를 도시한다.

도 7에 도시된 바와 같이, 적합도 측정 모델(35)은 소스 모델(30)과 데이터셋(37, 39)을 이용하여 학습될 수 있다. 이때, 소스 모델(30)은 데이터셋(37, 39)에서 특징 값을 추출하기 위해 이용된다. 보다 이해의 편의를 제공하기 위해, 소스 모델(30)에 대하여 간략하게 설명한다.

소스 모델(30)은 특징 추출 레이어(31)와 출력 레이어(33)을 포함하는 기계 학습 모델이다. 특징 추출 레이어(31)는 입력된 데이터에서 특징을 추출하는 레이어인데, 추출되는 특징은 주어진 학습 데이터셋의 기계 학습을 통해 자동으로 결정된다. 즉, 학습을 통해 특징 추출 레이어(31)의 가중치가 조정 및 갱신됨에 따라, 특징 추출 레이어(31)는 특정 태스크를 수행하기 위한 최적의 특징을 자동으로 추출할 수 있게 된다.

출력 레이어(33)는 특징 추출 레이어(31)에 의해 추출된 특징에 기반하여 상기 특정 태스크의 결과 값을 출력하는 레이어이다. 가령, 제1 소스 모델(30)이 분류 태스크를 수행하는 모델인 경우, 상기 결과 값은 분류 결과를 나타내는 각 클래스 별 컨피던스 스코어가 될 수 있다.

특징 추출 레이어(31)와 출력 레이어(33)의 몇몇 예시는 도 8 및 도 9에 도시되어 있다.

일 예시에서, 도 8에 도시된 바와 같이, 소스 모델(30)이 컨볼루션 신경망 모델인 경우, 특징 추출 레이어(31)는 컨볼루션 연산을 통해 입력된 이미지에서 특징 맵(feature map) 또는 액티베이션 맵(activation map)을 추출하는 레이어(41)가 될 수 있다. 이때, 레이어(41)에는 적어도 하나의 컨볼루션 레이어와 풀링 레이어가 포함될 수 있다. 또한, 출력 레이어(33)는 소프트맥스(softmax) 등의 연산을 통해 특징 맵을 종합하여 클래스 별 컨피던스 스코어를 출력하는 레이어(43)가 될 수 있다.

다른 예시에서, 도 8에 도시된 바와 같이, 소스 모델(30)이 인공 신경망 모델인 경우, 특징 추출 레이어(31)는 입력된 데이터에서 특징을 추출하는 적어도 하나의 은닉 레이어(45)가 될 수 있다. 또한, 출력 레이어(33)는 은닉 레이어(45)에서 추출된 특징에 기반하여 결과 값을 출력하는 레이어(47)가 될 수 있다. 이때, 상기 결과 값은 분류 결과를 나타내는 클래스 별 컨피던스 스코어일 수 있고, 리그레션(regression) 값일 수도 있다.

다시 도 7을 참조하면, 데이터셋(37, 39)은 소스 모델(30)이 사전에 학습한 제1 데이터(37)와 학습하지 않은 제2 데이터(39)으로 구성될 수 있다. 2가지 유형의 데이터(37, 39)를 서로 다른 적합도 값으로 학습함으로써, 적합도 측정 모델(35)은 입력된 데이터가 제1 소스 모델(30)이 학습한 데이터와 얼마나 유사한지 여부를 측정할 수 있게 된다.

몇몇 실시예에서, 제1 데이터(37)와 제2 데이터(39)의 개수를 기 설정된 비율로 구성하여 적합도 측정 모델(35)의 학습 데이터셋이 생성될 수 있다. 그렇게 함으로써, 적합도 측정 모델(35)의 학습 성능이 더욱 향상될 수 있다.

적합도 측정 모델(35)이 학습되는 과정의 예는 도 10에 도시되어 있다. 도 10에 도시된 바와 같이, 학습 장치(200)는 높은 적합도 값(e.g. 1)이 설정된 제1 데이터(37)와 낮은 적합도 값(e.g. 0)이 설정된 제2 데이터(39)의 학습 오차(e.g. gradient of loss)를 역전파(back-propagation)하여 모델(35)의 가중치를 조정하는 방식으로 학습을 수행한다.

여기서, 상기 학습은 적합도 측정 모델(35)에 대해 수행되는 것이므로, 상기 학습 오차가 특징 추출 레이어(31)까지 역전파되는 것은 아니다. 즉, 상기 학습 과정에 의해 적합도 측정 모델(35)의 가중치가 조정될 뿐, 특징 추출 레이어(31)의 가중치가 조정되는 것은 아니다.

상기 오차를 산출하기 위한 손실 함수(loss function)로는 하기의 수학식 1과 같은 크로스 엔트로피(cross entropy) 함수가 이용될 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.

상기 수학식 1에서, L_d는 오차 값을 가리키고, d는 미리 설정된 적합도(즉, 정답)를 가리키며, d^는 적합도 측정 모델(35)이 출력한 예측 적합도를 가리킨다. 적합도 측정 모델(35)의 가중치는 상기 수학식 1에 의해 산출된 오차를 최소화하는 방향으로 조정 및 갱신될 수 있다.

본 발명의 실시예에 따르면, 도 10에 도시된 바와 같이, 적합도 측정 모델(35)은 데이터셋(37, 39)을 직접 입력받지 않고, 특징 추출 레이어(31)를 통해 추출된 데이터셋(37, 39)의 특징 값을 입력받아 학습을 수행한다. 구체적으로, 적합도 측정 모델(35)은 제1 데이터(37)에서 추출된 특징 값을 입력받고, 상기 특징 값에 대해 예측된 적합도를 출력한다. 또한, 상기 예측 적합도와 기 설정된 적합도(e.g. 1) 간의 오차를 역전파함으로써 모델(35)의 가중치를 조정한다. 데이터 대신 특징 값을 이용하는 이유는, 상기 특징 값은 입력 데이터를 분별하기 위해 추출된 고 수준의 추상화된 정보로써, 유사한 특성을 가진 데이터라면 유사한 특징이 추출될 것이기 때문이다. 가령, 적합도 측정 모델(35)이 특징 추출 레이어(31)로부터 추출된 특징 값을 학습하였고, 타깃 데이터셋(e.g. 도 1의 25)이 소스 모델(30)이 학습한 제1 데이터셋과 유사한 특성을 가졌다고 가정하자. 그러면, 특징 추출 레이어(31)는 상기 타깃 데이터셋으로부터 제1 데이터셋과 유사한 특징 값을 추출하게 될 것이고, 이에 따라 적합도 측정 모델(35)은 높은 적합도를 출력하게 된다. 따라서, 특징 값을 학습하면 소스 모델(30)이 타깃 도메인으로의 전이 학습에 적합한 모델이라는 것이 보다 정확하게 판별될 수 있게 된다.

도 11은 각 소스 모델(30-1 내지 30-n) 별로 적합도 측정 모델(35-1 내지 35-n)이 구축된 것을 도시하고 있다.

도 11에 도시된 바와 같이, 전술한 적합도 측정 모델(35)과 동일한 방식으로 각 소스 모델(30-1 내지 30-n)에 대한 적합도 측정 모델(35-1 내지 35-n)이 구축될 수 있다. 구체적으로, 타깃 도메인에 대한 제1 소스 모델(30-1)의 적합도를 측정하기 위해 제1 적합도 측정 모델(35-1)이 구축되고, 제n 소스 모델(30-n)의 적합도를 측정하기 제n 적합도 측정 모델(35-n)이 구축될 수 있다.

각 소스 모델(30-1 내지 30-n) 별로 적합도 측정 모델(35-1 내지 35-n)이 구축되면, 학습 장치(200)는 적합도 측정 모델(35-1 내지 35-n)의 측정 값에 기초하여 전이 학습에 활용될 기반 모델을 결정할 수 있다. 구체적으로, 학습 장치(200)는 제1 특징 추출 레이어(31)로부터 추출된 타깃 데이터셋(e.g. 도 1의 25)의 특징 값을 제1 적합도 측정 모델(35)에 입력하여, 제1 소스 모델(30)의 적합도를 측정할 수 있다. 동일하게, 제n 특징 추출 레이어(41)로부터 추출된 타깃 데이터셋(e.g 도 1의 25)의 특징 값을 제n 적합도 측정 모델(45)에 입력하여, 제n 소스 모델(30)의 적합도를 측정할 수 있다. 또한, 학습 장치(200)는 각 소스 모델 별로 측정된 적합도에 기초하여 특정 소스 모델을 상기 전이 학습의 기반 모델로 결정할 수 있다.

지금까지 도 7 내지 도 11을 참조하여 본 발명의 제1 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하였다. 이하에서는, 도 12를 참조하여 본 발명의 제2 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.

도 12는 본 발명의 제2 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.

도 12에 도시된 바와 같이, 상기 제2 실시예는 출력 레이어(53)의 결과 값(e.g. 분류 결과)을 더 이용하여 적합도 측정 모델(55)을 학습한다. 즉, 적합도 측정 모델(55)은 특징 추출 레이어(51)에서 추출된 학습 데이터셋의 특징 값과 출력 레이어(53)에서 출력된 결과 값을 모델(55)의 입력 데이터로 이용하여 학습을 수행한다. 전술한 바와 같이, 상기 학습 데이터셋은 소스 모델(50)이 사전에 학습한 제1 데이터와 학습하지 않은 제2 데이터를 포함한다. 역전파를 통해 학습이 이루어지는 과정은 전술한 제1 실시예와 동일하므로, 더 이상의 설명은 생략하도록 한다.

이하에서는, 도 13 및 도 14를 참조하여 본 발명의 제3 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.

도 13에 도시된 바와 같이, 상기 제3 실시예는 복수의 소스 모델(60-1, 60-2)의 특징 추출 레이어(61-1, 61-2)와 연동하여 적합도 측정 모델을 학습하는 예에 관한 것이다.

보다 구체적으로, 제1 적합도 측정 모델(65-1)의 학습은 다음과 같은 과정으로 수행될 수 있다. 학습 장치(200)는 제1 소스 모델(60-1)로부터 추출된 제1 데이터(67-1)의 특징 값을 높은 적합도 값(e.g. 1)로 학습하여 제1 적합도 측정 모델(65-1)의 가중치를 조정한다. 이때, 제1 데이터(67-1)는 제1 소스 모델(60-1)이 사전에 학습한 데이터를 의미한다. 참고로, 도 13 이하의 도면에서 데이터를 나타내는 도형(e.g. 67-1, 67-2)에 표시된 M_k는 제k 소스 모델이 사전에 학습한 데이터라는 것을 의미한다.

다음으로, 학습 장치(200)는 제2 소스 모델(60-2)로부터 추출된 제2 데이터(67-2)의 특징 값을 낮은 적합도 값(e.g. 0)으로 더 학습하여 제1 적합도 측정 모델(65-1)의 가중치를 조정한다. 그렇게 함으로써, 제1 적합도 측정 모델(65-1)은 제1 소스 모델(60-1)이 사전에 학습한 데이터와 그렇지 않은 데이터를 더욱 명확하게 구분할 수 있게 된다. 이때, 제2 데이터(67-2)는 제2 소스 모델(60-2_이 사전에 학습한 데이터를 의미한다.

또한, 학습 장치(200)는 제1 소스 모델(60-1)이 사전에 학습하지 않은 데이터의 특징 값을 낮은 적합도 값으로 더 학습할 수도 있다. 이때, 사전에 학습하지 않은 데이터의 특징 값은 제1 특징 추출 레이어(61-1) 또는 제2 특징 추출 레이어(61-2)에서 추출될 수 있다.

몇몇 실시예에서, 제1 적합도 측정 모델(65-1)은 제2 소스 모델(60-2)로부터 추출된 제1 데이터(67-1)의 특징 값을 낮은 적합도 값으로 더 학습하여, 제1 적합도 측정 모델(65-1)의 가중치를 조정할 수도 있다. 제2 소스 모델(60-2)이 추출한 제1 데이터(67-1)의 특징 값은 제1 소스 모델(60-1)에 의해 추출된 제1 데이터(67-1)의 특징 값과 상이할 것이기 때문이다.

본 실시예에서, 제1 적합도 측정 모델(65-1)은 제1 소스 모델(60-1)의 적합도를 측정하는 모델이므로, 다른 소스 모델(e.g. 60-2) 각각에 대해서도 적합도 측정 모델이 구축될 수 있다.

한편, 도 13은 제1 적합도 측정 모델(65-1)이 2개의 소스 모델(60-1, 60-2)과 연동하여 학습되는 것을 예로써 도시하고 있으나, 제1 적합도 측정 모델(65-1)과 연동되는 소스 모델의 개수는 실시예에 따라 얼마든지 달라질 수 있다. 가령, 도 14에 도시된 바와 같이, 제1 적합도 측정 모델(75-1)은 n개(단, n은 3 이상의 자연수)의 소스 모델(70-1 내지 70-n)과 연동하여 학습될 수도 있다. 이와 같은 경우에도, 전술한 바와 동일한 방식으로 학습이 진행될 수 있다.

이하에서는, 도 15를 참조하여 본 발명의 제4 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.

도 15에 도시된 바와 같이, 상기 제4 실시예는 전술한 제2 실시예와 제3 실시예가 조합된 것이다. 구체적으로, 상기 제4 실시예에서, 제1 적합도 측정 모델(85-1)에 대한 학습은 2개 이상의 소스 모델(80-1, 80―2)과 연동하여 수행되는데, 학습 장치(200)는 특징 추출 레이어(81-1, 81-2)에서 추출된 특징 값 외에 출력 레이어(83-1, 83-2)의 결과 값을 더 이용하여 학습을 수행한다.

지금까지 도 7 내지 도 15를 참조하여 본 발명의 제1 내지 제4 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 설명하였다. 이하에서는, 제5 및 제6 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 설명하도록 한다.

상기 제5 및 제6 실시예는 복수개의 소스 모델에 대한 적합도를 한번에 측정할 수 있는 적합도 측정 모델에 관한 것이다.

먼저, 도 16을 참조하여 본 발명의 제5 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.

도 16에 도시된 바와 같이, 복수의 소스 모델(이하, n개로 가정함)에 대한 적합도를 일괄 측정하도록 학습하기 위해, n개의 소스 모델의 특징 추출 레이어(91-1 내지 91-n)와 연동하여 적합도 측정 모델(95)의 학습이 수행된다. 구체적인 학습 과정을 살펴보면 다음과 같다.

학습 데이터(99)는 특정 소스 모델이 사전 학습한 데이터 또는 학습하지 않은 데이터를 포함할 수 있다. 또한, 학습 데이터(99)에 설정된 적합도(즉, 정답 적합도)는 각 소스 모델 별 적합도(즉, 복수의 적합도 값)가 된다. 이때, 학습 데이터(99)가 제k 소스 모델이 사전에 학습한 데이터라면, 학습 데이터(99)에 설정된 소스 모델 별 적합도(즉, 정답 적합도) 중에 k번째 적합도는 높은 값(e.g. 1)으로 설정되고, 나머지 적합도는 낮은 값(e.g. 0)으로 설정될 수 있다. 물론, 학습 데이터(99)가 어떤 소스 모델도 사전 학습하지 않은 데이터라면, 모든 소스 모델의 적합도가 낮은 값으로 설정되게 된다.

본 실시예에서, 학습 장치(200)는 학습 데이터(99)를 n개의 특징 추출 레이어(91-1 내지 91-n)에 입력하여, n개의 특징 값을 추출하고, n개의 특징 값을 종합(aggregation)하여 종합 특징 값(93)을 생성한다. 이때, n개의 특징 값을 종합하는 연산은 n개의 특징 값을 연결(concatenating) 또는 병합(merging)하는 연산, 소정의 프로세싱을 통해 상기 n개의 특징 값을 기초로 새로운 특징 값으로 생성하는 연산 등을 모두 포함할 수 있다. 상기 n개의 특징 값에 대한 종합 연산은 적합도 측정 모델(95)의 입력 레이어 구조에 따라 얼마든지 달라질 수 있다.

몇몇 실시예에서, 특징 값을 종합할 때, 데이터 압축 또는 데이터 축소 기법이 활용될 수 있다. 각 특징 값은 고차원의 데이터(e.g. 고차원의 특징 맵)일 수 있기 때문에, n개의 특징 값을 그래도 종합하면 모델(95)의 입력 차원이 지나치게 커질 수 있기 때문이다. 상기 데이터 압축 또는 데이터 축소 기법은 예를 들어 GAP(global average pooling), GMP(global max pooling) 등의 풀링 기법을 포함할 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.

종합 특징 값(93)이 입력되면, 적합도 측정 모델(95)은 각 소스 모델 별 예측 적합도(97)을 출력하게 되고, 학습 장치(200)는 예측 적합도(97)와 정답 적합도와의 오차를 역전파하여 적합도 측정 모델(95)의 가중치를 조정함으로써, 학습을 수행한다. 이와 같은 방식으로 구축된 적합도 측정 모델(95)은 추후 타깃 데이터셋이 입력될 때, 각 소스 모델 별로 측정된 적합도를 출력하게 된다.

이하에서는, 도 17을 참조하여 본 발명의 제6 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.

도 17에 도시된 바와 같이, 상기 제6 실시예는 전술한 제5 실시예와 유사하나, 서브 레이어 별로 적합도 측정 모델(130-1 내지 130-m)이 구축된다는 점에서 차이가 있다.

보다 구체적으로, 상기 제6 실시예는, 각 소스 모델의 특징 추출 레이어(100, 110, 120)가 복수의 서브 레이어(이하, m개로 가정함)로 구성된 경우를 가정하고 있다. 이때, 상기 서브 레이어는 신경망 모델의 하나 이상의 은닉 레이어에 대응될 수 있을 것이나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.

본 실시예에서, 학습 장치(200)는 각 특징 레이어(110 내지 130)의 서브 레이어에서 추출된 특징을 종합하여 종합 특징 값을 생성하고, 상기 종합 특징 값을 학습하여 m개의 적합도 측정 모델(130-1 내지 130-m)을 구축한다. 가령, 학습 장치(200)는 복수의 제1 서브 레이어(101-1 내지 121-1)에서 추출된 특징 값을 종합하여, 제1 종합 특징 값을 생성하며, 상기 제1 종합 특징 값을 학습하여, 복수의 제1 서브 레이어에 대한 적합도를 측정하는 제1 적합도 측정 모델(130-1)을 구축할 수 있다. 동일하게, 학습 장치(200)는 복수의 제m 서브 레이어(101-m 내지 121-m)에서 추출된 특징 값을 종합하여, 제m 종합 특징 값을 생성하며, 상기 제m 종합 특징 값을 학습하여, 복수의 제m 서브 레이어에 대한 적합도를 측정하는 제m 적합도 측정 모델(130-m)을 구축할 수 있다 각 적합도 측정 모델(130-1 내지 130-m)을 구축하는 방법은 전술한 제5 실시예와 동일하므로, 이에 대한 설명은 생략하도록 한다.

본 실시예에서는, 서브 레이어 단위로 측정된 전이 학습 적합도가 전이 학습에 활용된다. 구체적으로, 학습 장치(200)는 제1 적합도 측정 모델(130-1)의 측정 값에 기반하여 복수의 제1 서브 레이어(100-1 내지 120-1) 중 타깃 데이터셋에 가장 적합한 서브 레이어를 제1 기반 레이어로 결정하고, 제m 적합도 측정 모델(130-m)의 측정 값에 기반하여 복수의 제m 서브 레이어(100-m 내지 120-m) 중 타깃 데이터셋에 가장 적합한 서브 레이어를 제m 기반 레이어로 결정할 수 있다. 그러면, 학습 장치(200)는 상기 결정된 기반 레이어들의 지식(즉, 학습된 가중치)을 타깃 모델로 전이함으로써, 상기 타깃 모델을 구축할 수 있다. 본 실시예에 따르면, 소스 모델 단위가 아니라 서브 레이어 단위로 지식 전이가 이루어질 것인 바, 보다 정확한 타깃 모델이 구축될 수 있다.

지금까지 도 7 내지 도 17을 참조하여 본 발명의 다양한 실시예들에 따른 적합도 측정 모델과 그 모델의 구축 방법에 대하여 설명하였다. 상술한 방법에 따르면, 타깃 데이터셋이 주어졌을 때, 상기 타깃 데이터셋 소스 모델이 사전에 학습한 데이터와 유사한지 여부를 정확하게 판단하는 신경망 모델이 구축될 수 있다. 따라서, 상기 신경망 모델은 타깃 도메인으로의 전이 학습 적합도를 측정하는 모델로 활용될 수 있으며, 상기 신경망 모델을 통해 전이 학습의 기반이 될 모델이 정확하게 결정될 수 있다. 나아가, 타깃 모델을 구축하는 비용은 절감되고, 타깃 모델의 정확도는 향상될 수 있다.

한편, 본 발명의 기술적 사상은 전술한 실시예들에 그치지 않고, 전술한 실시예들의 다양한 조합을 더 포함할 수 있음에 유의하여야 한다. 가령, 본 발명의 다른 실시예에 따른 적합도 측정 모델은 종합 특징 값 외에 종합 결과 값을 더 이용하여 구축될 수 있고(즉, 제2 실시예와 제5 실시예의 조합), 또 다른 실시예에 따른 적합도 측정 모델은 각 서브 레이어의 개별 특징 값을 이용하여 소스 모델/서브 레이어 별로 구축될 수도 있다(즉, 제1 실시예와 제6 실시예의 조합). 이와 같이, 전술한 실시예들의 다양한 조합에 따라 적합도 측정 모델을 구축하는 방식은 일부 변형될 수 있을 것이나, 본 발명의 기술적 범위는 상기와 같은 다양한 변형을 모두 포함할 수 있음에 유의하여야 한다.

도 18은 본 발명의 일 실시예에 따른 학습 장치(200)를 구현할 수 있는 예시적인 컴퓨팅 장치(300)를 나타내는 하드웨어 구성도이다.

도 18에 도시된 바와 같이, 컴퓨팅 장치(300)는 하나 이상의 프로세서(310), 버스(350), 통신 인터페이스(370), 프로세서(310)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(330)와, 컴퓨터 프로그램(391)를 저장하는 스토리지(390)를 포함할 수 있다. 다만, 도 18에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 18에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

프로세서(310)는 컴퓨팅 장치(300)의 각 구성의 전반적인 동작을 제어한다. 프로세서(310)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(310)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(300)는 하나 이상의 프로세서를 구비할 수 있다.

메모리(330)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(330)는 본 발명의 실시예들에 따른 다양한 방법/동작들을 실행하기 위하여 스토리지(390)로부터 하나 이상의 프로그램(391)을 로드할 수 있다. 메모리는 예를 들어 RAM과 같은 비활성 메모리로 구현될 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.

메모리(330)에 본 발명의 실시예들에 따른 다양한 방법/동작들을 실행하기 위한 프로그램(391)이 로드되면, 메모리(330) 상에 도 4에 도시된 모듈이 로직의 형태로 구현될 수 있다.

버스(350)는 컴퓨팅 장치(300)의 구성 요소 간 통신 기능을 제공한다. 버스(350)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

통신 인터페이스(370)는 컴퓨팅 장치(300)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(370)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(370)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.

스토리지(390)는 상기 하나 이상의 프로그램(391)을 비임시적으로 저장할 수 있다. 스토리지(390)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(391)은 메모리(330)에 로드될 때 프로세서(310)로 하여금 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(310)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.

예를 들어, 컴퓨터 프로그램(391)은 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하고, 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하며, 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(300)를 통해 전이 학습을 위한 기반 모델 결정 장치(200)가 구현될 수 있다.

다른 예를 들어, 컴퓨터 프로그램(391)은 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하고, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하며, 상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(300)를 통해 전이 학습 적합도 측정을 위한 신경망 모델 구축 장치(200)가 구현될 수 있다.

지금까지 도 18을 참조하여 본 발명의 일 실시예에 따른 학습 장치(200)를 구현할 수 있는 예시적인 컴퓨팅 장치(300)의 구성 및 동작에 대하여 설명하였다.

지금까지 도 1 내지 도 18를 참조하여 본 발명의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

지금까지 도 1 내지 도 18를 참조하여 설명된 본 발명의 개념은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에 의하여 타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 방법에 있어서,
학습 데이터로 사전 학습된(pre-trained) 복수의 소스 모델(source model) 각각의 적합도를 측정하는 신경망 기반의 적합도 측정 모델을 구축하는 단계;
상기 타깃 도메인의 데이터를 상기 적합도 측정 모델에 입력하여 상기 복수의 소스 모델 각각의 적합도를 출력하되, 상기 타깃 도메인의 데이터는 상기 학습 데이터가 속한 도메인과 상이한 도메인의 데이터인, 단계; 및
상기 복수의 소스 모델 중에서 상기 출력된 적합도가 최대인 소스 모델을 상기 타깃 도메인으로의 상기 전이 학습에 이용될 기반 모델로 결정하는 단계를 포함하는 것을 특징으로 하는,
전이 학습을 위한 기반 모델 결정 방법.
제1 항에 있어서,
상기 신경망 기반의 적합도 측정 모델을 구축하는 단계는,
제1 소스 모델의 특징 추출 레이어와 연동하여 학습 데이터의 특징 값을 추출하는 단계; 및
상기 특징 값을 미리 설정된 제1 적합도로 학습하여 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
전이 학습을 위한 기반 모델 결정 방법.
제2 항에 있어서,
상기 적합도 측정 모델의 가중치를 조정하는 단계는,
상기 특징 값을 상기 제1 소스 모델의 출력 레이어에 입력하여 상기 제1 소스 모델의 결과 값을 획득하는 단계; 및
상기 특징 값과 상기 결과 값을 상기 제1 적합도로 학습하여 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
전이 학습을 위한 기반 모델 결정 방법.
제2 항에 있어서,
상기 적합도 측정 모델의 가중치를 조정하는 단계는,
상기 특징 값을 상기 적합도 측정 모델에 입력하여 상기 특징 값에 대한 예측 적합도를 획득하는 단계; 및
상기 제1 적합도와 상기 예측 적합도 간의 오차를 역전파함으로써, 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하되,
상기 오차 역전파를 통해 상기 특징 추출 레이어의 가중치는 조정되지 않는 것을 특징으로 하는,
전이 학습을 위한 기반 모델 결정 방법.
제1 항에 있어서,
상기 적합도 측정 모델을 구축하는 단계는,
제1 소스 모델이 사전에 학습한 제1 데이터를 제1 적합도로 학습하여, 상기 적합도 측정 모델의 가중치를 조정하는 단계; 및
제1 소스 모델이 사전에 학습하지 않은 제2 데이터를 제2 적합도로 학습하여, 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하되,
상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정되는 것을 특징으로 하는,
전이 학습을 위한 기반 모델 결정 방법.
제1 항에 있어서,
상기 적합도 측정 모델을 구축하는 단계는,
제1 소스 모델의 적합도를 측정하는 제1 적합도 측정 모델을 구축하는 단계; 및
제2 소스 모델의 적합도를 측정하는 제2 적합도 측정 모델을 구축하는 단계를 포함하는 것을 특징으로 하는,
전이 학습을 위한 기반 모델 결정 방법.
제6 항에 있어서,
상기 제1 적합도 측정 모델을 구축하는 단계는,
상기 제1 소스 모델의 제1 특징 추출 레이어와 연동하여 제1 데이터의 제1 특징을 추출하는 단계;
상기 제1 특징을 제1 적합도로 학습하여 상기 제1 적합도 측정 모델의 가중치를 조정하는 단계;
상기 제2 소스 모델의 제2 특징 추출 레이어와 연동하여 제2 데이터의 제2 특징을 추출하는 단계; 및
상기 제2 특징을 제2 적합도로 학습하여 상기 제1 적합도 측정 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
전이 학습의 기반 모델 결정 방법.
제7 항에 있어서,
상기 제1 데이터는 상기 제1 소스 모델이 사전에 학습한 데이터이고,
상기 제2 데이터는 상기 제2 소스 모델이 사전에 학습한 데이터이며,
상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정되는 것을 특징으로 하는,
전이 학습의 기반 모델 결정 방법.
제1 항에 있어서,
상기 적합도 측정 모델을 구축하는 단계는,
상기 복수의 소스 모델 각각의 특징 추출 레이어와 연동하여 학습 데이터에 대한 복수의 특징 값을 추출하는 단계;
상기 복수의 특징 값을 종합(aggregating)하는 단계; 및
상기 종합된 특징 값을 상기 학습 데이터에 미리 설정된 적합도로 학습하여 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하되,
상기 미리 설정된 적합도는 상기 복수의 소스 모델 각각에 대한 적합도를 포함하는 것을 특징으로 하는,
전이 학습의 기반 모델 결정 방법.
제9 항에 있어서,
상기 특징 추출 레이어는 제1 서브 레이어 및 제2 서브 레이어를 포함하되,
상기 복수의 특징 값을 종합하는 단계는,
상기 복수의 소스 모델 각각의 상기 제1 서브 레이어에서 추출된 복수의 제1 특징 값을 종합하는 단계; 및
상기 복수의 소스 모델 각각의 상기 제2 서브 레이어에서 추출된 복수의 제2 특징 값을 종합하는 단계를 포함하고,
상기 적합도 측정 모델의 가중치를 조정하는 단계는,
상기 종합된 제1 특징 값을 학습하여 상기 제1 서브 레이어에 대응되는 제1 적합도 측정 모델의 가중치를 조정하는 단계; 및
상기 종합된 제2 특징 값을 학습하여 상기 제2 서브 레이어에 대응되는 제2 적합도 측정의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
전이 학습의 기반 모델 결정 방법.
제10 항에 있어서,
상기 기반 모델을 선택하는 단계는,
상기 제1 적합도 측정 모델에 의해 측정된 적합도를 기초로 상기 복수의 소스 모델을 구성하는 복수의 제1 서브 레이어 중 제1 기반 레이어를 결정하는 단계; 및
상기 제2 적합도 측정 모델에 의해 측정된 적합도를 기초로 상기 복수의 소스 모델을 구성하는 복수의 제2 서브 레이어 중 제2 기반 레이어를 결정하는 단계를 포함하고,
상기 제1 기반 레이어 및 상기 제2 기반 레이어를 이용하여 상기 타깃 도메인에 적용될 타깃 모델을 구축하는 단계를 더 포함하는 것을 특징으로 하는,
전이 학습의 기반 모델 결정 방법.
제1 항에 있어서,
상기 타깃 도메인의 데이터셋으로 상기 기반 모델을 미세 조정(fine-tuning)하여 상기 타깃 도메인에 적용될 타깃 모델을 구축하는 단계를 더 포함하는 것을 특징으로 하는,
전이 학습의 기반 모델 결정 방법.
컴퓨팅 장치에 의하여 사전 학습된(pre-trained) 소스 모델(source model)의 적합도를 측정하는 신경망 모델을 구축하는 방법에 있어서,
상기 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하는 단계;
상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계; 및
상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함하되,
상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정되는 것을 특징으로 하는,
적합도 측정을 위한 신경망 모델 구축 방법.
제13 항에 있어서,
상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는,
상기 소스 모델의 특징 추출 레이어와 연동하여 상기 제1 데이터의 특징 값을 추출하는 단계;
상기 특징 값을 상기 신경망 모델에 입력하여 상기 특징 값에 대한 예측 적합도를 획득하는 단계; 및
상기 제1 적합도와 상기 예측 적합도 간의 오차를 역전파함으로써, 상기 신경망 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
적합도 측정을 위한 신경망 모델 구축 방법.
제14 항에 있어서,
상기 특징 추출 레이어는 컨볼루션 레이어(convolutional layer)를 포함하는 것을 특징으로 하는,
적합도 측정을 위한 신경망 모델 구축 방법.
제14 항에 있어서,
상기 오차 역전파를 통해 상기 특징 추출 레이어의 가중치는 조정되지 않는 것을 특징으로 하는,
적합도 측정을 위한 신경망 모델 구축 방법.
제14 항에 있어서,
상기 특징 값에 대한 예측 적합도를 획득하는 단계는,
상기 특징 값을 상기 소스 모델의 출력 레이어에 입력하여 상기 소스 모델의 결과 값을 획득하는 단계; 및
상기 특징 값과 상기 결과 값을 상기 신경망 모델에 입력하여 상기 예측 적합도를 획득하는 단계를 포함하는 것을 특징으로 하는,
적합도 측정을 위한 신경망 모델 구축 방법.
제13 항에 있어서,
상기 소스 모델은 제1 소스 모델이고,
상기 학습 데이터셋은 제2 소스 모델이 사전 학습한 제3 데이터를 더 포함하되,
상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는,
상기 제1 소스 모델의 특징 추출 레이어로부터 추출된 상기 제1 데이터의 특징을 상기 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함하고,
상기 제2 소스 모델의 특징 추출 레이어로부터 추출된 상기 제3 데이터의 특징을 제3 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 더 포함하며,
상기 제1 적합도는 상기 제3 적합도보다 높은 값으로 설정되는 것을 특징으로 하는,
적합도 측정을 위한 신경망 모델 구축 방법.
제13 항에 있어서,
상기 소스 모델은 제1 소스 모델이고,
제2 소스 모델의 특징 추출 레이어로부터 추출된 상기 제1 데이터의 특징을 제3 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 더 포함하되,
상기 제1 적합도는 상기 제3 적합도보다 높은 값으로 설정되는 것을 특징으로 하는,
전이 학습 적합도 측정을 위한 신경망 모델 구축 방법.
제13 항에 있어서,
상기 소스 모델은 제1 소스 모델이고,
상기 제1 적합도는 상기 제1 소스 모델에 대하여 설정된 제1-1 적합도와 제2 소스 모델에 대하여 설정된 제1-2 적합도를 포함하며,
상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는,
상기 제1 소스 모델의 특징 추출 레이어로부터 상기 제1 데이터의 제1 특징 값을 추출하는 단계;
상기 제2 소스 모델의 특징 추출 레이어로부터 상기 제1 데이터의 제2 특징 값을 추출하는 단계;
상기 제1 특징 값과 상기 제2 특징 값을 종합하는 단계; 및
상기 종합된 특징 값을 상기 제1 적합도로 학습하여, 상기 신경망 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
상기 제1-1 적합도는 상기 제1-2 적합도보다 높은 값으로 설정되는 것을 특징으로 하는,
적합도 측정을 위한 신경망 모델 구축 방법.
타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 장치에 있어서,
하나 이상의 인스트럭션들(instructions)을 포함하는 메모리; 및
상기 하나 이상의 인스트럭션들을 실행함으로써,
학습 데이터로 사전 학습된(pre-trained) 복수의 소스 모델(source model) 각각의 적합도를 측정하는 신경망 기반의 적합도 측정 모델을 구축하고, 상기 타깃 도메인의 데이터를 상기 적합도 측정 모델에 입력하여 상기 복수의 소스 모델 각각의 적합도를 출력하되, 상기 타깃 도메인의 데이터는 상기 학습 데이터가 속한 도메인과 상이한 도메인의 데이터이고, 상기 복수의 소스 모델 중에서 상기 출력된 적합도가 최대인 소스 모델을 상기 타깃 도메인으로의 상기 전이 학습에 이용될 기반 모델로 결정하는 프로세서를 포함하는 것을 특징으로 하는,
전이 학습을 위한 기반 모델 결정 장치.