KR102439606B1 - 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치 - Google Patents

전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치 Download PDF

Info

Publication number
KR102439606B1
KR102439606B1 KR1020180130616A KR20180130616A KR102439606B1 KR 102439606 B1 KR102439606 B1 KR 102439606B1 KR 1020180130616 A KR1020180130616 A KR 1020180130616A KR 20180130616 A KR20180130616 A KR 20180130616A KR 102439606 B1 KR102439606 B1 KR 102439606B1
Authority
KR
South Korea
Prior art keywords
model
fitness
source
data
learning
Prior art date
Application number
KR1020180130616A
Other languages
English (en)
Other versions
KR20200048474A (ko
Inventor
추진호
이정선
박민아
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020180130616A priority Critical patent/KR102439606B1/ko
Priority to US16/668,084 priority patent/US11734571B2/en
Publication of KR20200048474A publication Critical patent/KR20200048474A/ko
Application granted granted Critical
Publication of KR102439606B1 publication Critical patent/KR102439606B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델을 결정하는 방법이 제공된다. 컴퓨팅 장치에 의하여 수행되는 상기 방법은, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 적합도를 측정하는 신경망 모델을 구축하는 단계, 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 적합도를 측정하는 단계 및 상기 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 단계를 포함할 수 있다.

Description

전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치{METHOD FOR DETERMINING A BASE MODEL FOR TRANSFER LEARNING AND APPARATUS FOR SUPPORTING THE SAME}
본 발명은 전이 학습(transfer learning)을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치에 관한 것이다. 보다 자세하게는, 전이 학습의 학습 효과를 향상시키기 위해, 사전 학습된(pre-trained) 복수의 소스 모델(source model) 중에서 타깃 도메인(target domain)으로의 전이 학습에 가장 적합한 모델을 상기 전이 학습의 기반 모델로 결정하는 방법 및 그 방법을 지원하는 장치에 관한 것이다.
대부분의 기계 학습(machine learning) 기법들은 학습 데이터셋과 실제 데이터셋이 같은 특징과 분포를 가지는 경우에만 효율적이다. 따라서, 목적 도메인 또는 목적 태스크가 달라지면, 목적 도메인 또는 목적 태스크에 대한 학습 데이터셋을 다시 수집하거나 생성한 다음, 새롭게 기계 학습 모델을 구축하여야 한다.
그러나, 현실 세계의 일부 도메인에서는, 학습 데이터셋을 새로 수집하거나 생성(e.g. 라벨링 작업)하는데 비용이 매우 많이 들거나 불가능한 경우가 있다. 가령, 의료 도메인에서 환자의 방사선 이미지로부터 병변의 위치를 예측하는 모델을 구축하는 경우를 가정해보자. 이와 같은 경우, 의료 도메인에 병변의 위치가 태깅된 대량의 방사선 이미지는 거의 존재하지 않기 때문에, 상기 예측 모델의 학습 데이터셋을 확보하는 것은 불가능하다. 또한, 방사선 이미지에 병변의 위치를 태깅(tagging)하기 위해서는, 방사선 전문의와 같은 전문 인력이 도움이 필수적이다. 따라서, 학습 데이터셋을 직접 생성하기 위해서는 상당히 많은 비용이 소모된다.
학습 데이터셋을 새로 수집하거나 생성하는데 드는 비용을 줄이기 위한 방편으로 지식 이전(knowledge transfer) 혹은 전이 학습(transfer learning)이 활용될 수 있다.
도 1 및 도 2에 도시된 바와 같이, 일반적인 기계 학습 기법은 각각의 도메인에 속한 데이터셋(1, 3)을 이용하여 해당 도메인에 적용될 모델(5, 7)을 구축한다. 반면, 전이 학습은 다른 도메인의 데이터셋(11)으로 사전 학습된 소스 모델(15)의 지식(e.g. 학습된 가중치 값)을 이전 받아 타깃 도메인에 적용될 타깃 모델(17)을 구축한다는 점에서, 일반적인 기계 학습 기법과는 차이가 있다.
전이 학습이 수행된 이후, 모델의 성능 향상을 위해 타깃 도메인에 속한 데이터셋(13)으로 타깃 모델(17)에 대한 미세 조정(fine-tuning)이 수행될 수 있다. 이때, 미세 조정은 소량의 데이터셋(13)으로도 가능하기 때문에, 전이 학습을 활용하면 라벨링(labeling)에 소요되는 비용이 획기적으로 절감될 수 있다.
위와 같은 장점이 있는 반면, 전이 학습에는 명확한 한계점도 존재하는데, 그것은 바로 타깃 모델의 성능이 사전 학습된 소스 모델에 크게 의존한다는 점이다. 즉, 타깃 도메인에 적합하지 않은 소스 모델을 기반으로 타깃 모델을 구축하게 되면, 타깃 모델의 성능이 크게 저하될 수 있다는 단점이 있다.
그러나, 다수의 소스 모델이 존재하는 경우, 어떤 소스 모델이 타깃 도메인에 가장 적합한지를 판단하는 것은 쉽지 않은 문제이다. 상기 문제를 해결하기 위한 종래의 접근 방식은 모든 소스 모델을 기반 모델로 이용하여 실제 학습을 시도해보는 나이브(na
Figure 112018107198683-pat00001
ve)한 방식이었다. 즉, 종래의 경우, 각각의 소스 모델에 대해 추가 학습(e.g. 미세 조정)을 진행하고, 타깃 도메인의 데이터셋으로 성능 평가를 수행하여, 가장 우수한 성능을 보이는 소스 모델을 타깃 모델로 활용하였다.
위와 같은 종래의 방식은, 모든 소스 모델에 대해 추가 학습을 수행하기 위해 매우 많은 시간 비용 및 컴퓨팅 비용이 소모되는 문제가 있으며, 무엇보다 성능이 우수한 것으로 평가된 소스 모델이 실제로 타깃 도메인에 적용되면, 예측했던 성능이 나오지 않는 경우가 빈번하였다.
따라서, 다수의 소스 모델이 존재하는 환경에서, 타깃 도메인에 가장 적합한 소스 모델을 정확하게 선정함으로써, 보다 적은 비용으로 보다 성능이 우수한 타깃 모델을 구축할 수 있는 방법이 요구된다.
한국공개특허 제10-2016-0143512호 (2016.12.14 공개)
본 발명이 해결하고자 하는 기술적 과제는, 다수의 소스 모델 중 전이 학습의 기반이 될 모델을 정확하게 결정하는 방법 및 그 방법을 지원하는 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 상기 기반 모델을 정확하게 결정하기 위해, 사전 학습된 소스 모델의 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 방법 및 그 방법을 지원하는 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 전이 학습을 위한 기반 모델 결정 방법은, 컴퓨팅 장치에 의하여 타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 방법에 있어서, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 단계, 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하는 단계 및 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 신경망 모델을 구축하는 단계는, 제1 소스 모델의 특징 추출 레이어와 연동하여 학습 데이터의 특징 값을 추출하는 단계 및 상기 특징 값을 미리 설정된 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 신경망 모델을 구축하는 단계는, 제1 소스 모델이 사전에 학습한 제1 데이터를 제1 적합도로 학습하여, 상기 신경망 모델의 가중치를 조정하는 단계 및 제1 소스 모델이 사전에 학습하지 않은 제2 데이터를 제2 적합도로 학습하여, 상기 신경망 모델의 가중치를 조정하는 단계를 포함하되, 상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정될 수 있다.
일 실시예에서, 상기 신경망 모델을 구축하는 단계는, 상기 복수의 소스 모델 각각의 특징 추출 레이어와 연동하여 학습 데이터에 대한 복수의 특징 값을 추출하는 단계, 상기 복수의 특징 값을 종합(aggregating)하는 단계 및 상기 종합된 특징 값을 상기 복수의 소스 모델 별로 미리 설정된 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함할 수 있다.
상기 기술적 과제를 해결하기 위한, 본 발명의 다른 실시예에 따른 전이 학습 적합도를 측정하는 신경망 모델 구축 방법은, 컴퓨팅 장치에 의하여 사전 학습된(pre-trained) 소스 모델(source model)의 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 방법에 있어서, 상기 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하는 단계, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계 및 상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함하되, 상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정될 수 있다.
일 실시예에서, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는, 상기 소스 모델의 특징 추출 레이어와 연동하여 상기 제1 데이터의 특징 값을 추출하는 단계, 상기 특징 값을 상기 신경망 모델에 입력하여 상기 특징 값에 대한 예측 적합도를 획득하는 단계 및 상기 제1 적합도와 상기 예측 적합도 간의 오차를 역전파함으로써, 상기 신경망 모델의 가중치를 조정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 소스 모델은 제1 소스 모델이고, 상기 학습 데이터셋은 제2 소스 모델이 사전 학습한 제3 데이터를 더 포함하되, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는, 상기 제1 소스 모델의 특징 추출 레이어로부터 추출된 상기 제1 데이터의 특징을 상기 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함하고, 상기 제2 소스 모델의 특징 추출 레이어로부터 추출된 상기 제3 데이터의 특징을 제3 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 더 포함하며, 상기 제1 적합도는 상기 제3 적합도보다 높은 값으로 설정될 수 있다.
일 실시예에서, 상기 소스 모델은 제1 소스 모델이고, 상기 제1 적합도는 상기 제1 소스 모델에 대하여 설정된 제1-1 적합도와 제2 소스 모델에 대하여 설정된 제1-2 적합도를 포함하며, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는, 상기 제1 소스 모델의 특징 추출 레이어로부터 상기 제1 데이터의 제1 특징 값을 추출하는 단계, 상기 제2 소스 모델의 특징 추출 레이어로부터 상기 제1 데이터의 제2 특징 값을 추출하는 단계, 상기 제1 특징 값과 상기 제2 특징 값을 종합하는 단계 및 상기 종합된 특징 값을 상기 제1 적합도로 학습하여, 상기 신경망 모델의 가중치를 조정하는 단계를 포함하되, 상기 제1-1 적합도는 상기 제1-2 적합도보다 높은 값으로 설정될 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 전이 학습을 위한 기반 모델 결정 장치는, 타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 장치에 있어서, 하나 이상의 인스트럭션들(instructions)을 포함하는 메모리 및 상기 하나 이상의 인스트럭션들을 실행함으로써, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하고, 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하며, 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 프로세서를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 전이 학습을 위한 기반 모델 결정 장치는, 타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 장치에 있어서, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 적합도 측정 모델 구축부 및 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하며, 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 기반 모델 결정부를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 장치는, 사전 학습된(pre-trained) 소스 모델(source model)의 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 장치에 있어서, 하나 이상의 인스트럭션들(instructions)을 포함하는 메모리 및 상기 하나 이상의 인스트럭션들을 실행함으로써, 상기 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하고, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하며, 상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 프로세서를 포함하되, 상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정될 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하는 단계, 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하는 단계 및 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 단계를 실행시키기 위하여, 컴퓨터로 판독가능한 기록매체에 저장될 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하는 단계, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계 및 상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 실행시키기 위하여, 컴퓨터로 판독가능한 기록매체에 저장될 수 있다. 이때, 상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정될 수 있다.
도 1 및 도 2는 전이 학습의 개념을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 학습 장치의 입력 및 출력을 개략적으로 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 학습 장치를 나타내는 예시적인 블록도이다.
도 5는 본 발명의 일 실시예에 따른 전이 학습을 위한 기반 모델 결정 방법을 나타내는 예시적인 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 전이 학습 적합도를 측정하는 신경망 모델 구축 방법을 나타내는 예시적인 흐름도이다.
도 7 내지 도 11은 본 발명의 제1 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 12는 본 발명의 제2 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 13 및 도 14는 본 발명의 제3 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 15는 본 발명의 제4 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 16은 본 발명의 제5 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 17은 본 발명의 제6 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 18은 본 발명의 일 실시예에 따른 학습 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 나타내는 하드웨어 구성도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.
본 명세서에서, 소스 도메인(source domain)이란, 전이 학습(transfer learning)의 출발지 도메인이다. 즉, 전이 학습을 통해 소스 도메인에서 학습된 지식이 타깃 도메인으로 전이될 수 있다. 일반적으로, 소스 도메인은 다수의 학습 데이터셋을 용이하게 확보할 수 있는 도메인일 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.
본 명세서에서, 소스 모델(source model)이란, 상기 소스 도메인에 속한 데이터셋을 학습하여 구축된 사전 학습(pre-trained) 모델이다.
본 명세서에서, 타깃 도메인(target domain)이란, 전이 학습의 목적지 도메인이자 전이 학습을 통해 목적 태스크를 수행하고자 하는 도메인이다. 즉, 전이 학습을 통해 소스 도메인에서 학습된 지식이 타깃 도메인으로 전이될 수 있다. 일반적으로, 상기 타깃 도메인은, 의료 도메인과 같이, 학습 데이터셋을 용이하게 확보하기 어려운 도메인이 될 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다. 가령, 학습 데이터셋을 용이하게 확보할 수 있는 도메인이라 할지라도, 학습에 소모되는 시간 및 컴퓨팅 비용을 줄이거나 테스팅 목적으로 전이 학습이 이용될 수 있다.
본 명세서에서, 타깃 데이터셋(target dataset)이란, 타깃 도메인에 속한 데이터셋이다. 상기 타깃 데이터셋은 다수의 소스 모델 중에서 전이 학습의 기반 모델을 결정하거나 상기 타깃 모델을 추가 학습(e.g. 미세 조정)하기 위해 이용될 수 있다.
본 명세서에서, 타깃 모델(target model)이란, 타깃 도메인에서 목적 태스크(e.g. 분류 태스크)를 수행하는 모델이자, 전이 학습을 통해 구축하고자 하는 목표 모델이다.
본 명세서에서, 인스트럭션(instruction)은 기능을 기준으로 묶인 일련의 명령어들로서 컴퓨터 프로그램의 구성 요소이자 프로세서에 의해 실행되는 것을 가리킨다.
이하, 본 발명의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
도 3은 본 발명의 일 실시예에 따른 학습 장치(200)의 입력 및 출력을 개략적으로 설명하기 위한 도면이다.
도 3에 도시된 바와 같이, 학습 장치(200)는 전이 학습을 통해 복수의 소스 모델(21)로부터 타깃 모델(27)을 구축하는 컴퓨팅 장치이다. 여기서, 상기 컴퓨팅 장치는 노트북, 데스크톱(desktop), 랩탑(laptop) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 상기 컴퓨팅 장치의 일 예는 도 18을 참조하도록 한다.
보다 구체적으로, 학습 장치(200)는 복수의 소스 모델(21), 학습 데이터셋(23)과 타깃 데이터셋(25)을 입력으로 하여 타깃 모델(27)을 구축할 수 있다.
본 발명의 실시예에 따르면, 학습 장치(200)는 소스 모델(21)과 학습 데이터셋(23)을 이용하여 각 소스 모델의 전이 학습 적합도(이하, "적합도"로 약칭함)를 측정하는 신경망 모델(이하, "적합도 측정 모델"로 칭함)을 구축할 수 있다. 이때, 학습 데이터셋(23)은 소스 모델(21)의 사전 학습에 이용된 제1 데이터와 상기 사전 학습에 이용되지 않은 제2 데이터를 포함한다. 보다 구체적으로, 학습 장치(200)는 상기 제1 데이터를 높은 적합도 값으로 학습하고, 상기 제2 데이터를 낮은 적합도 값으로 학습하여 상기 제1 소스 모델에 대한 적합도 측정 모델을 구축할 수 있다. 이렇게 구축된 적합도 측정 모델은 상기 제1 데이터와 유사한 특성을 가진 데이터가 입력되면, 높은 적합도 값을 출력하고, 반대의 경우 낮은 적합도 값을 출력하게 된다. 따라서, 상기 적합도 측정 모델은 타깃 데이터셋(25)이 상기 제1 데이터와 유사한 특성을 갖는지(즉, 상기 제1 소스 모델이 전이 학습에 얼마나 적합한지)를 판단할 수 있다. 이와 같은 실시예에 한하여, 학습 장치(200)는 신경망 모델 구축 장치(200)로 명명될 수도 있다. 본 실시예에 대한 자세한 설명은 도 4, 도 6 내지 도 17을 참조하여 후술하도록 한다.
또한, 본 발명의 실시예에 따르면, 학습 장치(200)는 전술한 실시예에 따라 구축된 적합도 측정 모델을 이용하여 복수의 소스 모델(21) 중에 타깃 모델(27)의 기반이 될 기반 모델(base model)을 결정할 수 있다. 가령, 학습 장치(200)는 적합도 측정 모델을 통해 복수의 소스 모델(21) 각각의 적합도를 측정하고, 적합도가 가장 높은 소스 모델을 상기 기반 모델로 결정할 수 있다. 이와 같은 실시예에 한하여, 학습 장치(200)을 기반 모델 결정 장치(200)로 명명될 수도 있다. 본 실시예에 대한 자세한 설명 또한 추후 도 4 및 도 5를 참조하여 후술하도록 한다.
학습 장치(200)의 구성 및 동작에 대한 보다 자세한 설명은 도 4 이하의 도면을 참조하여 후술하도록 한다.
참고로, 도 3은 학습 장치(200)가 하나의 물리적 컴퓨팅 장치로 구현된 것을 예로써 도시하고 있으나, 실제 물리적 환경에서 학습 장치(200)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다.
또한, 프로세스의 신속한 처리를 위해 학습 장치(200)는 복수의 프로세서(e.g. GPU)를 통해 병렬 처리를 수행할 수 있으며, 복수의 컴퓨팅 장치를 포함하는 분산 시스템으로 구현될 수도 있다.
지금까지 도 3을 참조하여 본 발명의 일 실시예에 따른 학습 장치(200)의 입력 및 출력에 대하여 설명하였다. 이하에서는, 학습 장치(200)의 구성 및 동작에 대하여 도 4를 참조하여 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 학습 장치(200)를 나타내는 예시적인 블록도이다.
도 4를 참조하면, 학습 장치(200)는 소스 모델 획득부(210), 적합도 측정 모델 구축부(230), 기반 모델 결정부(250) 및 타깃 모델 구축부(270)를 포함할 수 있다. 다만, 도 4에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 4에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다. 또한, 도 4에 도시된 학습 장치(200)의 각각의 구성 요소들은 기능적으로 구분되는 기능 요소들을 나타낸 것으로서, 복수의 구성 요소가 실제 물리적 환경에서는 서로 통합되는 형태로 구현될 수도 있음에 유의한다. 이하, 학습 장치(200)의 각 구성 요소에 대하여 설명한다.
소스 모델 획득부(210)는 사전 학습된 복수의 소스 모델(21)을 획득한다. 소스 모델 획득부(210)가 복수의 소스 모델(21)을 획득하는 방식은 어떠한 방식이 되더라도 무방하다. 실시예에 따라, 소스 모델 획득부(210)는 소스 도메인의 데이터셋을 학습하여 직접 소스 모델(21)을 구축할 수도 있다.
다음으로, 적합도 측정 모델 구축부(230)는 타깃 도메인에 대한 소스 모델(21)의 적합도를 측정할 수 있는 적합도 측정 모델을 구축한다. 상기 적합도 측정 모델의 구조 및 그 모델의 구축 방법에 관한 다양한 실시예는 도 7 내지 도 17의 도면을 참조하여 상세하게 설명하도록 한다.
다음으로, 기반 모델 결정부(250)는 상기 적합도 측정 모델을 이용하여 복수의 소스 모델(21) 중 타깃 모델의 기반이 될 기반 모델을 결정한다. 보다 구체적으로, 기반 모델 결정부(250)는 목적 태스크와 연관된 타깃 데이터셋(25)을 상기 적합도 측정 모델에 입력하여, 복수의 소스 모델(21) 각각에 대한 적합도를 측정한다. 또한, 기반 모델 결정부(250)는 각 소스 모델(21)의 적합도에 기초하여 타깃 모델(27)의 기반 모델을 결정한다.
전술한 바와 같이, 상기 적합도는 소스 모델(21)이 타깃 도메인으로의 전이 학습에 얼마나 적합한지를 가리키는 값이며, 특정 소스 모델이 전이 학습에 적합하다는 것은 상기 특정 소스 모델이 타깃 데이터셋(25)과 유사한 특성을 갖는 데이터로 사전 학습되었다는 것을 의미한다.
다음으로, 타깃 모델 구축부(270)는 결정된 기반 모델을 기초로 목적 태스크를 수행할 타깃 모델(27)을 구축한다. 가령, 타깃 모델 구축부(270)는 타깃 데이터셋(25)으로 상기 기반 모델을 미세 조정함으로써, 타깃 모델(27)을 구축할 수 있다.
한편, 도 4에 도시된 모든 구성 요소가 학습 장치(200)를 구현하기 위한 필수적인 구성 요소는 아닐 수도 있음에 유의하여야 한다. 가령, 본 발명의 다른 실시예에 따른 학습 장치(200)는 도 4에 도시된 구성 요소 중 일부만으로 구현될 수도 있다.
또한, 도 4에 도시된 구성 요소 중 제1 구성 요소는 제1 컴퓨팅 장치로 구현되고, 제2 구성 요소는 제2 컴퓨팅 장치로 구현될 수도 있다. 가령, 소스 모델 획득부(210)와 타깃 모델 구축부(270)는 별개의 컴퓨팅 장치로 구현될 수도 있다.
도 4에 도시된 학습 장치(200)의 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 상기 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.
이하에서는, 도 5 내지 도 17을 참조하여 본 발명의 다양한 실시예들에 따른 방법들에 대하여 설명하도록 한다.
이하에서 후술될 본 발명의 다양한 실시예들에 따른 방법들의 각 단계는, 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 방법들의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 상기 방법들에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나 상기 방법들의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법들의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 이해의 편의를 제공하기 위해, 상기 방법들의 각 단계가 학습 장치(200)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다.
도 5는 본 발명의 일 실시예에 따른 전이 학습을 위한 기반 모델 결정 방법을 나타내는 예시적인 흐름도이다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.
도 5에 도시된 바와 같이, 상기 기반 모델 결정 방법은 적합도 측정 모델을 구축하는 단계 S10에서 시작된다. 상기 적합도 측정 모델은, 전술한 바와 같이, 각 소스 모델의 적합도를 측정하는 신경망 모델을 의미한다.
본 단계 S10에서, 적합도 측정 모델을 구축하는 자세한 방법은 실시예에 따라 달라질 수 있는데, 이에 대한 자세한 설명은 도 6 내지 도 17을 참조하여 후술하도록 한다.
단계 S30에서, 학습 장치(200)는 적합도 측정 모델을 이용하여 복수의 소스 모델 각각의 적합도를 측정한다. 구체적으로, 학습 장치(200)는 주어진 타깃 데이터셋(e.g. 도 1의 25)을 적합도 측정 모델에 입력하여 각 소스 모델 별로 적합도를 측정한다. 여기서, 상기 측정된 적합도는 상기 적합도 측정 모델에 의해 출력된 컨피던스 스코어(confidence score) 또는 상기 컨피던스 스코어를 기초로 가공된 값이 될 수 있다.
몇몇 실시예에서, 타깃 데이터셋이 복수개의 데이터로 구성된 경우, 학습 장치(200)는 복수의 데이터에 대한 적합도 값의 평균 또는 가중 평균 등을 통해 각 소스 모델의 최종 적합도를 산출할 수 있다. 이때, 상기 가중 평균에 이용되는 가중치는 예를 들어 데이터의 품질(e.g. 해상도 등), 유형, 중요도 등에 따라 차등적으로 결정될 수도 있다. 예를 들어, 고품질의 데이터에 더 높은 가중치가 부여되거나, 중요 데이터에 더 높은 가중치가 부여될 수 있다. 다른 예를 들어, 제1 데이터가 타깃 도메인의 원본 데이터이고 제2 데이터는 상기 원본 데이터에 확장(augmentation) 기법을 적용하여 생성된 가공 데이터인 경우, 상기 제1 데이터에 더 높은 가중치가 부여될 수 있다. 상기 데이터 확장 기법의 예로는 크롭(crop), 회전(rotate), 플립(flip), 지터링(jittering), 스케일링(scaling) 등을 포함할 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.
단계 S50에서, 학습 장치(200)는 측정된 적합도를 기초로 전이 학습에 이용될 기반 모델을 결정한다. 보다 구체적으로, 학습 장치(200)는 지정된 조건을 만족하는 소스 모델을 기반 모델로 결정할 수 있는데, 상기 지정된 조건은 실시예에 따라 얼마든지 달라질 수 있다. 가령, 학습 장치(200)는 적합도가 가장 높은 소스 모델, 적합도가 임계치 이상이 되는 소스 모델, 적합도가 높은 상위 n(단, n은 1 이상의 자연수)개의 소스 모델 등을 기반 모델로 결정할 수 있다.
상기 지정된 조건에 따라 기반 모델이 복수개로 결정된 경우, 학습 장치(200)는 각 기반 모델을 이용하여 복수개의 후보 모델을 구축하고, 후보 모델에 대한 성능 평가(e.g. cross-validation)을 통해 실제 타깃 도메인에 활용될 타깃 모델을 결정할 수도 있다.
몇몇 실시예에서, 학습 장치(200)는 단계 S70를 더 수행할 수 있다.
단계 S70에서, 학습 장치(200)는 타깃 데이터셋(e.g. 도 1의 25)으로 기반 모델을 미세 조정하여 타깃 모델을 구축한다. 상기 타깃 모델은, 전술한 바와 같이, 타깃 도메인에서 목적 태스크를 수행할 기계 학습 모델이다. 본 단계 S70의 타깃 데이터셋은 단계 S30에서 적합도 측정을 위해 입력되는 데이터셋과 적어도 일부는 동일할 수 있고, 상이할 수도 있다.
참고로, 전술한 단계 S10 내지 S70 중에서, 단계 S10는 적합도 측정 모델 구축부(230)에 의해 실행되고, 단계 S30 및 S50은 기반 모델 결정부(250)에 의해 실행되며, 단계 S70은 타깃 모델 구축부(270)에 의해 실행될 수 있다.
지금까지 도 5를 참조하여 본 발명의 일 실시예에 따른 전이 학습을 위한 기반 모델 결정 방법에 대하여 설명하였다. 상술한 방법에 따르면, 소스 모델 별로 측정된 적합도에 기반하여 기반 모델이 결정될 수 있다. 따라서, 종래와 같이, 모든 소스 모델에 대해 타깃 모델의 구축을 시도하는 비효율성이 제거될 수 있다. 나아가, 적합도에 기반하여 타깃 데이터셋과 유사한 특성을 가진 데이터셋을 학습한 소스 모델이 전이 학습의 기반 모델로 결정되는 바, 저렴한 비용으로 고성능의 타깃 모델이 구축될 수 있다.
이하에서는, 도 6 내지 도 17을 참조하여 단계 S10에서 적합도 측정 모델을 구축하는 방법과 연관된 다양한 실시예에 대하여 설명하도록 한다.
도 6은 본 발명의 일 실시예에 따른 전이 학습 적합도를 측정하는 신경망 모델 구축 방법의 기본 흐름을 나타내는 예시적인 흐름도이다.
도 6에 도시된 바와 같이, 적합도 측정 모델을 구축하는 기본 원리는 특정 소스 모델이 사전에 학습한 제1 데이터와 학습하지 않은 제2 데이터를 서로 다른 적합도 값으로 학습하는 것이다. 상기 학습을 통해, 적합도 측정 모델은 주어진 타깃 데이터셋이 상기 특정 소스 모델이 학습한 데이터와 유사한지 여부를 측정할 수 있게 된다. 또한, 특정 소스 모델이 타깃 데이터셋과 유사한 데이터를 학습했다는 것은 곧 상기 특정 소스 모델이 전이 학습에 적합하다는 것을 의미하므로, 적합도 측정 모델의 출력 값이 전이 학습 적합도로 활용될 수 있는 것이다.
도 6을 참조하여 부연 설명하면, 상기 신경망 모델 구축 방법은 학습 데이터셋을 획득하는 단계 S110에서 시작된다. 이때, 상기 학습 데이터셋은 소스 모델의 사전 학습에 이용된 제1 데이터와 이용되지 않은 제2 데이터를 포함한다.
단계 S130에서, 상기 제1 데이터를 이용하여 적합도 측정 모델이 학습된다. 가령, 상기 제1 데이터가 제1 소스 모델이 사전 학습한 데이터이고, 상기 제1 소스 모델에 대한 제1 적합도 측정 모델을 구축한다고 가정하면, 학습 장치(200)는 상대적으로 높은 적합도(e.g. 1)로 상기 제1 데이터를 학습하게 된다. 그렇게 함으로써, 제1 적합도 측정 모델은 상기 제1 데이터와 유사한 특성을 가진 타깃 데이터셋에 대해, 높은 적합도 값을 출력하게 된다.
단계 S150에서, 상기 제2 데이터를 이용하여 적합도 측정 모델이 학습된다. 가령, 상기 제2 데이터가 제1 소스 모델이 사전 학습하지 않은 데이터이고, 상기 제1 소스 모델에 대한 제1 적합도 측정 모델을 구축한다고 가정하면, 학습 장치(200)는 상대적으로 낮은 적합도(e.g. 0)로 상기 제2 데이터를 학습한다. 그렇게 함으로써, 제1 적합도 측정 모델은 상기 제2 데이터와 유사하지 않은 특성을 가진 타깃 데이터셋에 대해, 낮은 적합도 값을 출력하게 된다.
모든 학습 데이터셋에 대하여, 단계 S130 및 S150이 반복 수행됨에 따라 적합도 측정 모델이 구축될 수 있다.
전술한 단계 S110 내지 S150는 적합도 측정 모델을 구축하기 위한 기본 흐름만을 도시하고 있고, 상기 적합도 측정 모델을 구축하는 상세 과정은 모델의 구조에 달라지게 된다. 보다 이해의 편의를 제공하기 위해, 도 7 내지 도 17에 도시된 적합도 측정 모델의 구조를 참조하여 각 모델의 구축 방법에 대하여 상세하게 설명하도록 한다.
본 발명의 다양한 실시예들에 따르면, 적합도 측정 모델은 각 소스 모델마다 구축(즉, 1:1 관계)될 수 있고, 복수의 소스 모델의 적합도를 한번에 측정하도록 구축(즉, 다:1 관계)될 수도 있다. 먼저, 각 소스 모델마다 적합도 측정 모델이 구축되는 실시예들에 대하여 도 7 내지 도 15를 참조하여 설명하도록 한다.
도 7 내지 도 11을 참조하여 본 발명의 제1 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명한다.
도 7는 본 발명의 일 실시예에 따른 적합도 측정 모델(35)의 기본적인 학습 구조를 도시한다.
도 7에 도시된 바와 같이, 적합도 측정 모델(35)은 소스 모델(30)과 데이터셋(37, 39)을 이용하여 학습될 수 있다. 이때, 소스 모델(30)은 데이터셋(37, 39)에서 특징 값을 추출하기 위해 이용된다. 보다 이해의 편의를 제공하기 위해, 소스 모델(30)에 대하여 간략하게 설명한다.
소스 모델(30)은 특징 추출 레이어(31)와 출력 레이어(33)을 포함하는 기계 학습 모델이다. 특징 추출 레이어(31)는 입력된 데이터에서 특징을 추출하는 레이어인데, 추출되는 특징은 주어진 학습 데이터셋의 기계 학습을 통해 자동으로 결정된다. 즉, 학습을 통해 특징 추출 레이어(31)의 가중치가 조정 및 갱신됨에 따라, 특징 추출 레이어(31)는 특정 태스크를 수행하기 위한 최적의 특징을 자동으로 추출할 수 있게 된다.
출력 레이어(33)는 특징 추출 레이어(31)에 의해 추출된 특징에 기반하여 상기 특정 태스크의 결과 값을 출력하는 레이어이다. 가령, 제1 소스 모델(30)이 분류 태스크를 수행하는 모델인 경우, 상기 결과 값은 분류 결과를 나타내는 각 클래스 별 컨피던스 스코어가 될 수 있다.
특징 추출 레이어(31)와 출력 레이어(33)의 몇몇 예시는 도 8 및 도 9에 도시되어 있다.
일 예시에서, 도 8에 도시된 바와 같이, 소스 모델(30)이 컨볼루션 신경망 모델인 경우, 특징 추출 레이어(31)는 컨볼루션 연산을 통해 입력된 이미지에서 특징 맵(feature map) 또는 액티베이션 맵(activation map)을 추출하는 레이어(41)가 될 수 있다. 이때, 레이어(41)에는 적어도 하나의 컨볼루션 레이어와 풀링 레이어가 포함될 수 있다. 또한, 출력 레이어(33)는 소프트맥스(softmax) 등의 연산을 통해 특징 맵을 종합하여 클래스 별 컨피던스 스코어를 출력하는 레이어(43)가 될 수 있다.
다른 예시에서, 도 8에 도시된 바와 같이, 소스 모델(30)이 인공 신경망 모델인 경우, 특징 추출 레이어(31)는 입력된 데이터에서 특징을 추출하는 적어도 하나의 은닉 레이어(45)가 될 수 있다. 또한, 출력 레이어(33)는 은닉 레이어(45)에서 추출된 특징에 기반하여 결과 값을 출력하는 레이어(47)가 될 수 있다. 이때, 상기 결과 값은 분류 결과를 나타내는 클래스 별 컨피던스 스코어일 수 있고, 리그레션(regression) 값일 수도 있다.
다시 도 7을 참조하면, 데이터셋(37, 39)은 소스 모델(30)이 사전에 학습한 제1 데이터(37)와 학습하지 않은 제2 데이터(39)으로 구성될 수 있다. 2가지 유형의 데이터(37, 39)를 서로 다른 적합도 값으로 학습함으로써, 적합도 측정 모델(35)은 입력된 데이터가 제1 소스 모델(30)이 학습한 데이터와 얼마나 유사한지 여부를 측정할 수 있게 된다.
몇몇 실시예에서, 제1 데이터(37)와 제2 데이터(39)의 개수를 기 설정된 비율로 구성하여 적합도 측정 모델(35)의 학습 데이터셋이 생성될 수 있다. 그렇게 함으로써, 적합도 측정 모델(35)의 학습 성능이 더욱 향상될 수 있다.
적합도 측정 모델(35)이 학습되는 과정의 예는 도 10에 도시되어 있다. 도 10에 도시된 바와 같이, 학습 장치(200)는 높은 적합도 값(e.g. 1)이 설정된 제1 데이터(37)와 낮은 적합도 값(e.g. 0)이 설정된 제2 데이터(39)의 학습 오차(e.g. gradient of loss)를 역전파(back-propagation)하여 모델(35)의 가중치를 조정하는 방식으로 학습을 수행한다.
여기서, 상기 학습은 적합도 측정 모델(35)에 대해 수행되는 것이므로, 상기 학습 오차가 특징 추출 레이어(31)까지 역전파되는 것은 아니다. 즉, 상기 학습 과정에 의해 적합도 측정 모델(35)의 가중치가 조정될 뿐, 특징 추출 레이어(31)의 가중치가 조정되는 것은 아니다.
상기 오차를 산출하기 위한 손실 함수(loss function)로는 하기의 수학식 1과 같은 크로스 엔트로피(cross entropy) 함수가 이용될 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.
Figure 112018107198683-pat00002
상기 수학식 1에서, Ld는 오차 값을 가리키고, d는 미리 설정된 적합도(즉, 정답)를 가리키며, d^는 적합도 측정 모델(35)이 출력한 예측 적합도를 가리킨다. 적합도 측정 모델(35)의 가중치는 상기 수학식 1에 의해 산출된 오차를 최소화하는 방향으로 조정 및 갱신될 수 있다.
본 발명의 실시예에 따르면, 도 10에 도시된 바와 같이, 적합도 측정 모델(35)은 데이터셋(37, 39)을 직접 입력받지 않고, 특징 추출 레이어(31)를 통해 추출된 데이터셋(37, 39)의 특징 값을 입력받아 학습을 수행한다. 구체적으로, 적합도 측정 모델(35)은 제1 데이터(37)에서 추출된 특징 값을 입력받고, 상기 특징 값에 대해 예측된 적합도를 출력한다. 또한, 상기 예측 적합도와 기 설정된 적합도(e.g. 1) 간의 오차를 역전파함으로써 모델(35)의 가중치를 조정한다. 데이터 대신 특징 값을 이용하는 이유는, 상기 특징 값은 입력 데이터를 분별하기 위해 추출된 고 수준의 추상화된 정보로써, 유사한 특성을 가진 데이터라면 유사한 특징이 추출될 것이기 때문이다. 가령, 적합도 측정 모델(35)이 특징 추출 레이어(31)로부터 추출된 특징 값을 학습하였고, 타깃 데이터셋(e.g. 도 1의 25)이 소스 모델(30)이 학습한 제1 데이터셋과 유사한 특성을 가졌다고 가정하자. 그러면, 특징 추출 레이어(31)는 상기 타깃 데이터셋으로부터 제1 데이터셋과 유사한 특징 값을 추출하게 될 것이고, 이에 따라 적합도 측정 모델(35)은 높은 적합도를 출력하게 된다. 따라서, 특징 값을 학습하면 소스 모델(30)이 타깃 도메인으로의 전이 학습에 적합한 모델이라는 것이 보다 정확하게 판별될 수 있게 된다.
도 11은 각 소스 모델(30-1 내지 30-n) 별로 적합도 측정 모델(35-1 내지 35-n)이 구축된 것을 도시하고 있다.
도 11에 도시된 바와 같이, 전술한 적합도 측정 모델(35)과 동일한 방식으로 각 소스 모델(30-1 내지 30-n)에 대한 적합도 측정 모델(35-1 내지 35-n)이 구축될 수 있다. 구체적으로, 타깃 도메인에 대한 제1 소스 모델(30-1)의 적합도를 측정하기 위해 제1 적합도 측정 모델(35-1)이 구축되고, 제n 소스 모델(30-n)의 적합도를 측정하기 제n 적합도 측정 모델(35-n)이 구축될 수 있다.
각 소스 모델(30-1 내지 30-n) 별로 적합도 측정 모델(35-1 내지 35-n)이 구축되면, 학습 장치(200)는 적합도 측정 모델(35-1 내지 35-n)의 측정 값에 기초하여 전이 학습에 활용될 기반 모델을 결정할 수 있다. 구체적으로, 학습 장치(200)는 제1 특징 추출 레이어(31)로부터 추출된 타깃 데이터셋(e.g. 도 1의 25)의 특징 값을 제1 적합도 측정 모델(35)에 입력하여, 제1 소스 모델(30)의 적합도를 측정할 수 있다. 동일하게, 제n 특징 추출 레이어(41)로부터 추출된 타깃 데이터셋(e.g 도 1의 25)의 특징 값을 제n 적합도 측정 모델(45)에 입력하여, 제n 소스 모델(30)의 적합도를 측정할 수 있다. 또한, 학습 장치(200)는 각 소스 모델 별로 측정된 적합도에 기초하여 특정 소스 모델을 상기 전이 학습의 기반 모델로 결정할 수 있다.
지금까지 도 7 내지 도 11을 참조하여 본 발명의 제1 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하였다. 이하에서는, 도 12를 참조하여 본 발명의 제2 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.
도 12는 본 발명의 제2 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정을 설명하기 위한 도면이다.
도 12에 도시된 바와 같이, 상기 제2 실시예는 출력 레이어(53)의 결과 값(e.g. 분류 결과)을 더 이용하여 적합도 측정 모델(55)을 학습한다. 즉, 적합도 측정 모델(55)은 특징 추출 레이어(51)에서 추출된 학습 데이터셋의 특징 값과 출력 레이어(53)에서 출력된 결과 값을 모델(55)의 입력 데이터로 이용하여 학습을 수행한다. 전술한 바와 같이, 상기 학습 데이터셋은 소스 모델(50)이 사전에 학습한 제1 데이터와 학습하지 않은 제2 데이터를 포함한다. 역전파를 통해 학습이 이루어지는 과정은 전술한 제1 실시예와 동일하므로, 더 이상의 설명은 생략하도록 한다.
이하에서는, 도 13 및 도 14를 참조하여 본 발명의 제3 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.
도 13에 도시된 바와 같이, 상기 제3 실시예는 복수의 소스 모델(60-1, 60-2)의 특징 추출 레이어(61-1, 61-2)와 연동하여 적합도 측정 모델을 학습하는 예에 관한 것이다.
보다 구체적으로, 제1 적합도 측정 모델(65-1)의 학습은 다음과 같은 과정으로 수행될 수 있다. 학습 장치(200)는 제1 소스 모델(60-1)로부터 추출된 제1 데이터(67-1)의 특징 값을 높은 적합도 값(e.g. 1)로 학습하여 제1 적합도 측정 모델(65-1)의 가중치를 조정한다. 이때, 제1 데이터(67-1)는 제1 소스 모델(60-1)이 사전에 학습한 데이터를 의미한다. 참고로, 도 13 이하의 도면에서 데이터를 나타내는 도형(e.g. 67-1, 67-2)에 표시된 Mk는 제k 소스 모델이 사전에 학습한 데이터라는 것을 의미한다.
다음으로, 학습 장치(200)는 제2 소스 모델(60-2)로부터 추출된 제2 데이터(67-2)의 특징 값을 낮은 적합도 값(e.g. 0)으로 더 학습하여 제1 적합도 측정 모델(65-1)의 가중치를 조정한다. 그렇게 함으로써, 제1 적합도 측정 모델(65-1)은 제1 소스 모델(60-1)이 사전에 학습한 데이터와 그렇지 않은 데이터를 더욱 명확하게 구분할 수 있게 된다. 이때, 제2 데이터(67-2)는 제2 소스 모델(60-2_이 사전에 학습한 데이터를 의미한다.
또한, 학습 장치(200)는 제1 소스 모델(60-1)이 사전에 학습하지 않은 데이터의 특징 값을 낮은 적합도 값으로 더 학습할 수도 있다. 이때, 사전에 학습하지 않은 데이터의 특징 값은 제1 특징 추출 레이어(61-1) 또는 제2 특징 추출 레이어(61-2)에서 추출될 수 있다.
몇몇 실시예에서, 제1 적합도 측정 모델(65-1)은 제2 소스 모델(60-2)로부터 추출된 제1 데이터(67-1)의 특징 값을 낮은 적합도 값으로 더 학습하여, 제1 적합도 측정 모델(65-1)의 가중치를 조정할 수도 있다. 제2 소스 모델(60-2)이 추출한 제1 데이터(67-1)의 특징 값은 제1 소스 모델(60-1)에 의해 추출된 제1 데이터(67-1)의 특징 값과 상이할 것이기 때문이다.
본 실시예에서, 제1 적합도 측정 모델(65-1)은 제1 소스 모델(60-1)의 적합도를 측정하는 모델이므로, 다른 소스 모델(e.g. 60-2) 각각에 대해서도 적합도 측정 모델이 구축될 수 있다.
한편, 도 13은 제1 적합도 측정 모델(65-1)이 2개의 소스 모델(60-1, 60-2)과 연동하여 학습되는 것을 예로써 도시하고 있으나, 제1 적합도 측정 모델(65-1)과 연동되는 소스 모델의 개수는 실시예에 따라 얼마든지 달라질 수 있다. 가령, 도 14에 도시된 바와 같이, 제1 적합도 측정 모델(75-1)은 n개(단, n은 3 이상의 자연수)의 소스 모델(70-1 내지 70-n)과 연동하여 학습될 수도 있다. 이와 같은 경우에도, 전술한 바와 동일한 방식으로 학습이 진행될 수 있다.
이하에서는, 도 15를 참조하여 본 발명의 제4 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.
도 15에 도시된 바와 같이, 상기 제4 실시예는 전술한 제2 실시예와 제3 실시예가 조합된 것이다. 구체적으로, 상기 제4 실시예에서, 제1 적합도 측정 모델(85-1)에 대한 학습은 2개 이상의 소스 모델(80-1, 80―2)과 연동하여 수행되는데, 학습 장치(200)는 특징 추출 레이어(81-1, 81-2)에서 추출된 특징 값 외에 출력 레이어(83-1, 83-2)의 결과 값을 더 이용하여 학습을 수행한다.
지금까지 도 7 내지 도 15를 참조하여 본 발명의 제1 내지 제4 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 설명하였다. 이하에서는, 제5 및 제6 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 설명하도록 한다.
상기 제5 및 제6 실시예는 복수개의 소스 모델에 대한 적합도를 한번에 측정할 수 있는 적합도 측정 모델에 관한 것이다.
먼저, 도 16을 참조하여 본 발명의 제5 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.
도 16에 도시된 바와 같이, 복수의 소스 모델(이하, n개로 가정함)에 대한 적합도를 일괄 측정하도록 학습하기 위해, n개의 소스 모델의 특징 추출 레이어(91-1 내지 91-n)와 연동하여 적합도 측정 모델(95)의 학습이 수행된다. 구체적인 학습 과정을 살펴보면 다음과 같다.
학습 데이터(99)는 특정 소스 모델이 사전 학습한 데이터 또는 학습하지 않은 데이터를 포함할 수 있다. 또한, 학습 데이터(99)에 설정된 적합도(즉, 정답 적합도)는 각 소스 모델 별 적합도(즉, 복수의 적합도 값)가 된다. 이때, 학습 데이터(99)가 제k 소스 모델이 사전에 학습한 데이터라면, 학습 데이터(99)에 설정된 소스 모델 별 적합도(즉, 정답 적합도) 중에 k번째 적합도는 높은 값(e.g. 1)으로 설정되고, 나머지 적합도는 낮은 값(e.g. 0)으로 설정될 수 있다. 물론, 학습 데이터(99)가 어떤 소스 모델도 사전 학습하지 않은 데이터라면, 모든 소스 모델의 적합도가 낮은 값으로 설정되게 된다.
본 실시예에서, 학습 장치(200)는 학습 데이터(99)를 n개의 특징 추출 레이어(91-1 내지 91-n)에 입력하여, n개의 특징 값을 추출하고, n개의 특징 값을 종합(aggregation)하여 종합 특징 값(93)을 생성한다. 이때, n개의 특징 값을 종합하는 연산은 n개의 특징 값을 연결(concatenating) 또는 병합(merging)하는 연산, 소정의 프로세싱을 통해 상기 n개의 특징 값을 기초로 새로운 특징 값으로 생성하는 연산 등을 모두 포함할 수 있다. 상기 n개의 특징 값에 대한 종합 연산은 적합도 측정 모델(95)의 입력 레이어 구조에 따라 얼마든지 달라질 수 있다.
몇몇 실시예에서, 특징 값을 종합할 때, 데이터 압축 또는 데이터 축소 기법이 활용될 수 있다. 각 특징 값은 고차원의 데이터(e.g. 고차원의 특징 맵)일 수 있기 때문에, n개의 특징 값을 그래도 종합하면 모델(95)의 입력 차원이 지나치게 커질 수 있기 때문이다. 상기 데이터 압축 또는 데이터 축소 기법은 예를 들어 GAP(global average pooling), GMP(global max pooling) 등의 풀링 기법을 포함할 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.
종합 특징 값(93)이 입력되면, 적합도 측정 모델(95)은 각 소스 모델 별 예측 적합도(97)을 출력하게 되고, 학습 장치(200)는 예측 적합도(97)와 정답 적합도와의 오차를 역전파하여 적합도 측정 모델(95)의 가중치를 조정함으로써, 학습을 수행한다. 이와 같은 방식으로 구축된 적합도 측정 모델(95)은 추후 타깃 데이터셋이 입력될 때, 각 소스 모델 별로 측정된 적합도를 출력하게 된다.
이하에서는, 도 17을 참조하여 본 발명의 제6 실시예에 따른 적합도 측정 모델과 그 모델의 구축 과정에 대하여 설명하도록 한다. 명세서의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.
도 17에 도시된 바와 같이, 상기 제6 실시예는 전술한 제5 실시예와 유사하나, 서브 레이어 별로 적합도 측정 모델(130-1 내지 130-m)이 구축된다는 점에서 차이가 있다.
보다 구체적으로, 상기 제6 실시예는, 각 소스 모델의 특징 추출 레이어(100, 110, 120)가 복수의 서브 레이어(이하, m개로 가정함)로 구성된 경우를 가정하고 있다. 이때, 상기 서브 레이어는 신경망 모델의 하나 이상의 은닉 레이어에 대응될 수 있을 것이나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.
본 실시예에서, 학습 장치(200)는 각 특징 레이어(110 내지 130)의 서브 레이어에서 추출된 특징을 종합하여 종합 특징 값을 생성하고, 상기 종합 특징 값을 학습하여 m개의 적합도 측정 모델(130-1 내지 130-m)을 구축한다. 가령, 학습 장치(200)는 복수의 제1 서브 레이어(101-1 내지 121-1)에서 추출된 특징 값을 종합하여, 제1 종합 특징 값을 생성하며, 상기 제1 종합 특징 값을 학습하여, 복수의 제1 서브 레이어에 대한 적합도를 측정하는 제1 적합도 측정 모델(130-1)을 구축할 수 있다. 동일하게, 학습 장치(200)는 복수의 제m 서브 레이어(101-m 내지 121-m)에서 추출된 특징 값을 종합하여, 제m 종합 특징 값을 생성하며, 상기 제m 종합 특징 값을 학습하여, 복수의 제m 서브 레이어에 대한 적합도를 측정하는 제m 적합도 측정 모델(130-m)을 구축할 수 있다 각 적합도 측정 모델(130-1 내지 130-m)을 구축하는 방법은 전술한 제5 실시예와 동일하므로, 이에 대한 설명은 생략하도록 한다.
본 실시예에서는, 서브 레이어 단위로 측정된 전이 학습 적합도가 전이 학습에 활용된다. 구체적으로, 학습 장치(200)는 제1 적합도 측정 모델(130-1)의 측정 값에 기반하여 복수의 제1 서브 레이어(100-1 내지 120-1) 중 타깃 데이터셋에 가장 적합한 서브 레이어를 제1 기반 레이어로 결정하고, 제m 적합도 측정 모델(130-m)의 측정 값에 기반하여 복수의 제m 서브 레이어(100-m 내지 120-m) 중 타깃 데이터셋에 가장 적합한 서브 레이어를 제m 기반 레이어로 결정할 수 있다. 그러면, 학습 장치(200)는 상기 결정된 기반 레이어들의 지식(즉, 학습된 가중치)을 타깃 모델로 전이함으로써, 상기 타깃 모델을 구축할 수 있다. 본 실시예에 따르면, 소스 모델 단위가 아니라 서브 레이어 단위로 지식 전이가 이루어질 것인 바, 보다 정확한 타깃 모델이 구축될 수 있다.
지금까지 도 7 내지 도 17을 참조하여 본 발명의 다양한 실시예들에 따른 적합도 측정 모델과 그 모델의 구축 방법에 대하여 설명하였다. 상술한 방법에 따르면, 타깃 데이터셋이 주어졌을 때, 상기 타깃 데이터셋 소스 모델이 사전에 학습한 데이터와 유사한지 여부를 정확하게 판단하는 신경망 모델이 구축될 수 있다. 따라서, 상기 신경망 모델은 타깃 도메인으로의 전이 학습 적합도를 측정하는 모델로 활용될 수 있으며, 상기 신경망 모델을 통해 전이 학습의 기반이 될 모델이 정확하게 결정될 수 있다. 나아가, 타깃 모델을 구축하는 비용은 절감되고, 타깃 모델의 정확도는 향상될 수 있다.
한편, 본 발명의 기술적 사상은 전술한 실시예들에 그치지 않고, 전술한 실시예들의 다양한 조합을 더 포함할 수 있음에 유의하여야 한다. 가령, 본 발명의 다른 실시예에 따른 적합도 측정 모델은 종합 특징 값 외에 종합 결과 값을 더 이용하여 구축될 수 있고(즉, 제2 실시예와 제5 실시예의 조합), 또 다른 실시예에 따른 적합도 측정 모델은 각 서브 레이어의 개별 특징 값을 이용하여 소스 모델/서브 레이어 별로 구축될 수도 있다(즉, 제1 실시예와 제6 실시예의 조합). 이와 같이, 전술한 실시예들의 다양한 조합에 따라 적합도 측정 모델을 구축하는 방식은 일부 변형될 수 있을 것이나, 본 발명의 기술적 범위는 상기와 같은 다양한 변형을 모두 포함할 수 있음에 유의하여야 한다.
도 18은 본 발명의 일 실시예에 따른 학습 장치(200)를 구현할 수 있는 예시적인 컴퓨팅 장치(300)를 나타내는 하드웨어 구성도이다.
도 18에 도시된 바와 같이, 컴퓨팅 장치(300)는 하나 이상의 프로세서(310), 버스(350), 통신 인터페이스(370), 프로세서(310)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(330)와, 컴퓨터 프로그램(391)를 저장하는 스토리지(390)를 포함할 수 있다. 다만, 도 18에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 18에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(310)는 컴퓨팅 장치(300)의 각 구성의 전반적인 동작을 제어한다. 프로세서(310)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(310)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(300)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(330)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(330)는 본 발명의 실시예들에 따른 다양한 방법/동작들을 실행하기 위하여 스토리지(390)로부터 하나 이상의 프로그램(391)을 로드할 수 있다. 메모리는 예를 들어 RAM과 같은 비활성 메모리로 구현될 수 있으나, 본 발명의 기술적 범위가 이에 한정되는 것은 아니다.
메모리(330)에 본 발명의 실시예들에 따른 다양한 방법/동작들을 실행하기 위한 프로그램(391)이 로드되면, 메모리(330) 상에 도 4에 도시된 모듈이 로직의 형태로 구현될 수 있다.
버스(350)는 컴퓨팅 장치(300)의 구성 요소 간 통신 기능을 제공한다. 버스(350)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
통신 인터페이스(370)는 컴퓨팅 장치(300)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(370)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(370)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
스토리지(390)는 상기 하나 이상의 프로그램(391)을 비임시적으로 저장할 수 있다. 스토리지(390)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
컴퓨터 프로그램(391)은 메모리(330)에 로드될 때 프로세서(310)로 하여금 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(310)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 발명의 다양한 실시예들에 따른 방법/동작들을 수행할 수 있다.
예를 들어, 컴퓨터 프로그램(391)은 사전 학습된(pre-trained) 복수의 소스 모델(source model)에 대한 전이 학습 적합도를 측정하는 신경망 모델을 구축하고, 상기 타깃 도메인의 데이터를 상기 신경망 모델을 입력하여 상기 복수의 소스 모델 각각에 대한 전이 학습 적합도를 측정하며, 상기 전이 학습 적합도를 기초로 상기 복수의 소스 모델 중에서 상기 전이 학습에 이용될 기반 모델을 결정하는 동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(300)를 통해 전이 학습을 위한 기반 모델 결정 장치(200)가 구현될 수 있다.
다른 예를 들어, 컴퓨터 프로그램(391)은 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하고, 상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하며, 상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 이와 같은 경우, 컴퓨팅 장치(300)를 통해 전이 학습 적합도 측정을 위한 신경망 모델 구축 장치(200)가 구현될 수 있다.
지금까지 도 18을 참조하여 본 발명의 일 실시예에 따른 학습 장치(200)를 구현할 수 있는 예시적인 컴퓨팅 장치(300)의 구성 및 동작에 대하여 설명하였다.
지금까지 도 1 내지 도 18를 참조하여 본 발명의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
지금까지 도 1 내지 도 18를 참조하여 설명된 본 발명의 개념은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (21)

  1. 컴퓨팅 장치에 의하여 타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 방법에 있어서,
    학습 데이터로 사전 학습된(pre-trained) 복수의 소스 모델(source model) 각각의 적합도를 측정하는 신경망 기반의 적합도 측정 모델을 구축하는 단계;
    상기 타깃 도메인의 데이터를 상기 적합도 측정 모델에 입력하여 상기 복수의 소스 모델 각각의 적합도를 출력하되, 상기 타깃 도메인의 데이터는 상기 학습 데이터가 속한 도메인과 상이한 도메인의 데이터인, 단계; 및
    상기 복수의 소스 모델 중에서 상기 출력된 적합도가 최대인 소스 모델을 상기 타깃 도메인으로의 상기 전이 학습에 이용될 기반 모델로 결정하는 단계를 포함하는 것을 특징으로 하는,
    전이 학습을 위한 기반 모델 결정 방법.
  2. 제1 항에 있어서,
    상기 신경망 기반의 적합도 측정 모델을 구축하는 단계는,
    제1 소스 모델의 특징 추출 레이어와 연동하여 학습 데이터의 특징 값을 추출하는 단계; 및
    상기 특징 값을 미리 설정된 제1 적합도로 학습하여 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
    전이 학습을 위한 기반 모델 결정 방법.
  3. 제2 항에 있어서,
    상기 적합도 측정 모델의 가중치를 조정하는 단계는,
    상기 특징 값을 상기 제1 소스 모델의 출력 레이어에 입력하여 상기 제1 소스 모델의 결과 값을 획득하는 단계; 및
    상기 특징 값과 상기 결과 값을 상기 제1 적합도로 학습하여 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
    전이 학습을 위한 기반 모델 결정 방법.
  4. 제2 항에 있어서,
    상기 적합도 측정 모델의 가중치를 조정하는 단계는,
    상기 특징 값을 상기 적합도 측정 모델에 입력하여 상기 특징 값에 대한 예측 적합도를 획득하는 단계; 및
    상기 제1 적합도와 상기 예측 적합도 간의 오차를 역전파함으로써, 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하되,
    상기 오차 역전파를 통해 상기 특징 추출 레이어의 가중치는 조정되지 않는 것을 특징으로 하는,
    전이 학습을 위한 기반 모델 결정 방법.
  5. 제1 항에 있어서,
    상기 적합도 측정 모델을 구축하는 단계는,
    제1 소스 모델이 사전에 학습한 제1 데이터를 제1 적합도로 학습하여, 상기 적합도 측정 모델의 가중치를 조정하는 단계; 및
    제1 소스 모델이 사전에 학습하지 않은 제2 데이터를 제2 적합도로 학습하여, 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하되,
    상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정되는 것을 특징으로 하는,
    전이 학습을 위한 기반 모델 결정 방법.
  6. 제1 항에 있어서,
    상기 적합도 측정 모델을 구축하는 단계는,
    제1 소스 모델의 적합도를 측정하는 제1 적합도 측정 모델을 구축하는 단계; 및
    제2 소스 모델의 적합도를 측정하는 제2 적합도 측정 모델을 구축하는 단계를 포함하는 것을 특징으로 하는,
    전이 학습을 위한 기반 모델 결정 방법.
  7. 제6 항에 있어서,
    상기 제1 적합도 측정 모델을 구축하는 단계는,
    상기 제1 소스 모델의 제1 특징 추출 레이어와 연동하여 제1 데이터의 제1 특징을 추출하는 단계;
    상기 제1 특징을 제1 적합도로 학습하여 상기 제1 적합도 측정 모델의 가중치를 조정하는 단계;
    상기 제2 소스 모델의 제2 특징 추출 레이어와 연동하여 제2 데이터의 제2 특징을 추출하는 단계; 및
    상기 제2 특징을 제2 적합도로 학습하여 상기 제1 적합도 측정 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
    전이 학습의 기반 모델 결정 방법.
  8. 제7 항에 있어서,
    상기 제1 데이터는 상기 제1 소스 모델이 사전에 학습한 데이터이고,
    상기 제2 데이터는 상기 제2 소스 모델이 사전에 학습한 데이터이며,
    상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정되는 것을 특징으로 하는,
    전이 학습의 기반 모델 결정 방법.
  9. 제1 항에 있어서,
    상기 적합도 측정 모델을 구축하는 단계는,
    상기 복수의 소스 모델 각각의 특징 추출 레이어와 연동하여 학습 데이터에 대한 복수의 특징 값을 추출하는 단계;
    상기 복수의 특징 값을 종합(aggregating)하는 단계; 및
    상기 종합된 특징 값을 상기 학습 데이터에 미리 설정된 적합도로 학습하여 상기 적합도 측정 모델의 가중치를 조정하는 단계를 포함하되,
    상기 미리 설정된 적합도는 상기 복수의 소스 모델 각각에 대한 적합도를 포함하는 것을 특징으로 하는,
    전이 학습의 기반 모델 결정 방법.
  10. 제9 항에 있어서,
    상기 특징 추출 레이어는 제1 서브 레이어 및 제2 서브 레이어를 포함하되,
    상기 복수의 특징 값을 종합하는 단계는,
    상기 복수의 소스 모델 각각의 상기 제1 서브 레이어에서 추출된 복수의 제1 특징 값을 종합하는 단계; 및
    상기 복수의 소스 모델 각각의 상기 제2 서브 레이어에서 추출된 복수의 제2 특징 값을 종합하는 단계를 포함하고,
    상기 적합도 측정 모델의 가중치를 조정하는 단계는,
    상기 종합된 제1 특징 값을 학습하여 상기 제1 서브 레이어에 대응되는 제1 적합도 측정 모델의 가중치를 조정하는 단계; 및
    상기 종합된 제2 특징 값을 학습하여 상기 제2 서브 레이어에 대응되는 제2 적합도 측정의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
    전이 학습의 기반 모델 결정 방법.
  11. 제10 항에 있어서,
    상기 기반 모델을 선택하는 단계는,
    상기 제1 적합도 측정 모델에 의해 측정된 적합도를 기초로 상기 복수의 소스 모델을 구성하는 복수의 제1 서브 레이어 중 제1 기반 레이어를 결정하는 단계; 및
    상기 제2 적합도 측정 모델에 의해 측정된 적합도를 기초로 상기 복수의 소스 모델을 구성하는 복수의 제2 서브 레이어 중 제2 기반 레이어를 결정하는 단계를 포함하고,
    상기 제1 기반 레이어 및 상기 제2 기반 레이어를 이용하여 상기 타깃 도메인에 적용될 타깃 모델을 구축하는 단계를 더 포함하는 것을 특징으로 하는,
    전이 학습의 기반 모델 결정 방법.
  12. 제1 항에 있어서,
    상기 타깃 도메인의 데이터셋으로 상기 기반 모델을 미세 조정(fine-tuning)하여 상기 타깃 도메인에 적용될 타깃 모델을 구축하는 단계를 더 포함하는 것을 특징으로 하는,
    전이 학습의 기반 모델 결정 방법.
  13. 컴퓨팅 장치에 의하여 사전 학습된(pre-trained) 소스 모델(source model)의 적합도를 측정하는 신경망 모델을 구축하는 방법에 있어서,
    상기 소스 모델이 사전에 학습한 제1 데이터와 사전에 학습하지 않은 제2 데이터를 포함하는 학습 데이터셋을 획득하는 단계;
    상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계; 및
    상기 제2 데이터를 제2 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함하되,
    상기 제1 적합도는 상기 제2 적합도보다 큰 값으로 설정되는 것을 특징으로 하는,
    적합도 측정을 위한 신경망 모델 구축 방법.
  14. 제13 항에 있어서,
    상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는,
    상기 소스 모델의 특징 추출 레이어와 연동하여 상기 제1 데이터의 특징 값을 추출하는 단계;
    상기 특징 값을 상기 신경망 모델에 입력하여 상기 특징 값에 대한 예측 적합도를 획득하는 단계; 및
    상기 제1 적합도와 상기 예측 적합도 간의 오차를 역전파함으로써, 상기 신경망 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
    적합도 측정을 위한 신경망 모델 구축 방법.
  15. 제14 항에 있어서,
    상기 특징 추출 레이어는 컨볼루션 레이어(convolutional layer)를 포함하는 것을 특징으로 하는,
    적합도 측정을 위한 신경망 모델 구축 방법.
  16. 제14 항에 있어서,
    상기 오차 역전파를 통해 상기 특징 추출 레이어의 가중치는 조정되지 않는 것을 특징으로 하는,
    적합도 측정을 위한 신경망 모델 구축 방법.
  17. 제14 항에 있어서,
    상기 특징 값에 대한 예측 적합도를 획득하는 단계는,
    상기 특징 값을 상기 소스 모델의 출력 레이어에 입력하여 상기 소스 모델의 결과 값을 획득하는 단계; 및
    상기 특징 값과 상기 결과 값을 상기 신경망 모델에 입력하여 상기 예측 적합도를 획득하는 단계를 포함하는 것을 특징으로 하는,
    적합도 측정을 위한 신경망 모델 구축 방법.
  18. 제13 항에 있어서,
    상기 소스 모델은 제1 소스 모델이고,
    상기 학습 데이터셋은 제2 소스 모델이 사전 학습한 제3 데이터를 더 포함하되,
    상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는,
    상기 제1 소스 모델의 특징 추출 레이어로부터 추출된 상기 제1 데이터의 특징을 상기 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 포함하고,
    상기 제2 소스 모델의 특징 추출 레이어로부터 추출된 상기 제3 데이터의 특징을 제3 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 더 포함하며,
    상기 제1 적합도는 상기 제3 적합도보다 높은 값으로 설정되는 것을 특징으로 하는,
    적합도 측정을 위한 신경망 모델 구축 방법.
  19. 제13 항에 있어서,
    상기 소스 모델은 제1 소스 모델이고,
    제2 소스 모델의 특징 추출 레이어로부터 추출된 상기 제1 데이터의 특징을 제3 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계를 더 포함하되,
    상기 제1 적합도는 상기 제3 적합도보다 높은 값으로 설정되는 것을 특징으로 하는,
    전이 학습 적합도 측정을 위한 신경망 모델 구축 방법.
  20. 제13 항에 있어서,
    상기 소스 모델은 제1 소스 모델이고,
    상기 제1 적합도는 상기 제1 소스 모델에 대하여 설정된 제1-1 적합도와 제2 소스 모델에 대하여 설정된 제1-2 적합도를 포함하며,
    상기 제1 데이터를 제1 적합도로 학습하여 상기 신경망 모델의 가중치를 조정하는 단계는,
    상기 제1 소스 모델의 특징 추출 레이어로부터 상기 제1 데이터의 제1 특징 값을 추출하는 단계;
    상기 제2 소스 모델의 특징 추출 레이어로부터 상기 제1 데이터의 제2 특징 값을 추출하는 단계;
    상기 제1 특징 값과 상기 제2 특징 값을 종합하는 단계; 및
    상기 종합된 특징 값을 상기 제1 적합도로 학습하여, 상기 신경망 모델의 가중치를 조정하는 단계를 포함하는 것을 특징으로 하는,
    상기 제1-1 적합도는 상기 제1-2 적합도보다 높은 값으로 설정되는 것을 특징으로 하는,
    적합도 측정을 위한 신경망 모델 구축 방법.
  21. 타깃 도메인(target domain)으로의 전이 학습(transfer learning)에 이용될 기반 모델(base model)을 결정하는 장치에 있어서,
    하나 이상의 인스트럭션들(instructions)을 포함하는 메모리; 및
    상기 하나 이상의 인스트럭션들을 실행함으로써,
    학습 데이터로 사전 학습된(pre-trained) 복수의 소스 모델(source model) 각각의 적합도를 측정하는 신경망 기반의 적합도 측정 모델을 구축하고, 상기 타깃 도메인의 데이터를 상기 적합도 측정 모델에 입력하여 상기 복수의 소스 모델 각각의 적합도를 출력하되, 상기 타깃 도메인의 데이터는 상기 학습 데이터가 속한 도메인과 상이한 도메인의 데이터이고, 상기 복수의 소스 모델 중에서 상기 출력된 적합도가 최대인 소스 모델을 상기 타깃 도메인으로의 상기 전이 학습에 이용될 기반 모델로 결정하는 프로세서를 포함하는 것을 특징으로 하는,
    전이 학습을 위한 기반 모델 결정 장치.
KR1020180130616A 2018-10-30 2018-10-30 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치 KR102439606B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180130616A KR102439606B1 (ko) 2018-10-30 2018-10-30 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치
US16/668,084 US11734571B2 (en) 2018-10-30 2019-10-30 Method and apparatus for determining a base model for transfer learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180130616A KR102439606B1 (ko) 2018-10-30 2018-10-30 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치

Publications (2)

Publication Number Publication Date
KR20200048474A KR20200048474A (ko) 2020-05-08
KR102439606B1 true KR102439606B1 (ko) 2022-09-01

Family

ID=70326284

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180130616A KR102439606B1 (ko) 2018-10-30 2018-10-30 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치

Country Status (2)

Country Link
US (1) US11734571B2 (ko)
KR (1) KR102439606B1 (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11030722B2 (en) * 2017-10-04 2021-06-08 Fotonation Limited System and method for estimating optimal parameters
JP6929322B2 (ja) * 2019-05-31 2021-09-01 楽天グループ株式会社 データ拡張システム、データ拡張方法、及びプログラム
RU2764383C2 (ru) * 2020-06-19 2022-01-17 Акционерное общество "Лаборатория Касперского" Система и способ выбора модели описания пользователя
US11934922B2 (en) 2020-10-09 2024-03-19 International Business Machines Corporation Predictive data and model selection for transfer learning in natural language processing
US11880347B2 (en) * 2020-11-23 2024-01-23 Microsoft Technology Licensing, Llc. Tuning large data infrastructures
US20240095587A1 (en) * 2020-12-08 2024-03-21 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatuses for providing transfer learning of a machine learning model
US20220187819A1 (en) * 2020-12-10 2022-06-16 Hitachi, Ltd. Method for event-based failure prediction and remaining useful life estimation
FR3117647A1 (fr) * 2020-12-14 2022-06-17 Commissariat A L'energie Atomique Et Aux Energies Alternatives Méthode d’apprentissage automatique par transfert
WO2022153079A1 (en) * 2021-01-13 2022-07-21 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatuses for providing candidate machine learning models
US20240127114A1 (en) * 2021-01-19 2024-04-18 Imagia Cybernetics Inc. Method of and system for providing an aggregated machine learning model in a federated learning environment and determining relative contribution of local datasets thereto
KR102406458B1 (ko) * 2021-04-01 2022-06-08 (주)뤼이드 복수의 시험 도메인에 적용되는 전이요소로 학습된 인공지능 모델을 통해 사용자의 실력을 평가하는 장치, 시스템 및 그것의 동작방법
CN113095485B (zh) * 2021-04-19 2023-12-22 上海商汤科技开发有限公司 性能指标确定方法及装置、系统、电子设备和存储介质
US11863354B2 (en) 2021-05-12 2024-01-02 Nokia Technologies Oy Model transfer within wireless networks for channel estimation
US20220374810A1 (en) * 2021-05-21 2022-11-24 Healtech Software India Pvt. Ltd. Accelerating outlier prediction of performance metrics in performance managers deployed in new computing environments
CN113406496B (zh) * 2021-05-26 2023-02-28 广州市香港科大霍英东研究院 基于模型迁移的电池容量预测方法、系统、装置及介质
WO2022250153A1 (ja) * 2021-05-27 2022-12-01 京セラ株式会社 学習済みモデル生成装置、学習済みモデル生成方法、及び認識装置
EP4350614A1 (en) * 2021-05-28 2024-04-10 Kyocera Corporation Trained model generating device, trained model generating method, and recognition device
KR102406416B1 (ko) * 2021-08-20 2022-06-08 (주)뤼이드 학습 실력 평가 방법, 학습 실력 평가 장치 및 학습 실력 평가 시스템
KR20230028130A (ko) * 2021-08-20 2023-02-28 (주)뤼이드 학습 실력 평가 방법, 학습 실력 평가 장치 및 학습 실력 평가 시스템
KR102641533B1 (ko) * 2021-10-12 2024-02-27 세종대학교산학협력단 전이 학습을 이용한 이미지 분류 모델 생성 장치 및 방법
US11687252B2 (en) 2021-10-18 2023-06-27 Western Digital Technologies, Inc. Non-volatile memory with pre-trained model and inference circuit
CN114005015B (zh) * 2021-12-28 2022-05-31 合肥的卢深视科技有限公司 图像识别模型的训练方法、电子设备和存储介质
CN114048927A (zh) * 2022-01-11 2022-02-15 北京京东振世信息技术有限公司 需求量预测方法、装置、电子设备和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9324022B2 (en) * 2014-03-04 2016-04-26 Signal/Sense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
US20170038750A1 (en) * 2014-04-22 2017-02-09 Siemens Aktiengesellschaft Method, controller, and computer program product for controlling a target system
US20150301510A1 (en) * 2014-04-22 2015-10-22 Siegmund Düll Controlling a Target System
US20160358099A1 (en) 2015-06-04 2016-12-08 The Boeing Company Advanced analytical infrastructure for machine learning
KR101908680B1 (ko) * 2016-08-30 2018-10-17 주식회사 루닛 약한 지도 학습 기반의 기계 학습 방법 및 그 장치
US10282656B2 (en) * 2017-01-11 2019-05-07 Thomas Danaher Harvey Method and device for detecting unauthorized tranfer between persons
US11631236B2 (en) * 2017-03-14 2023-04-18 Samsung Electronics Co., Ltd. System and method for deep labeling
WO2018208791A1 (en) * 2017-05-08 2018-11-15 Aquifi, Inc. Systems and methods for inspection and defect detection using 3-d scanning
US10579875B2 (en) * 2017-10-11 2020-03-03 Aquifi, Inc. Systems and methods for object identification using a three-dimensional scanning system
US11710029B2 (en) * 2018-09-28 2023-07-25 Intel Corporation Methods and apparatus to improve data training of a machine learning model using a field programmable gate array
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
신준철 등., 한국어 품사 및 동형이의어 태깅을 위한 단계별 전이모델, 정보과학회논문지 소프트웨어 및 응용 39(11), 889-901pages (2012.11.)*

Also Published As

Publication number Publication date
KR20200048474A (ko) 2020-05-08
US20200134469A1 (en) 2020-04-30
US11734571B2 (en) 2023-08-22

Similar Documents

Publication Publication Date Title
KR102439606B1 (ko) 전이 학습을 위한 기반 모델 결정 방법 및 그 방법을 지원하는 장치
US10922628B2 (en) Method and apparatus for machine learning
JP6584477B2 (ja) スキップアーキテクチャ・ニューラルネットワーク装置及び改良されたセマンティックセグメンテーションのための方法
KR102052624B1 (ko) 기계 학습 방법 및 장치
KR102128056B1 (ko) 기계 학습 방법 및 장치
CN110622175B (zh) 神经网络分类
KR101908680B1 (ko) 약한 지도 학습 기반의 기계 학습 방법 및 그 장치
JP6182242B1 (ja) データのラベリングモデルに係る機械学習方法、コンピュータおよびプログラム
AU2019200270A1 (en) Concept mask: large-scale segmentation from semantic concepts
US20180268533A1 (en) Digital Image Defect Identification and Correction
CN105917354A (zh) 用于图像处理的空间金字塔池化网络
US11501153B2 (en) Methods and apparatus for training a neural network
WO2023109208A1 (zh) 小样本目标检测方法及装置
KR20180060257A (ko) 객체 인식 방법 및 장치
JPWO2019222401A5 (ko)
CN105701120A (zh) 确定语义匹配度的方法和装置
KR102046113B1 (ko) 신경망 학습 방법 및 그 장치
CN109447096B (zh) 一种基于机器学习的扫视路径预测方法和装置
CN114424252A (zh) 快速稀疏神经网络
JP2009110064A (ja) 分類モデル学習装置および分類モデル学習方法
CN114049515A (zh) 图像分类方法、系统、电子设备和存储介质
KR20210086136A (ko) 화장품 제조 및 분석을 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
JP2022185144A (ja) 対象検出方法、対象検出モデルのレーニング方法および装置
US11816185B1 (en) Multi-view image analysis using neural networks
CN116261734A (zh) 硬件加速器的神经架构缩放

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant