KR20210134153A - Method and apparatus for deep knowledge transfer via prerequisite learning - Google Patents

Method and apparatus for deep knowledge transfer via prerequisite learning Download PDF

Info

Publication number
KR20210134153A
KR20210134153A KR1020200052723A KR20200052723A KR20210134153A KR 20210134153 A KR20210134153 A KR 20210134153A KR 1020200052723 A KR1020200052723 A KR 1020200052723A KR 20200052723 A KR20200052723 A KR 20200052723A KR 20210134153 A KR20210134153 A KR 20210134153A
Authority
KR
South Korea
Prior art keywords
learning
task
network
transfer
target
Prior art date
Application number
KR1020200052723A
Other languages
Korean (ko)
Other versions
KR102425396B1 (en
Inventor
홍승범
최민국
윤지훈
Original Assignee
(주)휴톰
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)휴톰 filed Critical (주)휴톰
Priority to KR1020200052723A priority Critical patent/KR102425396B1/en
Publication of KR20210134153A publication Critical patent/KR20210134153A/en
Application granted granted Critical
Publication of KR102425396B1 publication Critical patent/KR102425396B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Devices For Executing Special Programs (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Image Analysis (AREA)

Abstract

Disclosed are a method and device for a prior learning-based transfer learning. The method for performing prior learning-based transfer learning of a convolutional deep neural network according to one embodiment may comprise: a step of performing a prior learning in a source network; a step of performing a loss-based learning for a target task in a target network; a step of performing a soft label-based self-supervised learning for an auxiliary task to transfer-receive the data priorly learned from the source network; and a step of updating a learning parameter for the target task based on the learning for the auxiliary task. Therefore, the present invention is capable of having an advantage for which the learned prior knowledge can be transmitted naturally in a learning process.

Description

선행학습기반 전이학습 방법 및 장치{METHOD AND APPARATUS FOR DEEP KNOWLEDGE TRANSFER VIA PREREQUISITE LEARNING}Prior learning-based transfer learning method and apparatus

본 발명은 선행학습기반 전이학습 방법 및 장치에 관한 것이다. 보다 상세하게는 일 실시 예에 따른 선행학습기반 전이학습 방법은, 소스 태스크의 학습 정보만 있으면 모든 타깃 태스크에 대한 지식 전이가 가능하여 구조적으로 완전한 이종 네트워크 간에도 지식 전이가 가능하게 하는 방법 및 장치에 관한 것이다.The present invention relates to a prior learning-based transfer learning method and apparatus. More specifically, the prior learning-based transfer learning method according to an embodiment is a method and apparatus for enabling knowledge transfer between structurally complete heterogeneous networks because knowledge transfer for all target tasks is possible only with learning information of the source task. it's about

전이 학습은 딥 뉴럴 네트워크를 활용한 학습 가운데 학습 데이터의 양이 충분하지 않거나 적은 시간의 학습만으로 일반화 효율을 높일 수 있는 가장 대표적인 방법이다. 대표적으로 CNN(convolutional neural network) 을 활용한 이미지넷(ImageNet) 데이터 기반 전이학습의 경우 영상물 분류를 위한 데이터를 학습하여 생성된 웨이트를 타깃 태스크의 초기값으로 활용함으로써 물체 탐지나 의미적 분할을 위한 특징 인코더로 활용하는데, 다양한 컴퓨터영상태스크에서 매우 성공적으로 적용되어 왔다. 하지만 선행학습웨이트(pretrained weight)를 초기값(initializer)으로 활용하는 전이학습의 경우 선행학습 웨이트가 학습에 대한 광역 우선권(global prior)을 갖는다고 가정하지만 실제로 적절한 초기값을 설정하는 것 이상의 사전지식이 전이학습에 관여하는지에 대해서는 의문이 제기되어 왔다.Transfer learning is the most representative method that can increase generalization efficiency by learning using a deep neural network with an insufficient amount of training data or a short learning time. Representatively, in the case of ImageNet data-based transfer learning using a CNN (convolutional neural network), the weight generated by learning data for image classification is used as an initial value for the target task to detect objects or semantic segmentation. It is used as a feature encoder, and has been very successfully applied in various computer image systems. However, in the case of transfer learning that uses a pretrained weight as an initializer, it is assumed that the pretrained weight has a global prior to learning, but in fact, prior knowledge beyond setting an appropriate initial value Questions have been raised as to whether it is involved in transfer learning.

나아가, 선행학습 네트워크를 활용한 전이 학습의 경우 근본적으로 동일한 네트워크 구조를 공유해야하는 구조적 의존성(structural dependency)을 전제하고 있다. 이러한 이유로 pretrained 웨이트를 활용한 전이 학습은 좋은 초기값을 제공하여 빠른 학습이나 적은 데이터를 활용한 학습에 도움이 되지만 지식 전이에 효과가 없다는 의문점이 제기 되기도 한다.Furthermore, in the case of transfer learning using a prior learning network, structural dependency is premised on sharing the fundamentally the same network structure. For this reason, transfer learning using pretrained weights provides a good initial value and is helpful for fast learning or learning using small data, but a question arises that it has no effect on knowledge transfer.

또 다른 CNNs 을 활용한 전이 학습의 대표적인 방법으로는 지식증류(knowledge distillation) 방법이 있다. 지식증류 방법은 미리 학습된 교사 네트워크가 추론 결과나 학습된 특징에 숨겨진 지식을 다양한 방식으로 학생 네트워크의 학습 도중 증류하여 전달하는 방식이다. 지식 증류 방법은 크게 손실을 통해 암흑 지식을 전달하는 손실 함수 기반의 지식 증류 방식이 있고, 또는 CNNs 의 특정한 단계에서 추출된 특징 간의 유사성을 높여 지식을 전달하는 방식 등이 있다. Another representative method of transfer learning using CNNs is the knowledge distillation method. The knowledge distillation method is a method in which a pre-trained teacher network distills knowledge hidden in inference results or learned features in various ways during learning of the student network. The knowledge distillation method is largely divided into a loss function-based knowledge distillation method that transmits dark knowledge through loss, or a method of transferring knowledge by increasing the similarity between features extracted at a specific stage of CNNs.

이러한 지식 증류를 통한 전이 학습은 더 적은 파라미터 수를 활용하여 교사 네트워크에 준하는 일반화 성능을 보이는 학생 네트워크를 학습할 수 있다는 장점을 가지고 있지만, 교사 네트워크와 학생 네트워크의 학습 데이터가 같아야 한다는 데이터 의존성(dataset dependency)을 전제로 하고 있다.Transfer learning through this knowledge distillation has the advantage of being able to learn a student network that shows generalization performance comparable to that of the teacher network using fewer parameters, but has a data dependency (dataset) that the learning data of the teacher network and the student network must be the same. dependency) is assumed.

따라서, 자연에서 존재하는 지적 생명체 간의 지식 전달 또는 전이 방식에 착안하여 네트워크의 구조적 의존성에 자유로우며 동시에 데이터 의존성에도 자유로운 딥 러닝 학습 방법론의 필요하다.Therefore, there is a need for a deep learning learning methodology that is free from the structural dependence of the network and at the same time free from the data dependence by focusing on the knowledge transfer or transfer method between intelligent life forms that exist in nature.

공개특허공보 제10-2019-0138238호, 2019.12.12.Laid-open Patent Publication No. 10-2019-0138238, 2019.12.12.

본 발명이 해결하고자 하는 과제는 다른 태스크로부터 추가적인 지도 (supervision) 없이 지식전이가 가능한 학습 방법론을 제안하는 것이다. 일 실 시예에 따른 선행학습기반 전이학습 방법 및 장치는 다른 태스크로부터 선행 학습된 소스 네트워크를 활용하여 학습하고자하는 타깃 태스크(target task)에 대한 보조태스크(auxiliary task)로써 자기지도(self-supervision)를 제공하도록 하고, 보조태스크를 통해 기존에 학습된 지식을 타깃 태스크의 학습 과정에 전달하여 일반화(generalization) 성능을 향상 시킬 수 있는 구조를 개시한다.The problem to be solved by the present invention is It is to propose a learning methodology that can transfer knowledge without additional supervision from other tasks. Prior learning-based transfer learning method and apparatus according to an embodiment is self-supervision as an auxiliary task for a target task to be learned using a source network previously learned from other tasks and a structure that can improve generalization performance by transferring previously learned knowledge through auxiliary tasks to the learning process of the target task is disclosed.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The problems to be solved by the present invention are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the following description.

상술한 과제를 해결하기 위한 본 발명의 일 실시 예에 따른 컨볼루션 딥 뉴럴 네트워크의 선행학습 기반 전이학습을 수행하는 방법은, 소스 네트워크에서 선행학습을 수행하는 단계; 타깃 네트워크에서 타깃 태스크에 대해 손실 기반 학습을 수행하는 단계; 상기 소스 네트워크에서 선행 학습된 데이터를 전이받기 위해 보조태스크에 대해 소프트레이블 기반의 자기지도 학습을 수행하는 단계; 및 상기 타깃 태스크에 대한 학습 파라미터를 상기 보조태스크에 대한 학습을 기초로 업데이트 하는 단계를 포함할 수 있다.A method for performing transfer learning based on prior learning of a convolutional deep neural network according to an embodiment of the present invention for solving the above-described problem includes: performing prior learning in a source network; performing loss-based learning on a target task in a target network; performing soft-label-based self-supervised learning on an auxiliary task to transfer previously learned data from the source network; and updating the learning parameter for the target task based on the learning for the auxiliary task.

또한, 상기 보조태스크에 대한 학습을 수행하는 단계는, 상기 타깃 태스크의 손실과 상기 보조 태스크의 손실을 동시에 업데이트 하게 되는 다중 태스크 네트워크를 구성하여 상기 소스 네트워크에서 학습된 데이터에 대한 암흑지식을 전달 받도록 유도할 수 있다.In addition, the learning of the auxiliary task comprises configuring a multi-task network that simultaneously updates the loss of the target task and the loss of the auxiliary task so as to receive dark knowledge about the data learned from the source network. can induce

또한, 상기 보조태스크는 컨볼루션 블록으로 구성된 전이 모듈을 포함하며, In addition, the auxiliary task includes a transition module consisting of a convolution block,

상기 지식전이모듈을 통해 보조 태스크에 대한 추가적인 특징이 추출될 수 있다.Additional features for the auxiliary task may be extracted through the knowledge transfer module.

또한, 상기 타깃태스크 및 상기 보조태스크를 포함하는 다중 태스크 네트워크의 총 손실 함수는 다음의 수학식과 같이 나타나며,In addition, the total loss function of the multi-task network including the target task and the auxiliary task is expressed as the following equation,

Figure pat00001
Figure pat00001

여기서, i는 학습 데이터에 대한 ith 배치,

Figure pat00002
는 타깃태스크의 손실,
Figure pat00003
는 보조태스크의 손실,
Figure pat00004
는 미리 학습된 소스 네트워크에 대한 소프트맥스 출력을 의미할 수 있다.where i is the placement of ith on the training data,
Figure pat00002
is the loss of the target task,
Figure pat00003
is the loss of auxiliary tasks,
Figure pat00004
may mean a softmax output for the pre-trained source network.

또한, 상기 보조 태스크 학습을 위해 교차 엔트로피, 포칼 및 지식증류 방법 중 적어도 하나가 이용될 수 있다.In addition, at least one of cross entropy, focal, and knowledge distillation methods may be used for learning the auxiliary task.

또한, 상기 소스네트워크는 적어도 하나이상의 멀티 태스크로 구성되는 것인, 방법.In addition, the source network will be composed of at least one or more multi-task, the method.

또한, 상기 소스 네트워크와 상기 타깃 네트워크는 모달리티가 다르거나 태스크의 문제도메인이 서로 상이할 수 있다.Also, the source network and the target network may have different modalities or different problem domains of tasks.

본 발명의 다른 개시에 따른 선행학습 기반 전이학습 장치는, 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에 의한 실행 시, 상기 하나 이상의 프로세서가 연산을 수행하도록 하는 명령들이 저장된 하나 이상의 메모리를 포함하고, 상기 프로세서에서 수행되는 연산은, 소스 네트워크에서 선행학습을 수행하는 연산; 타깃 네트워크에서 타깃 태스크에 대해 손실 기반 학습을 수행하는 연산; 상기 소스 네트워크에서 선행학습된 데이터를 전이받기 위해 보조태스크에 대해 소프트레이블 기반의 자기지도 학습을 수행하는 연산; 및 상기 타깃 태스크에 대한 학습 파라미터를 상기 보조태스크에 대한 학습을 기초로 업데이트 하는 연산을 포함할 수 있다.Prior learning-based transfer learning apparatus according to another disclosure of the present invention, one or more processors; and one or more memories storing instructions that, when executed by the one or more processors, cause the one or more processors to perform an operation, wherein the operation performed by the processor includes: an operation for performing prior learning in a source network; an operation for performing loss-based learning on a target task in a target network; an operation for performing soft label-based self-supervised learning on an auxiliary task in order to transfer the data previously learned from the source network; and an operation of updating the learning parameter for the target task based on the learning for the auxiliary task.

상기 본 발명의 일 실시 예에 따르면, 기존의 전이학습과는 다르게 학습하고자 하는 네트워크 구조에 구애받지 않기 때문에 다양한 태스크로부터 학습된 선행지식을 학습 과정에서 자연스럽게 전달할 수 있다는 장점이 있다.According to an embodiment of the present invention, unlike the conventional transfer learning, there is an advantage that prior knowledge learned from various tasks can be naturally transmitted in the learning process because it is not limited by the network structure to be learned.

또한, 분류 태스크(classification task) 간 태스크 전이 학습을 통해 대부분의 데이터셋(dataset)에서 일반화 성능 향상시킬 수 있다. 예를 들면, 이미지 분류 태스크에서 학습된 선행 학습 네트워크를 활용하여 동작 분류 네트워크의 성능을 향상 시킬 수 있다. 또한 효율적인 태스크 전이학습을 위해 CNN 기반의 전이모듈을 추가하여 지식전이의 효율을 향상시킬 수도 있다.In addition, generalization performance can be improved in most datasets through task transfer learning between classification tasks. For example, the performance of the motion classification network can be improved by utilizing the prior learning network learned in the image classification task. Also, it is possible to improve the efficiency of knowledge transfer by adding a CNN-based transfer module for efficient task transfer learning.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to the effects mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.

도 1은 일 실시 예에 따른 선행학습기반 전이학습 방법을 개략적으로 설명하기 위한 도이다.
도 2은 일 실시 예에 따른 선행학습기반 전이학습 방법을 설명하기 위한 순서도이다.
도 3은 일 실시 예에 따른 선행학습 기반 전이학습 방법의 다양한 실시예를 설명하기 위한 도이다.
도 4는 일 실시 예에 따른 전이모듈을 설명하기 위해 개념적으로 나타낸 도이다.
도 5 내지 도 10은 일 실시 예에 따른 선행학습기반 전이학습 방법의 효과를 설명하기 위한 도이다.
도 11 은 일 실시 예에 따른 선행학습 기반 전이학습 장치의 내부 구성을 개략적으로 나타낸 블록도이다.
1 is a diagram schematically illustrating a prior learning-based transfer learning method according to an embodiment.
2 is a flowchart illustrating a prior learning-based transfer learning method according to an embodiment.
3 is a diagram for explaining various embodiments of a transfer learning method based on prior learning according to an embodiment.
4 is a diagram conceptually illustrating a transition module according to an embodiment.
5 to 10 are diagrams for explaining the effect of the prior learning-based transfer learning method according to an embodiment.
11 is a block diagram schematically illustrating an internal configuration of an apparatus for transfer learning based on prior learning according to an embodiment.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments allow the disclosure of the present invention to be complete, and those of ordinary skill in the art to which the present invention pertains. It is provided to fully understand the scope of the present invention to those skilled in the art, and the present invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.The terminology used herein is for the purpose of describing the embodiments and is not intended to limit the present invention. As used herein, the singular also includes the plural unless specifically stated otherwise in the phrase. As used herein, “comprises” and/or “comprising” does not exclude the presence or addition of one or more other components in addition to the stated components. Like reference numerals refer to like elements throughout, and "and/or" includes each and every combination of one or more of the recited elements. Although "first", "second", etc. are used to describe various elements, these elements are not limited by these terms, of course. These terms are only used to distinguish one component from another. Accordingly, it goes without saying that the first component mentioned below may be the second component within the spirit of the present invention.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used herein will have the meaning commonly understood by those of ordinary skill in the art to which this invention belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless specifically defined explicitly.

도 1은 일 실시 예에 따른 선행학습기반 전이학습 방법을 개략적으로 설명하기 위한 도이다. 1 is a diagram schematically illustrating a prior learning-based transfer learning method according to an embodiment.

도 1을 참조하면, 일 실시 예에 따른 선행학습기반 전이학습 방법은 입력(101)을 소스네트워크(103)를 활용한 예비태스크 학습을 기본구조로 가지고 있다. 타깃 네트워크(102)는 타깃 태스크에 대한 손실을 통한 학습을 하는 동시에 소스 네트워크(103)의 지식을 웨이트 업데이트에 반영하기 위해 소스 네트워크(103)의 소프트 레이블 기반의 자기지도를 받아 선행 학습된 데이터에 대한 암흑지식을 받도록 유도한다. 여기서, 소스 네트워크(103)에 대한 암흑지식은 타깃 네트워크(102)의 보조태스크 손실(106)을 통해 전달되어 일반화 성능에 영향을 줄 수 있다. 또한, 보조태스크는 컨볼루션 블록으로 구성된 전이 모듈(105)을 포함할 수 있으며, 상기 지식전이모듈을 통해 보조 태스크에 대한 추가적인 특징을 추출하여 보조태스크 손실(106)을 통한 학습 능력을 향상시킬 수 있다.Referring to FIG. 1 , the prior learning-based transfer learning method according to an embodiment has a basic structure of pre-task learning using an input 101 as a source network 103 . The target network 102 receives the soft label-based self-guidance of the source network 103 to reflect the knowledge of the source network 103 to the weight update while learning through the loss of the target task and to the previously learned data. Induces them to receive dark knowledge about Here, the dark knowledge of the source network 103 may be transmitted through the co-task loss 106 of the target network 102 to affect generalization performance. In addition, the auxiliary task may include a transfer module 105 composed of a convolutional block, and extract additional features for the auxiliary task through the knowledge transfer module to improve the learning ability through the loss of the auxiliary task 106 . have.

따라서 일 실시 예에 따른 선행학습 기반 전이학습 방법은 기존의 선행 학습된 웨이트를 단순 초기값으로 활용하는 기존의 전이 학습과 다르게 네트워크에 구조에 의존하지 않는다. 따라서 어떤 구조로 학습된 네트워크라고 하더라도 전달하고자 하는 소스 태스크의 학습 정보(클래스의 수)만 있으면 모든 타깃 태스크에 대한 지식 전이가 가능하다. 예를 들면, 2D-CNN 으로부터 3D-CNN 으로의 지식 전이와 같이 구조적으로 완전한 이종 네트워크 간에 지식 전이가 가능할 수 있다.Therefore, the prior learning-based transfer learning method according to an embodiment does not depend on the structure of the network, unlike the existing transfer learning that uses the existing previously learned weight as a simple initial value. Therefore, even in a network learned in any structure, knowledge transfer for all target tasks is possible as long as there is learning information (the number of classes) of the source task to be transmitted. For example, knowledge transfer may be possible between structurally complete heterogeneous networks, such as knowledge transfer from 2D-CNN to 3D-CNN.

또한, 일실시예에 따른 선행학습 기반 전이학습 방법은 지식 증류 방법과 같이 데이터에 의존한 전이 학습 방법과 다르게 전혀 다른 종류의 데이터에서 학습된 소스 네트워크를 활용하여 전이 학습을 달성할 수 있다. 따라서, 이미지와 비디오 데이터셋과 같이 이종 데이터셋에서도 지식 전달이 가능 할 수 있다.In addition, the transfer learning method based on prior learning according to an embodiment can achieve transfer learning by utilizing a source network learned from a completely different type of data, unlike a data-dependent transfer learning method such as a knowledge distillation method. Therefore, knowledge transfer may be possible even in heterogeneous datasets such as image and video datasets.

한편, 설명의 편의를 위하여 일 실시 예에 따른 선행학습 기반 전이학습 기반 전이학습 방법과 종래의 전이학습 방법과의 차이점에 대해 이하에서 한번 더 정리한 뒤 도 2 내지 도 11을 참조하여 보다 상세히 설명한다.On the other hand, for convenience of explanation, the difference between the transfer learning method based on prior learning based transfer learning and the conventional transfer learning method according to an embodiment will be summarized once more below and will be described in more detail with reference to FIGS. 2 to 11 . do.

(1) 선행학습된 초기값(Pretrained initializer) 이용 방법과의 차이(1) Difference from the method of using pretrained initializer

딥 뉴럴 네트워크를 활용한 전이 학습에서 가장 일반적으로 활용되는 방식으로 대용량 학습 데이터에 대한 높은 성능을 갖는 모델들이 등장함에 따라 거의 대부분의 영상 인식 분야에서 활용 되어 지고 있다. 하위 레벨 특징정보는 대부분의 영상 인식 문제에서 공유한다는 믿음이 있기 때문에 새로운 태스크를 학습 할 때 상위의 특정 레이어 만을 업데이트하는 방식으로 미세조정을 적용하는 경우가 많다. 일반적으로 동일한 네트워크 구조에서 활용이 가능하며, 많은 영상 인식 응용에서 전체 네트워크 구조의 특징 인코더 부분만을 선행학습을 위한 소스 네트워크로 활용한다. 지금까지는 이미지넷(ImageNet)을 활용한 전이 학습이 크게 활용 되었으나, 최근에는 물체검출과 키 포인트 검출 문제를 예로 들며 선행 학습된 초기값이 포괄적인 사전지식을 가진 것이 아니라 좋은 초기값으로 사용함으로써 일반화 능력에 도움을 주는 것이 밝혀 졌다. 즉, 선행학습된 초기값을 활용하는 방식은 짧은 학습 커브를 갖도록 도와주거나 적은 데이터 학습에 효율적이라는 실험 결과가 있다. 일 실시 예에 따른 선행학습기반 전이학습의 경우에도 선행 학습된 소스네트워크를 활용하지만 선행 학습된 초기값을 활용한 전이학습과 다르게 선행 학습된 소스네트워크가 갖는 추론 정보를 소프트레이블로 활용한다는 측면에서 차이가 있다. As the most commonly used method in transfer learning using deep neural networks, models with high performance on large-scale training data have emerged, and are being utilized in most image recognition fields. Since there is a belief that low-level feature information is shared in most image recognition problems, fine-tuning is often applied by updating only a specific upper layer when learning a new task. In general, it can be used in the same network structure, and in many image recognition applications, only the feature encoder part of the entire network structure is used as a source network for prior learning. Transfer learning using ImageNet has been widely used until now, but recently, taking object detection and key point detection as an example, the pre-learned initial values do not have comprehensive prior knowledge, but are generalized by using good initial values. It has been found to help with ability. That is, there are experimental results that the method using the pre-learned initial value helps to have a short learning curve or is efficient in learning a small amount of data. In the case of transfer learning based on prior learning according to an embodiment, the source network learned in advance is used, but unlike transfer learning using the initial value learned in advance, inference information of the source network learned in advance is used as a soft label. There is a difference.

(2) 지식증류(Knowledge distillation) 기법과의 차이(2) Difference from knowledge distillation technique

지식증류 방법의 경우, 많은 수의 파라미터를 갖는 미리 학습된 교사 네트워크가 상대적으로 적은 수의 파라미터를 갖는 학생 네트워크의 학습 과정에 지식 전이를 수행하여 학생 네트워크의 일반화 성능을 향상시키거나 교사 네트워크보다도 일반화 성능이 좋은 학생 네트워크를 학습할 수 있다. 지식 증류 기법을 활용한 효과적인 전이 학습을 위해 추론된 정보간의 관계를 활용하거나 현재 학습하고자 하는 클래스의 서브클래스로 데이터셋을 재정의하여 지식 증류에 활용하기도 한다. 또한, 교사와 학생 네트워크의 구조를 동일하게 구성하고 서로 다른 초기값을 갖는 지식 증류로 학습된 학생 네트워크들의 앙상블 모델을 생성하여 높은 인식 성능을 달성하기도 한다. 일 실시 예에 따른 선행학습기반 전이학습 방법의 경우도 손실(loss)을 활용한 지식 증류 기법에 영감을 받았으나 자기 학습 기법을 통해 새로운 지식을 전이하고 보조 태스크를 통해 전이 학습을 수행한다는 면에서 기존의 지식 증류 방식과 차이점이 있다. In the case of the knowledge distillation method, a pre-trained teacher network with a large number of parameters performs knowledge transfer in the learning process of a student network with a relatively small number of parameters, thereby improving the generalization performance of the student network or generalizing it more than the teacher network. It can train a high-performing student network. For effective transfer learning using the knowledge distillation technique, the relationship between inferred information is utilized or the dataset is redefined as a subclass of the class to be learned and used for knowledge distillation. In addition, high recognition performance is achieved by constructing the same structure of teacher and student networks and creating an ensemble model of student networks trained by knowledge distillation with different initial values. The prior learning-based transfer learning method according to an embodiment was also inspired by the knowledge distillation technique using a loss, but in that it transfers new knowledge through the self-learning technique and performs transfer learning through the auxiliary task, it is There is a difference from the knowledge distillation method of

(3) 보조학습(Auxiliary learning) 방법과의 차이(3) Difference from auxiliary learning method

보조학습방법은 멀티 태스크 러닝의 한 종류로 멀티 태스크 러닝은 딥 뉴럴 네트워크가 수행하고자 하는 복수개의 태스크를 모두 높은 성능으로 달성하고자 하는 목표를 가지고 있지만 일 실시 예에 따른 선행학습 기반 전이학습방법에서의 보조 태스크는 주된 태스크의 성능 향상을 목적으로 하는데 차이점이 있다. 최근 들어 주된 태스크와 보조 태스크에서 발생하는 손실의 기울기가 갖는 코사인 유사도(cosine similarity)를 분석하여 학습에 보조 태스크가 영향을 미치는 원인을 분석하기도 한다. 일 실시 예에 따른 선행학습 기반 전이학습 방법 또한 학습 방법론의 기본적인 구조는 보조 태스크를 활용한 메타 학습 기법과 일부 유사하지만 일반적인 보조 태스크를 활용한 학습과는 다르게 추가적인 지도가 필요하지 않으며, 네트워크의 일부를 공유하지 않는다. 또한 소스 네트워크에 대한 업데이트를 학습 도중에 이루어지지 않는 차이가 있다. The auxiliary learning method is a type of multi-task learning, and the multi-task learning has the goal of achieving all of the plurality of tasks that the deep neural network wants to perform with high performance, but in the prior learning-based transfer learning method according to an embodiment, There is a difference in that the auxiliary task aims to improve the performance of the main task. Recently, by analyzing the cosine similarity of the slope of the loss occurring in the main task and the auxiliary task, the cause of the influence of the auxiliary task on learning is also analyzed. The transfer learning method based on prior learning according to an embodiment also has a basic structure of the learning methodology similar to the meta-learning method using auxiliary tasks, but unlike learning using general auxiliary tasks, additional guidance is not required, and a part of the network is not required. do not share Also, there is a difference in that updates to the source network are not made during training.

(4) 자기지도 학습(Self-supervised learning) 방법과의 차이. (4) Differences from self-supervised learning methods.

전형적인 자기 학습 기법은 선행 학습된 초기값으로써 좋은 웨이트를 얻기 위해 구실(pretext) 태스크 비지도 학습(unsupervised learning)을 수행하게 된다. 그러나, 일 실시 예에 따른 선행학습 기반 전이학습 방법도 보조 태스크 학습 시에 추가적이 레이블을 요구하지 않고 소스 네트워크의 소프트 레이블 만을 활용하여 보조 태스크의 학습을 수행한다는 관점에서는 유사점이 있다.In a typical self-learning technique, pretext task unsupervised learning is performed to obtain a good weight as a pre-learned initial value. However, the prior learning-based transfer learning method according to an embodiment also has similarities in that the learning of the auxiliary task is performed by using only the soft label of the source network without requiring an additional label when learning the auxiliary task.

일 실시 예에 따른 전이학습에서 얻어지는 지식은 비지도 학습으로 얻어지지 않았으며, 타깃 태스크 학습에서도 이전 학습에 활용되었던 클래스 수와 같은 메타 정보를 필요로 한다는 측면에서 자기 학습과 차이점이 있다. 그러나 Knowledge obtained in transfer learning according to an embodiment is not obtained by unsupervised learning, and it is different from self-learning in that target task learning requires meta information such as the number of classes used in previous learning. But

(5) 도메인 적응이나 확장(Domain adaptation or expansion) 방법과의 차이.(5) Difference from domain adaptation or expansion method.

일 실시 예에 따른 선행학습 전이학습의 경우, 기존에 학습된 네트워크를 가지고 새로운 태스크에 일반화 성능을 향상시킨다는 측면에서 도메인 적응이나 확장과 유사한 성격을 가지고 있다. 하지만 일반적인 도메인 적응 방식과는 다르게 선행 학습된 소스 네트워크에 대한 파라미터 정보를 공유하지 않고 기존의 학습된 도메인에서 학습된 정보를 새로운 네트워크 학습에 활용한다는데 있어 큰 차이점이 있다. 추가적으로 소스 네트워크에 대한 어떠한 업데이트 과정도 포함되어 있지 않기 때문에 소스 도메인의 성능과 무관하게 업데이트를 수행하여 소스 도메인의 추론 성능에 변화가 없다는 점에서도 다른 점이 있다.In the case of transfer learning of prior learning according to an embodiment, it has a characteristic similar to domain adaptation or expansion in that it improves generalization performance to new tasks with the previously learned network. However, unlike the general domain adaptation method, there is a big difference in that information learned from the previously learned domain is used for new network learning without sharing parameter information about the source network previously learned. Additionally, since any update process for the source network is not included, the update is performed regardless of the performance of the source domain, and there is no change in the inference performance of the source domain.

도 2은 일 실시 예에 따른 선행학습기반 전이학습 방법을 설명하기 위한 순서도이다.2 is a flowchart illustrating a prior learning-based transfer learning method according to an embodiment.

도 2를 참조하면, 단계 S210에서, 일 실시 예에 따른 전이학습 방법은 소스 네트워크에서 선행학습을 수행할 수 있다.Referring to FIG. 2 , in step S210, the transfer learning method according to an embodiment may perform prior learning in a source network.

여기서, 소스네트워크는 타깃네트워크와 전혀 다른 도메인의 네트워크 일 수 있다.Here, the source network may be a network of a domain completely different from the target network.

단계 S220에서, 일 실시 예에 따른 전이학습 방법은, 타깃 네트워크에서 타깃 태스크에 대해 손실 기반 학습을 수행한다.In step S220, in the transfer learning method according to an embodiment, loss-based learning is performed on the target task in the target network.

단계 S230에서, 일 실시 예에 따른 전이학습 방법은 상기 소스 네트워크에서 선행 학습된 데이터를 전이 받기 위해 보조태스크에 대해 소프트레이블 기반의 자기지도 학습을 수행한다. 예를들면, 타깃 태스크의 손실과 상기 보조 태스크의 손실을 동시에 업데이트 하게 되는 다중 태스크 네트워크를 구성하여 상기 소스 네트워크에서 학습된 데이터에 대한 암흑지식을 전달 받도록 유도할 수 있다.In step S230, the transfer learning method according to an embodiment performs soft-label-based self-supervised learning on the auxiliary task in order to receive the data previously learned from the source network. For example, by configuring a multi-task network that simultaneously updates the loss of the target task and the loss of the auxiliary task, it is possible to induce the transmission of dark knowledge about data learned from the source network.

상기 보조태스크는 컨볼루션 블록으로 구성된 전이 모듈을 포함하며, The auxiliary task includes a transition module composed of a convolution block,

상기 지식전이모듈을 통해 보조 태스크에 대한 추가적인 특징이 추출 되도록 할 수 있다. 따라서 전이모듈을 통해 보조 태스크의 성능을 향상시킬 수 있다.Through the knowledge transfer module, additional features for auxiliary tasks can be extracted. Therefore, the performance of the auxiliary task can be improved through the transition module.

단계 S240에서, 일 실시 예에 따른 전이학습 방법은 상기 타깃 태스크에 대한 학습의 파라미터를 상기 보조태스크에 대한 학습을 기초로 업데이트 할 수 있다. 예를 들면, 타깃태스크에 대한 손실기반 학습과 보조 태스크에 대한 손실기반 학습이 동시에 수행될 수 도 있다. In step S240, the transfer learning method according to an embodiment may update the learning parameter for the target task based on the learning for the auxiliary task. For example, loss-based learning for a target task and loss-based learning for an auxiliary task may be performed simultaneously.

예를 들면, 전이학습 방법은 소스 네트워크의 특징정보를 획득하여 타깃 네트워크의 일반화 성능에 도움을 줄 수 잇는 방향으로 기울기를 보정하여 업데이트 할 수 있다.For example, the transfer learning method may obtain feature information of the source network and update the gradient by correcting the gradient in a direction that can help the generalization performance of the target network.

도 3은 일 실시 예에 따른 선행학습 기반 전이학습 방법의 다양한 실시 예를 설명하기 위한 도이다.3 is a diagram for explaining various embodiments of a transfer learning method based on prior learning according to an embodiment.

도 3의 (a)는 단일 소스네트워크에서 전이학습 방법에 대한 상세한 설명을 위한 것으로, Input(301), Target(302), Source(303), Target loss(304), Transfer module(305) 및 Auxiliary loss(306)은 도 1에서 상술된 입력(101), 타깃네트워크(102), 소스네트워크(103), 타깃 태스크 손실(104), 전이모듈(105) 및 보조 태스크 손실(106)에 각각 대응할 수 있다.Figure 3 (a) is for a detailed description of the transfer learning method in a single source network, Input (301), Target (302), Source (303), Target loss (304), Transfer module (305) and Auxiliary The loss 306 may correspond to the input 101, the target network 102, the source network 103, the target task loss 104, the transition module 105 and the auxiliary task loss 106 described above in FIG. 1, respectively. have.

일 실시예에 따른 선행학습기반 전이학습 방법에서, 보조 태스크 학습을 위한 다중 태스크 네트워크를

Figure pat00005
로 나타내면, 이때 는 입력,
Figure pat00006
은 타깃 네트워크의 파라미터,
Figure pat00007
은 타깃 데이터셋을
Figure pat00008
는 학습하고자 하는 태스크의 종류를 나타낸다.
Figure pat00009
는 주된 태스크를 해결하기 위해 학습 도중 타깃 태스크 와 보조 태스크의 손실을 통해 동시에 업데이트 될 수 있다.In the prior learning-based transfer learning method according to an embodiment, a multi-task network for auxiliary task learning
Figure pat00005
If expressed as, in this case is the input,
Figure pat00006
is the parameter of the target network,
Figure pat00007
is the target dataset
Figure pat00008
indicates the type of task to be learned.
Figure pat00009
can be updated simultaneously through the loss of the target task and the auxiliary task during learning to solve the main task.

Figure pat00010
는 입력 를 받아 타깃 네트워크에 지식을 전달해줄 소스 네트워크를 나타내며
Figure pat00011
는 소스 데이터셋(ImageNet, Places, 등.)
Figure pat00012
에 대해 소스 태스크
Figure pat00013
에 의해 학습된 파라미터를 의미한다.
Figure pat00014
는 학습 도중에 업데이트 되지 않는다. 주된 태스크 학습을 위한 다중 태스크 네트워크 ht는 컨볼루션 블록의 최상위 레이어까지 공유한다. 이때 타깃 태스크의 손실 연산을 위한 브랜치의 마지막 특징 레이어는
Figure pat00015
을 출력하게 되며, 보조 태스크 손실 연산을 위한 브랜치는 마지막 특징 레이어
Figure pat00016
으로 출력 된다. 이때 보조 태스크에 대한 추가적인 특징 추출을 위해 컨볼루션 블록으로 구성된 전이 모듈을 가질 수 있다
Figure pat00010
represents the source network that will receive the input and transfer the knowledge to the target network.
Figure pat00011
is the source dataset (ImageNet, Places, etc.)
Figure pat00012
About the source task
Figure pat00013
It means the parameters learned by
Figure pat00014
is not updated during training. The multi-task network h t for main task learning shares up to the top layer of the convolution block. At this time, the last feature layer of the branch for the loss calculation of the target task is
Figure pat00015
, and the branch for the auxiliary task loss calculation is the last feature layer.
Figure pat00016
is output as In this case, it may have a transition module composed of convolution blocks for additional feature extraction for auxiliary tasks.

예를 들면, 도 4는 일 실시 예에 따른 전이모듈을 설명하기 위해 개념적으로 나타낸 도이다.For example, FIG. 4 is a diagram conceptually illustrating a transition module according to an embodiment.

도 4의 (a)는 전이모듈이 포함되지 않은 보조 학습을 활용한 다중 태스크 네트워크의 구조를 나타내고 있으며, 도 4의(b)는 전이 모듈(401)이 포함된 다중 태스크 네트워크

Figure pat00017
의 예시를 보여주고 있다. 또한, 도4의 (c)는 멀티플 소스 네트워크를 이용할때의 활용되는 전이모듈(402)의 예시를 도시하고 있다.Fig. 4 (a) shows the structure of a multi-task network using assisted learning without a transition module, and Fig. 4 (b) is a multi-task network including a transition module 401.
Figure pat00017
shows an example of Also, FIG. 4C shows an example of the transition module 402 utilized when using a multiple source network.

다시 도 3의 (a)를 참조하면, 다중 태스크 네트워크의 총 손실 연산을 위한 타깃 태스크의 지상 진실 레이블(ground truth lable)은

Figure pat00018
에 속한 에 대해
Figure pat00019
으로 주어지며 보조 태스크에 대한 지상 진실 레이블은 hs의 소프트맥스 출력인
Figure pat00020
으로 주어진다. Referring back to Fig. 3 (a), the ground truth label of the target task for the total loss calculation of the multi-task network is
Figure pat00018
about belonging to
Figure pat00019
given by , and the ground truth label for the auxiliary task is the softmax output of h s .
Figure pat00020
is given as

이때 다중 태스크 네트워크 기반의 단일 태스크 전이를 위한 총 손실 함수는 다음의 수학식 1과 같이 주어진다:At this time, the total loss function for the single task transition based on the multi-task network is given by the following Equation 1:

[수학식 1][Equation 1]

Figure pat00021
Figure pat00021

여기서 i는 학습 데이터에 대한

Figure pat00022
배치를 의미하며
Figure pat00023
는 미리 학습된 소스 네트워크에 대한 소프트맥스 출력으로 얻어지며 미리 학습된 데이터셋에 대한 암흑 지식을 소프트 레이블로써 전달하게 된다. 예를 들면, 효율적인 보조 태스크 학습을 위해 [수학식2]와 같이 보조 태스크에 대한 교차 엔트로피(
Figure pat00024
), 포칼 (
Figure pat00025
) 및 지식증류 방법(
Figure pat00026
) 등의 총 세 가지 손실 방법이 적용될 수 있다.where i is the training data
Figure pat00022
means to place
Figure pat00023
is obtained as a softmax output for the pre-trained source network and delivers the dark knowledge of the pre-trained dataset as a soft label. For example, for efficient auxiliary task learning, cross entropy (
Figure pat00024
), pokal (
Figure pat00025
) and knowledge distillation method (
Figure pat00026
), etc., a total of three loss methods can be applied.

[수학식 2] [Equation 2]

Figure pat00027
Figure pat00027

Figure pat00028
Figure pat00028

Figure pat00029
Figure pat00029

여기서,

Figure pat00030
는 학습 도중 네트워크로부터 얻어진 최종 특징 출력이며
Figure pat00031
는 온도(temperature) 파라미터로 레이블 소프트닝(label softening) 강도를 조절한다.
Figure pat00032
는 소프트 맥스 함수를 의미하고, KL은 서로 다른 분포에 대한 KL 다이버전스(divergence)를 의미한다. 수학식 2의 세 가지 손실 연산 기법들은 모든 학습 시나리오에서 적용될 수 있으며. 이때, k + 1번째 반복에서 기울기에 대한 업데이트는 다음의 수학식 3과 같다.here,
Figure pat00030
is the final feature output obtained from the network during training.
Figure pat00031
controls the label softening intensity with a temperature parameter.
Figure pat00032
denotes a soft max function, and KL denotes KL divergence for different distributions. The three loss calculation techniques of Equation 2 can be applied in all learning scenarios. In this case, the update of the gradient in the k + 1st iteration is expressed by Equation 3 below.

[수학식 3][Equation 3]

Figure pat00033
Figure pat00033

여기서, η는 학습률을 의미한다. Here, η means the learning rate.

한편, 도 1 및 도 3의 (a)는 설명의 편의를 위해 단일 소스네트워크에서 전이학습 방법을 도시하고 있으나, 이러한 구성에 한정되는 것은 아니며 도3의 (b)에 도시된 것과 같이 다중 소스태스크 네트워크(313)로부터 지식을 전이받을 수 있다. 이때, 전이모듈(315)은 각각의 소스태스크에 대응되는 숫자만큼 존재 할 수 있다. 즉, 단일 태스크 전이 세팅에서 손실 함수를 통한 지식 전이를 수행한다면, 지식 전이를 수행할 소스네트워크 hs는 단일한 태스크로 제한되어야 할 이유가 없다. On the other hand, although Figs. 1 and 3 (a) show a transfer learning method in a single source network for convenience of explanation, it is not limited to this configuration and as shown in Fig. 3 (b), a multi-source task Knowledge may be transferred from the network 313 . In this case, the transition module 315 may exist as many as the number corresponding to each source task. That is, if knowledge transfer is performed through a loss function in a single task transfer setting, there is no reason why the source network h s to perform knowledge transfer should be limited to a single task.

따라서 일 실시예에 따른 선행학습 기반 전이학습 방법은 [수학식4]에 나타난 것과 같이 타깃 태스크에 대한 전이 학습을 위한 소스 태스크의 종류를 늘려 구조를 개선 할 수 있다.Therefore, the prior learning-based transfer learning method according to an embodiment can improve the structure by increasing the types of source tasks for transfer learning of the target task as shown in [Equation 4].

[수학식 4][Equation 4]

Figure pat00034
Figure pat00034

이때 SM 지식 전이를 위한 소스 태스크 인덱스로 메모리의 부담이 없다면 이론적으로 총 M 개의 소스 태스크로부터 다중 태스크 전이 학습을 수행할 수 있다. 단일 태스크 전이 학습과 동일하게 기울기 업데이트 룰은 다음의 [수학식 5]와 같다.In this case, if there is no memory burden as a source task index for SM knowledge transfer, multi-task transfer learning can be theoretically performed from a total of M source tasks. Like the single task transfer learning, the gradient update rule is as follows [Equation 5].

[수학식 5][Equation 5]

Figure pat00035
Figure pat00035

한편, 지금까지 상술된 단일 또는 다중 태스크에 대한 전이는

Figure pat00036
Figure pat00037
의 형태를 명시하지 않는 동일한 문제 도메인의 태스크를 가정한 전이 학습 이었다. On the other hand, the transition for single or multiple tasks described above is
Figure pat00036
Wow
Figure pat00037
It was transfer learning assuming a task in the same problem domain that does not specify the form of .

일 실시예에 따른 선행학습 기반 전이학습 및 장치는 이에 한발 나아가

Figure pat00038
Figure pat00039
의 모달리티가 다르거나 태스크의 문제 도메인이 다른 경우에도 전이 학습이 가능하다. 이 경우 입력 데이터의 특성이 다르고 학습을 위한 네트워크의 구조에도 큰 차이가 있으므로 전이 학습을 위한 준비 과정으로 데이터 변환이나 전처리를 수반할 수 있다. Transfer learning and apparatus based on prior learning according to an embodiment go one step further
Figure pat00038
Wow
Figure pat00039
Transfer learning is possible even when the modalities of the tasks are different or the problem domains of the tasks are different. In this case, since the characteristics of the input data are different and there is a big difference in the structure of the network for learning, data transformation or preprocessing may be involved as a preparation process for transfer learning.

도 3의 (c)는 타깃 네트워크(322)와 소스네트워크(323)의 모달리티가 다른 경우, 도 3의 (d)는 타깃 네트워크(332)와 소스네트워크(333)의 도메인이 상이한 경우의 전이학습 방법을 개념적으로 도시한다.3(c) shows transfer learning when the target network 322 and the source network 323 have different modalities, and FIG. 3(d) shows the case where the domains of the target network 332 and the source network 333 are different. Conceptually illustrates the method.

보다 상세하게, 문제 도메인이 서로 다른 전이 학습의 경우 총 손실 함수는 다음의 수학식 6과 같이 정의할 수 있다.More specifically, in the case of transfer learning having different problem domains, the total loss function can be defined as in Equation 6 below.

[수학식 6][Equation 6]

Figure pat00040
Figure pat00040

여기서 데이터 변환 함수 fs는 소스 도메인의 태스크에 인지 정보를 추론하여 전달할 수 있도록 데이터의 형태를 소스 태스크에 맞게 변환하는 함수를 의미한다. 예를 들어 Tt가 3D-CNN 을 활용한 액션 인식 문제라면 입력

Figure pat00041
가 3 차원 텐서로 정의되어 질 수 있다. 이때 전이 학습을 위한 사전 학습 네트워크를2D-CNN을 활용한 영상 인식 문제 Ts를 통해 얻는다면
Figure pat00042
에 대해 입력이 가능한 2차원 행렬로 변환하는 함수로 정의되어야 한다. Here, the data conversion function f s refers to a function that transforms the form of data to match the source task so that cognitive information can be inferred and delivered to the task in the source domain. For example, if T t is an action recognition problem using 3D-CNN, input
Figure pat00041
can be defined as a three-dimensional tensor. At this time, if the pre-learning network for transfer learning is obtained through the image recognition problem T s using 2D-CNN,
Figure pat00042
It should be defined as a function that transforms into a two-dimensional matrix that can be input.

한편, 다른 문제 도메인으로의 전이 학습 또한 수학식 7과 같이 다중 소스 태스크에서 지식 전달을 수행할 수도 있다.On the other hand, transfer learning to another problem domain may also perform knowledge transfer in a multi-source task as shown in Equation (7).

[수학식 7][Equation 7]

Figure pat00043
Figure pat00043

즉, 도 4의 (c)를 참조하면 기울기 업데이트를 위한 단일 또는 다중 태스크 전이 학습과 동일한 방식으로 정의될 수 있다.That is, referring to FIG. 4C , it can be defined in the same way as single or multi-task transfer learning for gradient update.

도 5 내지 도 10은 일 실시 예에 따른 선행학습기반 전이학습 방법의 효과를 설명하기 위한 도이다.5 to 10 are diagrams for explaining the effect of the prior learning-based transfer learning method according to an embodiment.

도 5는, 일 실시 예에 따른 전이 학습 기법의 검증을 위한 실험 세팅을 요약하여 나타내고 있다.5 is a summary of an experiment setting for verification of a transfer learning technique according to an embodiment.

도 5를 참조하면 선행 학습을 통한 지식 전달 기법을 검증하기 위하 4가지 실험 시나리오를 구성하였다. 첫 번째 시나리오(도 6 및 도 7)는 동일한 문제 도메인에서 단일 소스 태스크를 갖는 네트워크 간 전이 학습의 세팅이다. 이를 위해 2 차원 영상물 분류를 위해 학습된 선행 학습된 네트워크를 활용하여 2 차원 영상물 분류를 위한 학습에 활용할 수 있다. (2D cls → 2D cls). Referring to FIG. 5 , four experimental scenarios were constructed to verify the knowledge transfer technique through prior learning. The first scenario ( FIGS. 6 and 7 ) is the setup of transfer learning between networks with a single source task in the same problem domain. For this, the previously learned network learned for classifying 2D images can be used for learning for classifying 2D images. (2D cls → 2D cls).

두 번째(도 8)는 다중 소스 네트워크를 활용한 2 차원 영상물 분류를 위한 전이 학습으로(multiple 2D cls to 2D cls) 타깃 태스크 학습을 위한 타깃 네트워크가 2 개 이상의 보조 태스크를 갖게 된다. The second (FIG. 8) is transfer learning (multiple 2D cls to 2D cls) for classifying two-dimensional images using a multi-source network, in which a target network for learning a target task has two or more auxiliary tasks.

세 번째(도 9)와 네 번째(도 10)는 문제 도메인이 다른 소스 네트워크를 활용한 지식 전이 시나리오로 두 가지 세팅에서 대한 실험을 수행하였다.The third (FIG. 9) and fourth (FIG. 10) are knowledge transfer scenarios using source networks with different problem domains, and experiments were performed in two settings.

세 번째는 목적이 다른 타깃 태스크 학습이지만 동일한 영상 인식 범주 내의 도메인으로 전이 학습을 수행하는 경우(2D cls to 2D multi-cls)로 타깃 태스크는 멀티 클래스 분류 문제를 해결하기 위해 일반적인 영상 분류 네트워크에 도움을 받는 경우 이다. The third is target task learning with different objectives, but transfer learning to domains within the same image recognition category (2D cls to 2D multi-cls), where the targeted task helps general image classification networks to solve multi-class classification problems is when you receive

네 번째는 이종 네트워크와 문제 도메인을 활용해 지식 전달을 하는 시나리오로 3D-CNN 을 활용한 액션 인식 네트워크를 학습하는데 있어 2 차원 영상 인식 도중 학습된 정보가 지식 전달에 활용될 수 있는 검증하였다(2D cls to 3D action-cls). The fourth is a scenario of knowledge transfer using heterogeneous networks and problem domains. In learning an action recognition network using 3D-CNN, it was verified that the information learned during 2D image recognition can be used for knowledge transfer (2D). cls to 3D action-cls).

우선 도 6을 참조하면, 첫번째 실험에서 2차원 이미지 분류 문제간 전이학습을 수행하기 위한 학습 설정을 도시하고 있다. 일 실시예에 따라 소스네트워크로는 이미지넷(ImageNet)과 Place365 데이터세트에 의해 선행학습된 네트워크를 활용하였다. 이에 대응하는 타깃 태스크의 데이터셋으로는 상대적으로 적은 데이터량을 같는 CIFAR10, CIFAR100, STL10 과 더불어 대용량 데이터세트인 ImageNet, Places365를 활용하였다. 선행 학습된 소스 네트워크로는 torchvision 에서 제공하는 ResNet50 네트워크를 활용하였다. 타깃 태스크에 대한 네트워크는 ResNet18을 활용하였다.First, referring to FIG. 6 , a learning setup for performing transfer learning between two-dimensional image classification problems in the first experiment is shown. According to an embodiment, a network pre-trained by ImageNet and Place365 dataset was used as the source network. As a data set of the corresponding target task, CIFAR10, CIFAR100, and STL10, which have relatively small data volumes, along with large data sets ImageNet and Places365 were used. As the pre-trained source network, the ResNet50 network provided by torchvision was used. ResNet18 was utilized for the network for the target task.

도 7을 참조하면, 2D 이미지 분류 문제에서의 스크래치 학습과 일 실시예에 따른 전이학습 방법(PreLeKT)를 적용했을 경우의 성능 변화를 보여준다. 2D 이미지 분류 문제 간 전이 학습에서는 본 발명에서 개시하는 전이학습 방법(PreLeKT)을 활용할 경우 모든 데이터셋에서 일반화 성능이 향상된 것으로 나타났다. 더불어 보조 태스크 학습에 대한 특징 변환을 효율적으로 하기 위해 전이 모듈을 사용했을 경우의 성능 변화를 보여주고 있다. 특별히 주목할 만한 점은 학습 데이터의 비율이 적은 SLT10 데이터 셋의 경우 가장 큰 폭의 일반화 성능 향상을 보였다. 이는 지도의 양이 적은 경우 전이학습을 활용한 지식 전달이 더 큰 효과를 발휘하는 것으로 볼 수 있다.Referring to FIG. 7 , it shows performance changes when scratch learning in a 2D image classification problem and transfer learning method (PreLeKT) according to an embodiment are applied. In transfer learning between 2D image classification problems, it was found that generalization performance was improved in all datasets when the transfer learning method (PreLeKT) disclosed in the present invention was used. In addition, it shows the performance change when the transfer module is used to efficiently transform the feature for learning auxiliary tasks. Of particular note, the SLT10 data set with a small percentage of training data showed the greatest improvement in generalization performance. It can be seen that when the amount of guidance is small, knowledge transfer using transfer learning has a greater effect.

다음으로, 두번째 실험에서는 다중 소스 태스크 기반의 전이학습 방법(PreLeKT)을 2D 이미지 분류 문제에 적용하기 위해 다수의 소스 네트워크들을 활용 하였다. 그 예시로 소스 태스크로 ImageNet 과 Places365 데이터세트로 학습된 Res-Net50 모델을 동시에 활용하였다. 타깃 태스크 학습을 위한 데이터세트로는 Exp. 1 설정과 동일한 데이터세트들을 활용하였으며, 훈련 디테일은 도 6에 표기되어 있다.Next, in the second experiment, multiple source networks were used to apply the multi-source task-based transfer learning method (PreLeKT) to the 2D image classification problem. As an example, the Res-Net50 model trained on the ImageNet and Places365 datasets was used as a source task at the same time. As a dataset for target task learning, Exp. The same datasets as set 1 were used, and the training details are shown in FIG. 6 .

따라서, 도 8은 특정 데이터세트에 대해 스크래치로 학습된 성능과 학습 과정에 단일 태스크 기반의 전이학습과 다중 소스 태스크 기반의 전이학습(PreLeKT)을 활용한 성능을 보여주고 있다. 동시에 각각의 전이학습(PreLeKT)에 대하여 전이 모듈을 사용한 학습 결과도 보여주고 있다. 다중 소스 태스크를 활용하여 전이학습(PreLeKT)을 2D 이미지 분류 문제에 적용하는 경우 단일 소스 태스크 네트워크를 활용한 경우보다 거의 모든 데이터세트에서 일반화 성능이 향상되었음을 확인할 수 있다.Accordingly, FIG. 8 shows the performance learned from scratch on a specific dataset and the performance using single task-based transfer learning and multi-source task-based transfer learning (PreLeKT) in the learning process. At the same time, the learning results using the transfer module for each transfer learning (PreLeKT) are also shown. When transfer learning (PreLeKT) is applied to a 2D image classification problem by utilizing a multi-source task, it can be seen that the generalization performance is improved in almost all datasets than when a single-source task network is utilized.

다음으로 세번째 실험은 일 실시예에 따른 전이학습이 다른 문제 도메인 간의 지식 전이에도 효과가 있는 것인지를 확인하기 위해 2D 이미지 분류 문제와 2D 멀티 클래스 이미지 분류 문제 간 전이 학습을 수행하였다. 이를 위해 타깃 태스크로는 PASCAL VOC 데이트세트를 활용한 멀티 클래스 이미지 분류 문제를 활용하였다. 이때 멀티 클래스 이미지 분류를 해결하기 위한 타깃 손실 함수는 binary cross entropy 로 활용하였으며, 소스 태스크에 대한 손실 함수는 첫번째 및 두번째 실험과 동일하게 구성하였다. 타깃 태스크와 소스 태스크에 대한 학습 설정은 도 6에 도시된 바와 같다. Next, in the third experiment, transfer learning was performed between a 2D image classification problem and a 2D multi-class image classification problem to confirm whether transfer learning according to an embodiment is also effective for knowledge transfer between different problem domains. For this purpose, a multi-class image classification problem using the PASCAL VOC dataset was used as the target task. At this time, the target loss function for solving multi-class image classification was used as binary cross entropy, and the loss function for the source task was configured the same as in the first and second experiments. Learning settings for the target task and the source task are shown in FIG. 6 .

도 9는, 멀티 클래스 이미지 분류에 대해 스크래치로 학습된 성능과 학습 과정에 일 실시 예에 따른 전이학습 방법을 활용했을 경우의 성능 변화를 보여주고있다. 일 실시 예에 따른 전이 학습을 수행 했을 경우 단일 소스를 활용한 다른 문제 도메인 간 전이 학습에도 매우 큰 성능 개선이 있음을 확인할 수 있다. 또한, 성능 향상의 폭이 동일한 문제 도메인 간의 전이 학습보다도 크게 나타난 것을 확인할 수 있었다. 추가로 두번째 실험의 설정과 동일하게 다중 소스 네트워크로부터의 전이학습을 적용했을 경우 추가적인 성능 향상이 있음을 확인할 수 있었다.9 shows the performance learned from scratch for multi-class image classification and performance changes when the transfer learning method according to an embodiment is used in the learning process. When transfer learning is performed according to an embodiment, it can be confirmed that there is a very large performance improvement in transfer learning between different problem domains using a single source. In addition, it was confirmed that the performance improvement was larger than transfer learning between the same problem domains. In addition, it was confirmed that there was an additional performance improvement when transfer learning from a multi-source network was applied in the same way as in the setting of the second experiment.

한편, 세번째 실험의 경우 문제 도메인 사이에 차이가 있더라도 소스 태스크의 입력 데이터와 타깃 태스크의 입력 데이터의 모달리티가 같기 때문에 지식 전이의 성능 향상이 상대적으로 자연스러울 수 있다. 따라서, 네번째 실험에서는 좀더 확장된 의미의 지식 전달에 대한 실험 설계를 위해 2D 이미지 분류 네트워크를 소스 네트워크로 활용하고 타깃 태스크를 3D-CNNs 을 활용한 액션 인식 문제로 설정하였다. Meanwhile, in the third experiment, even if there is a difference between the problem domains, since the modality of the input data of the source task and the input data of the target task is the same, the performance improvement of knowledge transfer may be relatively natural. Therefore, in the fourth experiment, the 2D image classification network was used as the source network for the experimental design of knowledge transfer in a more extended meaning, and the target task was set as an action recognition problem using 3D-CNNs.

한편, 소스 네트워크의 암흑 지식을 활용하기 위해서는 변환 함수On the other hand, in order to utilize the dark knowledge of the source network, the transformation function

Figure pat00044
의 정의가 필요하다. 일 실시 예에 따른 전이학습 방법의 주요 기술적 기여가 좋은 fs를 정의하는데 있지 않기 단순하게 fs의 역할을 3 차원 비디오 클립에서 중앙에 있는 프레임을 추출하는 것으로 한정하였다. 또한, 액션 인식 문제 학습을 위해 3D ResNet 기반의 CNNs 모델을 활용하였다. 보조 태스크를 추론을 돕기 위한 전이 모듈은 2D-CNN 의 경우와 유사하게 4 레이어의 3D 컨볼루션 블록으로 구성하였다. 3D ResNet 훈련을 위한 학습 설정은 도 6의 소스 네트워크의 학습 설정과 같이 표기되어 있다.
Figure pat00044
needs a definition of Since the main technical contribution of the transfer learning method according to an embodiment is not in defining a good fs, the role of fs is simply limited to extracting a frame at the center from a 3D video clip. In addition, a 3D ResNet-based CNNs model was used to learn the action recognition problem. The transition module to help infer the auxiliary task is composed of 4 layers of 3D convolution blocks similar to the case of 2D-CNN. The learning setting for 3D ResNet training is marked as the learning setting of the source network of FIG. 6 .

도 10은 UCF-101 데이터세트에 대해 스크래치로 학습된 3D-ResNet 성능과 학습 과정에 일 실시예에 따른 전이학습 방법(PreLeKT)을 활용했을 경우의 성능 변화를 보여주고 있다. 도 10을 참조하면, 전이학습 방법(PreLeKT)의 보조 태스크가 3D- CNNs 의 모델학습 시에 overfitting 을 막아주는 효과를 갖는 것을 보여주고 있다. 동시에 3D ResNet 에 대한 선행 학습된 웨이트를 가지고 미세조정을 수행했을 경우에도 전이 학습이 이루어 질 수 있는지의 실험 결과를 포함하고 있다. 일 실시예에 따라 이종 문제 도메인 간 PreLeKT 의 활용에 있어 fs 의 정의에 따라 다른 성능 개선의 효과가 있을 수 있는 점은 별론으로 하더라도, Kinetics-400 와 같은 비디오 데이터세트의 경우 2D 이미지 분류용 데이터세트와 모달리티가 다르기 때문에 선행 학습된 웨이트를 가져다 쓰는 경우에도 성능 향상의 효과를 줄 수 있었다. 즉 선행 학습된 초기값이 설정된 3D ResNet 의 경우에도 모든 모델은 아니지만 일부 네트워크에서 일 실시예에 따른 전이학습(PreLeKT)에 의해 향상된 인식 결과를 보이는 것을 확인할 수 있었다. 10 shows 3D-ResNet performance learned from scratch on the UCF-101 dataset and performance changes when the transfer learning method (PreLeKT) according to an embodiment is used in the learning process. Referring to FIG. 10 , it is shown that the auxiliary task of the transfer learning method (PreLeKT) has an effect of preventing overfitting during model learning of 3D-CNNs. At the same time, it contains the experimental results of whether transfer learning can be performed even when fine-tuning is performed with pre-learned weights for 3D ResNet. According to an embodiment, in the use of PreLeKT between heterogeneous problem domains, in the case of a video dataset such as Kinetics-400, in the case of a video dataset such as Kinetics-400, there may be other performance improvement effects depending on the definition of fs according to the definition of fs. and modality are different, so it was possible to give the effect of improving performance even when using pre-learned weights. That is, even in the case of 3D ResNet in which the pre-trained initial value is set, it was confirmed that some, but not all models, showed improved recognition results by transfer learning (PreLeKT) according to an embodiment.

도 11 은 일 실시 예에 따른 선행학습 기반 전이학습 장치(100)의 내부 구성을 개략적으로 나타낸 블록도이다.11 is a block diagram schematically illustrating an internal configuration of an apparatus 100 for transfer learning based on prior learning according to an embodiment.

선행학습 기반 전이학습장치(100)는 후술하는 기능을 수행할 수 있는 기기로서, 예를 들어 서버 컴퓨터, 개인 컴퓨터 등으로 구성될 수 있다. 일 실시예에서, 선행학습 기반 전이학습장치(100)는 하나 이상의 프로세서(110) 및/또는 하나 이상의 메모리(120)를 포함할 수 있다. The prior learning-based transfer learning apparatus 100 is a device capable of performing a function to be described later, and may include, for example, a server computer, a personal computer, and the like. In an embodiment, the prior learning-based transfer learning apparatus 100 may include one or more processors 110 and/or one or more memories 120 .

일 실시 예에 따라 하나 이상의 프로세서(110)에 의해 수행되는 연산은, 소스 네트워크에서 선행학습을 수행하는 연산; 타깃 네트워크에서 타깃 태스크에 대해 손실 기반 학습을 수행하는 연산; 상기 소스 네트워크에서 선행학습된 데이터를 전이받기 위해 보조태스크에 대해 소프트레이블 기반의 자기지도 학습을 수행하는 연산; 및 상기 타깃 태스크에 대한 학습 파라미터를 상기 보조태스크에 대한 학습을 기초로 업데이트 하는 연산을 포함할 수 있다.According to an embodiment, the operation performed by the one or more processors 110 may include an operation for performing prior learning in a source network; an operation for performing loss-based learning on a target task in a target network; an operation for performing soft label-based self-supervised learning on an auxiliary task in order to transfer the data previously learned from the source network; and an operation of updating the learning parameter for the target task based on the learning for the auxiliary task.

일 실시예에서는, 선행학습 기반 전이학습장치(100)의 이 구성요소들 중 적어도 하나가 생략되거나, 다른 구성요소가 선행학습 기반 전이학습장치(100)에 추가될 수 있다. 또한 추가적으로(additionally) 또는 대체적으로(alternatively), 일부의 구성요소들이 통합되어 구현되거나, 단수 또는 복수의 개체로 구현될 수 있다. 선행학습 기반 전이학습장치(100) 내, 외부의 구성요소들 중 적어도 일부의 구성요소들은 버스, GPIO(general purpose input/output), SPI(serial peripheral interface) 또는 MIPI(mobile industry processor interface) 등을 통해 서로 연결되어, 데이터 및/또는 시그널을 주고 받을 수 있다.In one embodiment, at least one of these components of the transfer learning apparatus 100 based on prior learning may be omitted, or other components may be added to the transfer learning apparatus 100 based on prior learning. In addition, additionally (additionally) or alternatively (alternatively), some of the components may be implemented as integrated, or may be implemented as a singular or a plurality of entities. At least some of the internal and external components of the prior learning-based transfer learning apparatus 100 include a bus, a general purpose input/output (GPIO), a serial peripheral interface (SPI), or a mobile industry processor interface (MIPI), etc. They may be connected to each other through the interface to transmit and receive data and/or signals.

하나 이상의 메모리(120)는 다양한 데이터를 저장할 수 있다. 메모리(120)에 저장되는 데이터는, 선행학습 기반 전이학습장치(100)의 적어도 하나의 구성요소에 의해 획득되거나, 처리되거나, 사용되는 데이터로서, 소프트웨어(예: 프로그램)를 포함할 수 있다. 메모리(120)는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 하나 이상의 메모리(120)는, 하나 이상의 프로세서(130)에 의한 실행 시, 하나 이상의 프로세서(110)가 연산을 수행하도록 하는 명령들을 저장할 수 있다. 일 실시예에서, 하나 이상의 메모리(120)는 하나 이상의 사용자에 대한 개인화 정보 및/또는 하나 이상의 상품에 대한 추천 정보를 저장할 수 있다. 본 개시에서, 프로그램 내지 명령은 메모리(120)에 저장되는 소프트웨어로서, 선행학습 기반 전이학습장치(100)의 리소스를 제어하기 위한 운영체제, 어플리케이션 및/또는 어플리케이션이 장치의 리소스들을 활용할 수 있도록 다양한 기능을 어플리케이션에 제공하는 미들 웨어 등을 포함할 수 있다.The one or more memories 120 may store various data. Data stored in the memory 120 is data obtained, processed, or used by at least one component of the prior learning-based transfer learning apparatus 100 , and may include software (eg, a program). Memory 120 may include volatile and/or non-volatile memory. The one or more memories 120 may store instructions that, when executed by the one or more processors 130 , cause the one or more processors 110 to perform an operation. In an embodiment, the one or more memories 120 may store personalization information for one or more users and/or recommendation information for one or more products. In the present disclosure, programs or commands are software stored in the memory 120 , and have various functions so that an operating system, an application, and/or an application for controlling the resources of the prior learning-based transfer learning apparatus 100 can utilize the resources of the apparatus. may include middleware that provides

하나 이상의 프로세서(110)는, 소프트웨어(예: 프로그램, 명령)를 구동하여 프로세서(130)에 연결된 선행학습 기반 전이학습장치(100)의 적어도 하나의 구성요소를 제어할 수 있다. 또한 프로세서(130)는 본 개시와 관련된 다양한 연산, 처리, 데이터 생성, 가공 등의 동작을 수행할 수 있다. 또한 프로세서(110)는 데이터 등을 메모리(120)로부터 로드하거나, 메모리(120)에 저장할 수 있다The one or more processors 110 may control at least one component of the prior learning-based transfer learning apparatus 100 connected to the processor 130 by driving software (eg, a program, a command). In addition, the processor 130 may perform various operations, processing, data generation, processing, etc. related to the present disclosure. In addition, the processor 110 may load data or the like from the memory 120 or store it in the memory 120 .

일 실시예에서, 선행학습 기반 전이학습장치(100)는 통신 인터페이스(도시되지 않음)를 더 포함할 수 있다. 통신 인터페이스는, 선행학습 기반 전이학습장치(100)와 다른 서버 또는 다른 외부 장치간의 무선 또는 유선 통신을 수행할 수 있다. 예를 들어, 통신 인터페이스는 eMBB(enhanced Mobile Broadband), URLLC(Ultra Reliable Low-Latency Communications), MMTC(Massive Machine Type Communications), LTE(long-term evolution), LTE-A(LTE Advance), UMTS(Universal Mobile Telecommunications System), GSM(Global System for Mobile communications), CDMA(code division multiple access), WCDMA(wideband CDMA), WiBro(Wireless Broadband), WiFi(wireless fidelity), 블루투스(Bluetooth), NFC(near field communication), GPS(Global Positioning System) 또는 GNSS(global navigation satellite system) 등의 방식에 따른 무선 통신을 수행할 수 있다. In an embodiment, the prior learning-based transfer learning apparatus 100 may further include a communication interface (not shown). The communication interface may perform wireless or wired communication between the prior learning-based transfer learning apparatus 100 and another server or other external device. For example, the communication interface is eMBB (enhanced Mobile Broadband), URLLC (Ultra Reliable Low-Latency Communications), MMTC (Massive Machine Type Communications), LTE (long-term evolution), LTE-A (LTE Advance), UMTS ( Universal Mobile Telecommunications System), GSM (Global System for Mobile communications), CDMA (code division multiple access), WCDMA (wideband CDMA), WiBro (Wireless Broadband), WiFi (wireless fidelity), Bluetooth (Bluetooth), NFC (near field) communication), a global positioning system (GPS), or a global navigation satellite system (GNSS) may perform wireless communication.

본 개시에 따른 선행학습 기반 전이학습장치(100)의 다양한 실시예들은 서로 조합될 수 있다. 각 실시예들은 경우의 수에 따라 조합될 수 있으며, 조합되어 만들어진 선행학습 기반 전이학습장치(100)의 실시예 역시 본 개시의 범위에 속한다. 또한 전술한 본 개시에 따른 선행학습 기반 전이학습장치(100)의 내/외부 구성 요소들은 실시 예에 따라 추가, 변경, 대체 또는 삭제될 수 있다. 또한 전술한 선행학습 기반 전이학습장치(100)의 내/외부 구성 요소들은 하드웨어 컴포넌트로 구현될 수 있다.Various embodiments of the prior learning-based transfer learning apparatus 100 according to the present disclosure may be combined with each other. Each embodiment may be combined according to the number of cases, and an embodiment of the prior learning-based transfer learning apparatus 100 made by combining also falls within the scope of the present disclosure. In addition, the internal/external components of the preceding learning-based transfer learning apparatus 100 according to the present disclosure may be added, changed, replaced, or deleted according to embodiments. In addition, the internal/external components of the preceding learning-based transfer learning apparatus 100 may be implemented as hardware components.

한편, 일 실시 예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.Meanwhile, the method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions may include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes such as those generated by a compiler.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been looked at with respect to preferred embodiments thereof. Those of ordinary skill in the art to which the present invention pertains will understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments are to be considered in an illustrative rather than a restrictive sense. The scope of the present invention is indicated in the claims rather than the foregoing description, and all differences within the scope equivalent thereto should be construed as being included in the present invention.

101 : 입력
102 : 타깃 네트워크
103 : 소스 네트워크
104 : 타깃 태스크 손실
105 : 전이모듈
106 : 보조 태스크 손실
101: input
102: target network
103: source network
104: target task lost
105: transition module
106: Loss of auxiliary task

Claims (10)

컨볼루션 딥 뉴럴 네트워크의 선행학습 기반 전이학습을 수행하는 방법에 있어서,
소스 네트워크에서 선행학습을 수행하는 단계;
타깃 네트워크에서 타깃 태스크에 대해 손실 기반 학습을 수행하는 단계;
상기 소스 네트워크에서 선행 학습된 데이터를 전이받기 위해 보조태스크에 대해 소프트레이블 기반의 자기지도 학습을 수행하는 단계; 및
상기 타깃 태스크에 대한 학습 파라미터를 상기 보조태스크에 대한 학습을 기초로 업데이트 하는 단계를 포함하는 방법.
In a method for performing transfer learning based on prior learning of a convolutional deep neural network,
performing prior learning in the source network;
performing loss-based learning on a target task in a target network;
performing soft-label-based self-supervised learning on an auxiliary task to transfer previously learned data from the source network; and
and updating a learning parameter for the target task based on learning for the auxiliary task.
제1항에 있어서,
상기 보조태스크에 대한 학습을 수행하는 단계는,
상기 타깃 태스크의 손실과 상기 보조 태스크의 손실을 동시에 업데이트 하게 되는 다중 태스크 네트워크를 구성하여 상기 소스 네트워크에서 학습된 데이터에 대한 암흑지식을 전달 받도록 유도하는 것인, 방법.
According to claim 1,
The step of learning for the auxiliary task is,
The method of constructing a multi-task network that simultaneously updates the loss of the target task and the loss of the auxiliary task, so as to induce the transmission of dark knowledge about the data learned from the source network.
제1항에 있어서,
상기 보조태스크는 컨볼루션 블록으로 구성된 전이 모듈을 포함하며,
상기 전이 모듈을 통해 보조 태스크에 대한 추가적인 특징이 추출되는 것인, 방법.
According to claim 1,
The auxiliary task includes a transition module composed of a convolution block,
and additional features for auxiliary tasks are extracted via the transition module.
제 1항에 있어서,
상기 타깃 태스크 및 상기 보조태스크를 포함하는 다중 태스크 네트워크의 총 손실 함수는 다음의 수학식과 같이 나타나며,
Figure pat00045

여기서, i는 학습 데이터에 대한 ith 배치,
Figure pat00046
는 타깃태스크의 손실,
Figure pat00047
는 보조태스크의 손실,
Figure pat00048
는 미리 학습된 소스 네트워크에 대한 소프트맥스 출력을 의미하는 것인, 방법.
The method of claim 1,
The total loss function of the multi-task network including the target task and the auxiliary task is expressed by the following equation,
Figure pat00045

where i is the i th batch for the training data,
Figure pat00046
is the loss of the target task,
Figure pat00047
is the loss of auxiliary tasks,
Figure pat00048
means the softmax output for the pre-trained source network.
제 1항에 있어서, 상기 보조태스크 학습을 위해 교차 엔트로피, 포칼 및 지식증류 방법 중 적어도 하나가 이용되는 것인, 방법.The method according to claim 1, wherein at least one of cross entropy, focal and knowledge distillation methods is used for learning the auxiliary task. 제 1항에 있어서, 상기 소스 네트워크는 적어도 하나이상의 멀티 태스크로 구성되는 것인, 방법.The method of claim 1, wherein the source network is configured with at least one multi-task. 제 1항에 있어서, 상기 소스 네트워크와 상기 타깃 네트워크는 모달리티가 다르거나 태스크의 문제도메인이 서로 상이한 것인, 방법.The method according to claim 1, wherein the source network and the target network have different modalities or different problem domains of tasks. 하드웨어인 컴퓨터와 결합되어, 제1항 내지 제7항의 선행학습 기반 전이학습 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터 프로그램.A computer program stored in a computer-readable recording medium in combination with a computer, which is hardware, to perform the preceding learning-based transfer learning method of claims 1 to 7. 하나 이상의 프로세서; 및 상기 하나 이상의 프로세서에 의한 실행 시, 상기 하나 이상의 프로세서가 연산을 수행하도록 하는 명령들이 저장된 하나 이상의 메모리를 포함하고, 상기 프로세서에서 수행되는 연산은,
소스 네트워크에서 선행학습을 수행하는 연산;
타깃 네트워크에서 타깃 태스크에 대해 손실 기반 학습을 수행하는 연산;
상기 소스 네트워크에서 선행 학습된 데이터를 전이받기 위해 보조태스크에 대해 소프트레이블 기반의 자기지도 학습을 수행하는 연산; 및
상기 타깃 태스크에 대한 학습 파라미터를 상기 보조태스크에 대한 학습을 기초로 업데이트 하는 연산을 포함하는 선행학습 기반 전이학습 장치.
one or more processors; and one or more memories storing instructions that, when executed by the one or more processors, cause the one or more processors to perform an operation, wherein the operation performed by the processor comprises:
an operation for performing prior learning in the source network;
an operation for performing loss-based learning on a target task in a target network;
an operation for performing soft-label-based self-supervised learning on an auxiliary task in order to transfer previously learned data from the source network; and
and an operation for updating a learning parameter for the target task based on learning for the auxiliary task.
제9항에 있어서, 상기 소스 네트워크와 상기 타깃 네트워크는 모달리티가 다르거나 태스크의 문제도메인이 서로 상이한 것인, 선행학습 기반 전이학습 장치.[10] The apparatus of claim 9, wherein the source network and the target network have different modalities or different problem domains of tasks.
KR1020200052723A 2020-04-29 2020-04-29 Method and apparatus for deep knowledge transfer via prerequisite learning KR102425396B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200052723A KR102425396B1 (en) 2020-04-29 2020-04-29 Method and apparatus for deep knowledge transfer via prerequisite learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200052723A KR102425396B1 (en) 2020-04-29 2020-04-29 Method and apparatus for deep knowledge transfer via prerequisite learning

Publications (2)

Publication Number Publication Date
KR20210134153A true KR20210134153A (en) 2021-11-09
KR102425396B1 KR102425396B1 (en) 2022-07-28

Family

ID=78487085

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200052723A KR102425396B1 (en) 2020-04-29 2020-04-29 Method and apparatus for deep knowledge transfer via prerequisite learning

Country Status (1)

Country Link
KR (1) KR102425396B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240056254A (en) 2022-10-21 2024-04-30 국립한국교통대학교산학협력단 Method and apparatus for classifying image

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190138238A (en) 2018-06-04 2019-12-12 삼성전자주식회사 Deep Blind Transfer Learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190138238A (en) 2018-06-04 2019-12-12 삼성전자주식회사 Deep Blind Transfer Learning

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Wonhee Lee et al., Multi-Task Self-Supervised Object Detection via Recycling of Bounding Box Annotations, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)* *
박찬민 등., Highway Bi-LSTM-CRFs 모델을 이용한 멀티 태스크 기반 한국어 개체명 인식, Proceedings of HCI Korea 2018 , 432-435pages(2018.1.)* *
이한수 등., 전이학습 기반의 합성곱 신경망을 이용한 다중클래스 분류에 관한 연구, Journal of Korean Institute of Intelligent Systems Vol. 28, No. 6, 531-537pages(2018. 12.)* *

Also Published As

Publication number Publication date
KR102425396B1 (en) 2022-07-28

Similar Documents

Publication Publication Date Title
US10817805B2 (en) Learning data augmentation policies
CN110268422B (en) Device layout optimization with reinforcement learning
KR102184278B1 (en) Method and system for transfer learning into any target dataset and model structure based on meta-learning
CN111373417B (en) Apparatus and method relating to data classification based on metric learning
CN118194960A (en) Regularized neural network architecture search
WO2023160472A1 (en) Model training method and related device
US11574142B2 (en) Semantic image manipulation using visual-semantic joint embeddings
JP2021125217A (en) Latent question reformulation and information accumulation for multi-hop machine reading
US20220164666A1 (en) Efficient mixed-precision search for quantizers in artificial neural networks
US20230176840A1 (en) Learned graph optimizations for compilers
WO2022127613A1 (en) Translation model training method, translation method, and device
JP2021022367A (en) Image processing method and information processor
US20190228297A1 (en) Artificial Intelligence Modelling Engine
KR20210149530A (en) Method for training image classification model and apparatus for executing the same
CN113326940A (en) Knowledge distillation method, device, equipment and medium based on multiple knowledge migration
KR102425396B1 (en) Method and apparatus for deep knowledge transfer via prerequisite learning
KR20220073088A (en) A method and system of switching specialized lightweight neural networks for concept-drift adaptation in resource-constrained mobile devices
WO2023078009A1 (en) Model weight acquisition method and related system
KR20210151644A (en) Apparatus and method for extracting deep learning models
Behera et al. A smart document converter: Conversion of handwritten text document to computerized text document
US12033038B2 (en) Learning data augmentation policies
US20230316085A1 (en) Method and apparatus for adapting a local ml model
KR102530115B1 (en) A method of implementing a federated learning data sampling technology based on data distribution information performed in an edge server
US20240177796A1 (en) Method and system for generating a plurality of antibody sequences
US20240153259A1 (en) Single image concept encoder for personalization using a pretrained diffusion model

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)