WO2021225294A1 - 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법 - Google Patents

샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법 Download PDF

Info

Publication number
WO2021225294A1
WO2021225294A1 PCT/KR2021/004648 KR2021004648W WO2021225294A1 WO 2021225294 A1 WO2021225294 A1 WO 2021225294A1 KR 2021004648 W KR2021004648 W KR 2021004648W WO 2021225294 A1 WO2021225294 A1 WO 2021225294A1
Authority
WO
WIPO (PCT)
Prior art keywords
loss
target model
feature
sbr
input sample
Prior art date
Application number
PCT/KR2021/004648
Other languages
English (en)
French (fr)
Inventor
최용석
전윤호
김지원
박재선
이수빈
조동연
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to US17/797,702 priority Critical patent/US20230153631A1/en
Priority to CN202180027418.XA priority patent/CN115398450A/zh
Publication of WO2021225294A1 publication Critical patent/WO2021225294A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Definitions

  • the present disclosure relates to a transfer learning apparatus and method using a sample-based regularization technique. More particularly, it relates to a transfer learning apparatus and method capable of fine-tuning a target model using a sample-based regularization technique that increases the similarity between characteristics of a learning sample.
  • Transfer learning is a field of deep learning, and refers to a method of learning a model for performing other similar tasks using the knowledge acquired by a model that has completed learning on a specific task. do. Transfer learning can be applied to all fields that use deep learning-based deep neural network models, and is one of the important methods for learning a model that must be applied to a task in which it is difficult to obtain sufficient training data.
  • a representative transfer learning method borrows the structure and parameters of a pre-trained source model 110 to perform a source task as it is, After initializing the target model 100 for a similar target task, the target model 100 is fine-tuned by additionally training the target model 100 using the learning data for the target task. -tuning).
  • the method of fine-tuning the pre-trained model uses the entire source model 110 or borrows only the lower feature extractor as it is, as shown in FIG. 1, additional learning time and memory can be reduced. It has the advantage of being able to On the other hand, since training for fine tuning often depends on a small number of learning data, the generalization performance of the target model 100 achieved using transfer learning is very important. In order to prevent overfitting resulting from a small number of training data and improve generalization performance, a regularization technique appropriate for the fine-tuning process of transfer learning may be used.
  • a regularization term that reduces the difference between parameters of the source model 110 see Non-Patent Document 1
  • a normalization item that reduces the difference between activations see Non-Patent Document 2
  • a normalization that suppresses feature activation that causes a small singular value see Non-Patent Document 3
  • the existing method as described above can reduce the similarity between the source model 110 and the target model 100 .
  • the existing regularization technique has a problem in that the potential of the target model 100 is limited, and knowledge transferred from the source model 110 may interfere with the fine adjustment process. That is, when the gap between the source task and the target task is large, applying the normalization item based on the knowledge of the source model 110 to fine-tuning the target model 100 is the performance of the target model 100 . It may not be helpful in terms of improvement.
  • Non-Patent Document 1 Li, X., Grandvalet, Y., Davoine, F.: Explicit inductive bias for transfer learning with convolutional networks.
  • ICML International Conference on Machine Learning
  • Non-Patent Document 2 Li, X., Xiong, H., Wang, H., Rao, Y., Liu, L., Huan, J.: DELTA: Deep learning transfer using feature map with attention for convolutional networks.
  • ICLR International Conference on Learning Representations
  • Non-Patent Document 3 Chen, X., Wang, S., Fu, B., Long, M., Wang, J.: Catastrophic forgetting meets negative transfer: Batch spectral shrinkage for safe transfer learning.
  • NeuroIPS Neural Information Processing Systems
  • the main object is to provide a transfer learning apparatus and method capable of improving the performance of a target model by fine-tuning a target model using a sample-based regularization technique that increases similarity.
  • a feature is extracted from an input sample using the target model, and the feature is A process of generating an output result obtained by classifying the class of the input sample using included; calculating a classification loss using a label corresponding to the output result and the input sample; a process of estimating a sample-based regularization (SBR) loss based on a feature pair extracted from an input sample pair belonging to the same class; and updating the parameters of the target model based on all or part of the classification loss and the SBR loss.
  • SBR sample-based regularization
  • a feature extractor for extracting a feature (feature) from an input sample (feature extractor); and a target model including a classifier for generating an output result of classifying the class of the input sample by using the characteristic, wherein the output result and a label corresponding to the input sample
  • a classification loss is calculated using a label
  • a sample-based regularization (SBR) loss is calculated based on a feature pair extracted from an input sample pair belonging to the same class.
  • a feature extractor for extracting a feature (feature) from an input sample; and a classifier for classifying the class of the input sample by using the characteristic to generate an output result of classifying the class using a target model including an output for the input sample for training calculating a classification loss using a result and a label corresponding to the input sample for learning;
  • a computer-readable recording medium storing instructions, wherein the instructions, when executed by the computer, cause the computer to obtain characteristics from an input sample using a target model.
  • SBR sample-based regularization
  • the target model in training the target model using a small number of training samples, the target model using a sample-based regularization technique that increases the similarity between the characteristics extracted from the training samples included in the same class.
  • the target model in training the target model using a small number of training samples, is refined by efficiently calculating the sample-based regularization item that increases the similarity between the features extracted from the training samples included in the same class.
  • 1 is a conceptual diagram of a transfer learning method.
  • FIG. 2 is a block diagram of a transfer learning apparatus according to an embodiment of the present disclosure.
  • FIG. 3 is a conceptual diagram of a sample-based normalization technique according to an embodiment of the present disclosure.
  • FIG. 4 is a flowchart of a transfer learning method according to an embodiment of the present disclosure.
  • This embodiment discloses a transfer learning apparatus and method using a sample-based regularization technique.
  • a transfer learning apparatus and method using a sample-based regularization technique.
  • similarity between features extracted from training samples included in the same class Provided are a transfer learning apparatus and method for fine-tuning a target model using a sample-based regularization that increases similarity.
  • transfer learning is the basic training of the source model 110 for the source task, transfer of the structure and parameters of the source model 110 on the target model 100 side, and the target task. Although it is common to include all of the fine adjustments of the target model 100 for the target model 100, a transfer learning apparatus and method having characteristics for the implementation of fine adjustment using a small number of training data will be described below.
  • each deep neural network has a feature extractor and a classifier, as shown in FIG. 1 .
  • a linear layer that generates an output classified into a final class is considered a classifier, and a layer that transmits an output from a layer that obtains an input (eg, layer 1 in FIG. 1 ) to a classifier side (eg, in FIG. 1 )
  • a part including up to layer L may be regarded as a feature extractor.
  • transfer learning apparatus and method according to the present embodiment are implemented in a server (not shown) or a programmable system having computing power equivalent to the server.
  • FIG. 2 is a block diagram of a transfer learning apparatus according to an embodiment of the present disclosure.
  • the transfer learning apparatus 200 borrows the structure and parameters of the pre-trained source model 110 to train the initialized target model 100, learning included in the same class
  • the target model 100 is fine-tuned using a sample-based regularization technique that increases the similarity between features extracted from samples.
  • the transfer learning apparatus 200 includes all or a part of the feature extractor 202 and the classifier 204 that are components of the target model 100 , and up to a gradient reduction layer 206 .
  • components included in the transfer learning apparatus 200 according to the present embodiment are not necessarily limited thereto.
  • the transfer learning apparatus 200 may additionally include a training unit (not shown) for training a deep neural network-based target model, or may be implemented in a form that interworks with an external training unit.
  • the feature extractor 202 of the target model 100 extracts a feature from an input sample for training.
  • the classifier 204 of the target model 100 generates an output obtained by classifying the class of the input sample by using the extracted characteristic.
  • the gradient attenuation layer 206 When the gradient attenuation layer 206 according to the present embodiment reverse propagates the gradient according to the classification loss toward the feature extractor 202, the gradient attenuate The role of the classification loss and the gradient attenuation layer 206 will be described later.
  • FIG. 2 is an exemplary configuration according to the present embodiment, and various implementations including other components or other connections between components are possible depending on the type of input, the structure and shape of the feature extractor and the classifier.
  • the feature extractor 202 is denoted by f
  • the classifier 204 is denoted by g
  • the parameters of f and g are denoted by w f and w g
  • the parameters of the target model 100 including f and g are expressed as w.
  • the training unit of the transfer learning apparatus 200 uses the parameter w f * of the feature extractor of the source model 110 to A parameter of the feature extractor 202 may be initialized, and a parameter of the classifier 204 may be initialized to a random value.
  • a general loss function L T for the training unit according to the present embodiment to train the target model 100 may be expressed by Equation (1).
  • the first term is a classification loss L cls that evaluates the inference level for the label of the target model 100
  • the second term is a regularization term for improving generalization performance. ⁇ (eg, if L2 regularization technique is used) ) multiplied by the hyperparameter ⁇ .
  • the classification loss L cls may be calculated based on dissimilarity between the output of the classifier 204 of the target model 100 and the label.
  • cross entropy is mainly used to express dissimilarity between the output and the label, but is not necessarily limited thereto, and a distance metric (e.g., L1 metric, L2 metric, etc.) , a similarity metric (eg, cosine similarity, inner product, cross entropy, etc.) that can express the difference between two comparison objects may be used.
  • FIG. 3 is a conceptual diagram of a sample-based normalization technique according to an embodiment of the present disclosure.
  • the training unit uses an additional regularization item.
  • a feature extracted from a training sample is used.
  • each sample included in the same class may be a mutual reference for regularization.
  • SBR sample-based regularization technique
  • maximizing the similarity may be a general learning method for the target model 100 that performs classification based on cross entropy.
  • the SBR according to the present embodiment does not directly discriminate between samples of different classes, but allows the classifier 204 of the target model 100 to perform discrimination between classes.
  • the normalization item L sbr according to the application of SBR may be expressed by Equation (2).
  • C is the total number of classes to be classified
  • the function D measures the dissimilarity between the outputs of the feature extractor 202 for two objects, namely a sample pair.
  • the SBR induces the outputs of the feature extractor 202 for each of two different samples included in the same class to have similar values. SBR considers all possible sample pairs included in one class, and all classes included in training data.
  • the normalization item L sbr is It can be expressed by Equation (3).
  • X is a set of the entire training data.
  • Equation 4 when all possible sample pairs among the learning data or data included in the same class are considered, the learning time may increase.
  • a regularization item L sbr that considers the similarity to a sample pair included in one mini-batch is expressed in Equation 4 as shown in Equation 4 can be defined
  • N c denotes the number of samples included in class c in one mini-batch
  • B c denotes a set of samples included in class c in one mini-batch
  • N C pair N C (N C -1) is the number of all pairs of samples included in class c in the mini-batch.
  • the dissimilarity measured by the function D is a distance metric (eg, L1, L2 metric, etc.) and a similarity metric (eg, cosine similarity, dot product, cross entropy, etc.) Anything that can express the difference between them can be used.
  • a distance metric eg, L1, L2 metric, etc.
  • a similarity metric eg, cosine similarity, dot product, cross entropy, etc.
  • the normalization item L sbr is expressed as SBR loss in order to distinguish it from the normalization item ⁇ used in the loss function.
  • the training unit uses different loss functions L f and L g for training each of the feature extractor 202 and the classifier 204 included in the target model 100 . , to cope with the performance degradation caused by the overfitting problem.
  • L cls is a classification loss that evaluates the label inference level of the target model 100 .
  • the loss function L g for the classifier 204 is a linear combination of L cls and ⁇
  • the loss function L f for the feature extractor 202 is a weighted combination of each of L cls , L sbr and ⁇ .
  • ⁇ , ⁇ , ⁇ g and ⁇ f are hyperparameters.
  • L sbr used in the loss function L f is the SBR loss shown in Equation 4, but is not limited thereto, and the SBR loss shown in Equation 2 or 3 may be used.
  • the training unit may perform fine adjustment on the target model 100 by updating the parameters of each of the feature extractor 202 and the classifier 204 using a loss function as shown in Equation 5.
  • the training unit adjusts the hyperparameter ⁇ to reflect L cls with a different weight than the classifier 204 to the loss function L f for the feature extractor 202, and the hyper
  • the parameter ⁇ By adjusting the parameter ⁇ , the L cls and the SBR loss L sbr in an appropriate ratio can be reflected in the loss function L f .
  • Hyperparameters ⁇ and ⁇ can be set to any value, but when the training data is small, the training unit sets ⁇ to a value less than 1 to reduce the dependence on the label by relatively reducing the weight of L cls . .
  • the training unit can be expected to reduce the effect of overfitting in the feature extractor 202 based on the effect of SBR using the relative relationship of sample pairs.
  • the training unit may update the parameters w f and w g as shown in Equation 6 in order to fine-tune the target model 100 .
  • ⁇ g and ⁇ f is a hyperparameter, and is a learning rate for adjusting the training rate of each of the classifier 204 and the feature extractor 202 .
  • is an operator that means calculating the slope for each loss item.
  • Multiplying L cls by ⁇ when the loss function L f for the feature extractor 202 is calculated is, as shown in FIG. 2 and Equation 6, when training using backward propagation, the classifier ( 204) is the same as that delivered by multiplying the ⁇ to the characteristics extractor 202 direction (i.e., reverse) of the L cls slope (gradient) ⁇ L cls delivered to the at. Accordingly, as described above, when ⁇ is set to be less than 1, the gradient is attenuated, and when training the feature extractor 202 , the influence of L cls may be relatively reduced.
  • the slope attenuation layer 206 as shown in Figure 2 by multiplying the reverse inclination ⁇ that is based on a L cls, may produce the same effect as multiplication in the ⁇ L cls.
  • the gradient may be attenuated by adjusting the learning rate ⁇ f during training of the feature extractor 202 , but the learning rate may affect all items of the loss function L f in common. Therefore, it may be more efficient to train the feature extractor 202 to attenuate the gradient using the hyperparameter ⁇ in order to independently control the influence of L cls .
  • the training unit may use the following learning rate improvement method.
  • Equation (7) Using the square of the Euclidean distance can be expressed by Equation (7).
  • Equation 7 can be changed to Equation 8.
  • C c is included in class c within one mini-batch It is the average of the output of the feature extractor 202 for each of all samples, and can be expressed by Equation (9).
  • the training unit calculates the class-specific average (C c ) of the output of the feature extractor 202 and , find the difference between this average and the output of the feature extractor 202 of N c samples.
  • C c class-specific average
  • Equation 8 it is possible to obtain the same result as Equation 7 with a smaller amount of computation, and Equation 7 is O(N c 2 ), in terms of asymptotic computational complexity.
  • Equation 8 has a complexity of O(N c ). Accordingly, when training is performed in mini-batch units based on the square of the Euclidean distance, the SBR loss can be more efficiently calculated using the bar shown in Equation (8).
  • FIG. 4 is a flowchart of a transfer learning method according to an embodiment of the present disclosure.
  • the training unit of the transfer learning apparatus 200 uses a target model to extract a feature from an input sample, and classifies the class of the input sample using the extracted feature.
  • One output result is generated (S400).
  • the target model 100 includes a feature extractor 202 for extracting features, and a classifier 204 for generating an output result.
  • the target model 100 is implemented as a deep neural network, and is initialized by borrowing the structure and parameters of the pre-trained deep neural network-based source model 110 .
  • the training unit may initialize the parameter of the feature extractor 202 of the target model 100 using the parameter of the feature extractor of the source model 110 and initialize the parameter of the classifier 204 to a random value. .
  • training data includes input samples.
  • the training unit calculates a classification loss using a label corresponding to an output result and an input sample (S402).
  • the classification loss is a loss item for evaluating the level of inference for the label of the target model 100 , and may be calculated based on the dissimilarity between the output of the classifier 204 of the target model 100 and the label.
  • cross entropy is mainly used to express dissimilarity between the output and the label, but is not necessarily limited thereto, and a distance metric (eg, L1, L2 metric, etc.), a similarity metric ( For example, anything that can express the difference between two comparison objects such as cosine similarity, dot product, cross entropy, etc.) may be used.
  • the training unit calculates a sample-based regularization (SBR) loss based on a feature pair extracted from an input sample pair belonging to the same class (S404).
  • SBR sample-based regularization
  • the training unit uses the SBR loss as a regularization item.
  • SBR sample-based regularization
  • the training unit calculates the SBR loss based on the dissimilarity between the two features constituting the feature pair extracted from the input sample pair belonging to the same class.
  • the learning time may be increased.
  • the SBR loss may be calculated based on the dissimilarity of feature pairs extracted from sample pairs included in one mini-batch.
  • the dissimilarity may be anything that can express the difference between two comparison objects, such as a distance metric (eg, L1, L2 metric, etc.), a similarity metric (eg, cosine similarity, dot product, cross entropy, etc.).
  • the training unit updates the parameters of the target model based on all or part of the classification loss and the SBR loss (S406).
  • the training unit uses a different loss function for training each of the feature extractor 202 and the classifier 204 included in the target model 100, so that the performance according to the overfitting problem cope with decline
  • a loss function for the classifier 204 is generated using the classification loss
  • a loss function for the feature extractor 202 is generated by weight-combining the classification loss and the SBR loss with hyperparameters.
  • the training unit may update the parameters of the classifier 204 based on the classification loss, and update the parameters of the feature extractor 202 based on the classification loss and the SBR loss.
  • the training unit may adjust the hyperparameter multiplied by the classification loss to reflect the classification loss to the loss function for the feature extractor 202 with a weight different from that of the classifier 204 .
  • the training unit may reduce the dependence on the label by setting the hyperparameter to a value less than 1 to relatively reduce the weight of the classification loss.
  • the target model in training the target model using a small number of training samples, the target model using a sample-based regularization technique that increases the similarity between the characteristics extracted from the training samples included in the same class.
  • each process is sequentially executed in each flowchart according to the present embodiment
  • the present invention is not limited thereto.
  • the flowchart since it may be applicable to change and execute the processes described in the flowchart or to execute one or more processes in parallel, the flowchart is not limited to a time-series order.
  • Various implementations of the systems and techniques described herein include digital electronic circuitry, integrated circuits, field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), computer hardware, firmware, software, and/or combination can be realized. These various implementations may include being implemented in one or more computer programs executable on a programmable system.
  • the programmable system includes at least one programmable processor (which may be a special purpose processor) coupled to receive data and instructions from, and transmit data and instructions to, a storage system, at least one input device, and at least one output device. or may be a general-purpose processor).
  • Computer programs also known as programs, software, software applications or code
  • the computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored. These computer-readable recording media are non-volatile or non-transitory, such as ROM, CD-ROM, magnetic tape, floppy disk, memory card, hard disk, magneto-optical disk, and storage device. It can be a medium. In addition, the computer-readable recording medium is distributed in network-connected computer systems, and computer-readable codes may be stored and executed in a distributed manner.
  • target model 110 source model
  • transfer learning device 202 feature extractor
  • classifier 206 gradient attenuation layer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 실시예는, 기트레이닝된 소스 모델의 구조 및 파라미터를 차용하여 초기화된 타겟 모델을, 소수의 학습 샘플을 이용하여 트레이닝함에 있어서, 동일 클래스(class)에 포함된 학습 샘플로부터 추출된 특성 간 유사성(similarity)을 증대시키는 샘플 기반 정규화 기법(sample-based regularization)을 이용하여 타겟 모델을 정밀 조정(fine-tuning)함으로써, 타겟 모델의 성능 향상이 가능한 전이 학습장치 및 방법을 제공한다.

Description

샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법
본 개시는 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법에 관한 것이다. 더욱 상세하게는, 학습용 샘플이 갖는 특성 간 유사성을 증대시키는 샘플 기반 정규화 기법을 이용하여 타겟 모델을 정밀 조정(fine-tuning)하는 것이 가능한 전이 학습장치 및 방법에 대한 것이다.
이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
전이 학습(transfer learning)이란 딥러닝(deep learning)의 한 분야로서, 특정 과제(task)에 대한 학습을 마친 모델이 습득한 지식을 이용하여 다른 유사한 과제를 수행하기 위한 모델을 학습시키는 방식을 의미한다. 전이 학습은 딥러닝 기반 심층신경망(deep neural network) 모델을 이용하는 모든 분야에 적용이 가능하며, 특히 학습용 데이터를 충분히 확보하기 어려운 과제에 적용되어야 하는 모델을 학습시키기 위한 중요한 방법 중의 하나이다.
도 1에 도시된 바와 같이, 대표적인 전이 학습방법은, 소스 과제(source task)를 수행하도록 기트레이닝된(pre-trained) 소스 모델(source model, 110)의 구조 및 파라미터를 그대로 차용하여 소스 과제와 유사한 타겟 과제(target task)를 위한 타겟 모델(target model, 100)을 초기화한 후, 타겟 과제용 학습 데이터를 이용하여 타겟 모델(100)을 추가로 트레이닝함으로써 타겟 모델(100)을 정밀 조정(fine-tuning)한다.
기트레이닝된 모델을 정밀 조정하는 방식은 소스 모델(110)의 전체를 이용하거나, 도 1에 도시된 바와 같이 하부의 특성 추출기(feature extractor)만을 그대로 차용하기 때문에, 추가적인 학습 시간 및 메모리를 감소시킬 수 있다는 장점이 있다. 반면, 정밀 조정을 위한 트레이닝은 소수의 학습용 데이터에 의존하는 경우가 많으므로, 전이 학습을 이용하여 성취된 타겟 모델(100)의 일반화 성능(generalization performance)이 매우 중요하다. 소수의 학습 데이터로부터 기인하는 과적합(overfitting)을 방지하고 일반화 성능을 향상시키기 위하여, 전이 학습의 정밀 조정 과정에 적절한 정규화(regularization) 기법을 이용할 수 있다. 정규화 기법을 이용하는 전이 학습 방법으로는, 소스 모델(110)의 파라미터들 간의 차이를 감소시키는(비특허문헌 1 참조) 정규화 항목(regularization term), 소스 모델(110)과 타겟 모델(100) 각각의 활성(activation) 간의 차이를 감소시키는(비특허문헌 2 참조) 정규화 항목, 또는 크기가 작은 특이치(singular value)를 유발하는 특성의 활성화(feature activation)을 억제하는(비특허문헌 3 참조) 정규화 항목을 손실 함수(loss function)에 추가하여 정밀 조정을 위한 트레이닝을 수행하는 방법들이 존재한다.
소스 모델(110)이 가진 가치있는 지식(knowledge)이 타겟 모델(100)에도 유익할 수 있다는 전제 하에, 전술한 바와 같은 기존의 방법은 소스 모델(110)과 타겟 모델(100) 사이의 유사성을 가능한 한 증대시킴으로써, 타겟 모델(100)의 일반화된 성능을 향상시킬 수 있다는 장점이 있다. 그러나, 기존의 정규화 기법은 타겟 모델(100)의 잠재력(potential)을 제한하고, 소스 모델(110)로부터 전이된 지식이 정밀 조정 과정에 방해가 될 수 있다는 문제가 있다. 즉, 소스 과제와 타겟 과제의 간격(gap)이 클 경우, 소스 모델(110)의 지식에 기반하는 정규화 항목을 타겟 모델(100)에 대한 정밀 조정에 적용하는 것은, 타겟 모델(100)의 성능 향상 측면에서 도움이 되지 않을 수 있다.
따라서, 소스 모델을 정규화 기준(reference)으로 이용하지 않는 대신, 학습용 샘플로부터 추출된 특성에 기반하여 정밀 조정을 위한 트레이닝을 수행함으로써, 타겟 모델의 성능 향상이 가능한 전이 학습장치 및 방법을 필요로 한다.
(선행기술문헌)
(비특허문헌)
(비특허문헌 1) Li, X., Grandvalet, Y., Davoine, F.: Explicit inductive bias for transfer learning with convolutional networks. In: International Conference on Machine Learning(ICML) (2018)
(비특허문헌 2) Li, X., Xiong, H., Wang, H., Rao, Y., Liu, L., Huan, J.: DELTA: Deep learning transfer using feature map with attention for convolutional networks. In: International Conference on Learning Representations (ICLR) (2019)
(비특허문헌 3) Chen, X., Wang, S., Fu, B., Long, M., Wang, J.: Catastrophic forgetting meets negative transfer: Batch spectral shrinkage for safe transfer learning. In: Advances in Neural Information Processing Systems (NeurIPS) (2019)
본 개시는, 기트레이닝된 소스 모델의 구조 및 파라미터를 차용하여 초기화된 타겟 모델을, 소수의 학습 샘플을 이용하여 트레이닝함에 있어서, 동일 클래스(class)에 포함된 학습 샘플로부터 추출된 특성 간 유사성(similarity)을 증대시키는 샘플 기반 정규화 기법(sample-based regularization)을 이용하여 타겟 모델을 정밀 조정(fine-tuning)함으로써, 타겟 모델의 성능 향상이 가능한 전이 학습장치 및 방법을 제공하는 데 주된 목적이 있다.
본 개시의 실시예에 따르면, 전이 학습장치의 타겟 모델(target model)에 대한 전이 학습방법에 있어서, 상기 타겟 모델(target model)을 이용하여, 입력 샘플로부터 특성(feature)을 추출하고, 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 과정, 여기서 상기 타겟 모델은 상기 특성을 추출하는 특성 추출기(feature extractor), 및 상기 출력 결과를 생성하는 분류기(classifier)를 포함함; 상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정; 동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 타겟 모델의 파라미터를 업데이트하는 과정을 포함하는 것을 특징으로 하는 전이 학습방법을 제공한다.
본 개시의 다른 실시예에 따르면, 입력 샘플로부터 특성(feature)을 추출하는 특성 추출기(feature extractor); 및 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 분류기(classifier)를 포함하는 타겟 모델(target model)을 포함하되, 상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하고, 동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하며, 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 특성 추출기 및 상기 분류기 중 적어도 어느 하나의 파라미터를 업데이트함으로써 상기 타겟 모델을 트레이닝시키는 것을 특징으로 하는 전이 학습장치를 제공한다.
본 개시의 다른 실시예에 따르면, 입력 샘플로부터 특성(feature)를 추출하는 특성 추출기(feature extractor); 및 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)하는 분류기(classifier)를 포함하는 타겟 모델(target model)을 이용하여 상기 클래스를 분류한 출력 결과를 생성하되, 학습용 입력 샘플에 대한 출력 결과 및 상기 학습용 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정; 동일 클래스(class)에 속하는 학습용 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 특성 추출기 및 상기 분류기 중 적어도 어느 하나의 파라미터를 업데이트하는 과정을 이용하여, 상기 타겟 모델이 사전에 트레이닝되는 것을 특징으로 하는 분류장치를 제공한다.
본 개시의 다른 실시예에 따르면, 명령어가 저장된, 컴퓨터로 읽을 수 있는 기록매체로서, 상기 명령어는 상기 컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금, 타겟 모델(target model)을 이용하여, 입력 샘플로부터 특성(feature)을 추출하고, 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 과정, 여기서 상기 타겟 모델은 상기 특성을 추출하는 특성 추출기(feature extractor), 및 상기 출력 결과를 생성하는 분류기(classifier)를 포함함; 상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정; 동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 타겟 모델의 파라미터를 업데이트하는 과정을 실행하도록 하는 것을 특징으로 하는, 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이상에서 설명한 바와 같이 본 실시예에 따르면, 소수의 학습 샘플을 이용하여 타겟 모델을 트레이닝함에 있어서, 동일 클래스에 포함된 학습 샘플로부터 추출된 특성 간 유사성을 증대시키는 샘플 기반 정규화 기법을 이용하여 타겟 모델을 정밀 조정하는 전이 학습장치 및 방법을 제공함으로써, 과적합(overfitting)되는 것을 방지하여 타겟 모델의 성능 향상이 가능해지는 효과가 있다.
또한 본 실시예에 따르면, 소수의 학습 샘플을 이용하여 타겟 모델을 트레이닝함에 있어서, 동일 클래스에 포함된 학습 샘플로부터 추출된 특성 간 유사성을 증대시키는 샘플 기반 정규화 항목을 효율적으로 계산하여 타겟 모델을 정밀 조정하는 전이 학습장치 및 방법을 제공함으로써, 타겟 모델에 대한 트레이닝 복잡도를 감소시키는 것이 가능해지는 효과가 있다.
도 1은 전이 학습방법에 대한 개념도이다.
도 2는 본 개시의 일 실시예에 따른 전이 학습장치의 블록도이다.
도 3은 본 개시의 일 실시예에 따른 샘플 기반 정규화 기법에 대한 개념도이다.
도 4는 본 개시의 일 실시예에 따른 전이 학습방법의 순서도이다.
이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.
본 실시예는 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법에 대한 내용을 개시한다. 보다 자세하게는, 기트레이닝된 소스 모델의 구조 및 파라미터를 차용하여 초기화된 타겟 모델을, 소수의 학습 샘플을 이용하여 트레이닝함에 있어서, 동일 클래스(class)에 포함된 학습 샘플로부터 추출된 특성 간 유사성(similarity)을 증대시키는 샘플 기반 정규화 기법(sample-based regularization)을 이용하여 타겟 모델을 정밀 조정(fine-tuning)하는 전이 학습장치 및 방법을 제공한다.
도 1에 도시된 바와 같이 전이 학습(transfer learning)은 소스 과제에 대한 소스 모델(110)의 기트레이닝, 소스 모델(110)의 구조 및 파라미터의 타겟 모델(100) 측의 전이, 및 타겟 과제에 대한 타겟 모델(100)의 정밀 조정을 모두 포함하는 것이 일반적이나, 이하 소수의 학습용 데이터를 이용하는 정밀 조정의 구현에 대한 특징을 갖는 전이 학습장치 및 방법을 설명한다.
소스 모델(110) 및 타겟 모델(100)이 분류(classification)을 수행하는 심층신경망(deep neural network)인 경우, 도 1에 도시된 바와 같이 각 심층신경망은 특성 추출기(feature extractor)와 분류기(classifier)를 포함할 수 있다. 최종적인 클래스로 분류된 출력을 생성하는 선형 레이어(linear layer)가 분류기로 간주되고, 입력을 획득하는 레이어(예컨대, 도 1의 레이어 1)부터 분류기 측으로 출력을 전달하는 레이어(예컨대, 도 1의 레이어 L(L은 자연수))까지를 포함하는 부분이 특성 추출기로 간주될 수 있다.
본 실시예에서, 전이(transfer)는 동일 구조를 갖는 딥러닝(deep learning) 기반 심층신경망 모델들 간에 실행되는 것으로 가정한다.
본 실시예에 따른 전이 학습장치 및 방법은 서버(미도시) 또는 서버에 준하는 연산 능력을 보유하는 프로그램가능 시스템에서 구현되는 것으로 가정한다.
도 2는 본 개시의 일 실시예에 따른 전이 학습장치의 블록도이다.
본 개시에 따른 실시예에 있어서, 전이 학습장치(200)는, 기트레이닝된 소스 모델(110)의 구조 및 파라미터를 차용하여 초기화된 타겟 모델(100)을 트레이닝함에 있어서, 동일 클래스에 포함된 학습 샘플로부터 추출된 특성 간 유사성을 증대시키는 샘플 기반 정규화 기법을 이용하여 타겟 모델(100)을 정밀 조정(fine-tuning)한다. 전이 학습장치(200)는 타겟 모델(100)의 구성요소인 특성 추출기(202)와 분류기(204), 및 경사도 감쇄 레이어(gradient reduction layer, 206)까지의 전부 또는 일부를 포함한다. 여기서, 본 실시예에 따른 전이 학습장치(200)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 전이 학습장치(200)는 심층신경망 기반 타겟 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.
본 실시예에 따른 타겟 모델(100)의 특성 추출기(202)는 학습용 입력 샘플로부터 특성을 추출한다.
타겟 모델(100)의 분류기(204)는 추출된 특성을 이용하여 입력 샘플의 클래스를 분류(classify)한 출력을 생성한다.
본 실시예에 따른 경사도 감쇄 레이어(206)는, 분류 손실(classification loss)에 따른 경사도(gradient)를 특성 추출기(202) 측으로 역방향 전파(backward propagation) 시, 경사도를 감쇄시킨다. 분류 손실 및 경사도 감쇄 레이어(206)의 역할에 대한 사항은 추후에 설명하기로 한다.
도 2의 도시는 본 실시예에 따른 예시적인 구성이며, 입력의 형태, 특성 추출기 및 분류기의 구조 및 형태에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 다양한 구현이 가능하다.
타겟 과제(target task)를 학습하기 위한 타겟 모델(100)의 학습용 데이터는 N(N은 자연수) 개의 입력 샘플 x 및 해당하는 레이블(label) y로 구성되고, 따라서 전체 학습용 데이터세트 X = {(x i,y i)}, i=1..N와 같이 표현할 수 있다. 또한, 특성 추출기(202)는 f, 분류기(204)는 g로 표시하고, f와 g 각각의 파라미터는 w f와 w g로 표시하며, f 및 g를 포함하는 타겟 모델(100)의 파라미터는 w로 표현한다.
기트레이닝된 소스 모델(110)의 구조 및 파라미터를 차용하여 타겟 모델(100)을 초기화함에 있어서, 전이 학습장치(200)의 트레이닝부는 소스 모델(110)의 특성 추출기의 파라미터 w f *를 이용하여 특성 추출기(202)의 파라미터를 초기화하고, 분류기(204)의 파라미터를 랜덤값(random value)으로 초기화할 수 있다.
본 실시예에 따른 트레이닝부가 타겟 모델(100)을 트레이닝하기 위한 일반적인 손실 함수 L T는 수학식 1로 나타낼 수 있다.
Figure PCTKR2021004648-appb-img-000001
여기서, 첫 번째 항은 타겟 모델(100)의 레이블에 대한 추론 수준을 평가하는 분류 손실(classification loss) L cls이고, 두 번째 항은 일반화 성능(generalization performance)을 향상시키기 위한 정규화 항목(regularization term) Ω(예컨대, L2 정규화 기법이 이용된 경우
Figure PCTKR2021004648-appb-img-000002
로 설정)에 하이퍼파라미터 λ를 승산한 것이다.
분류 손실 L cls는 타겟 모델(100)의 분류기(204)의 출력과 레이블 간의 비유사도(dissimilarity)를 기반으로 산정될 수 있다. 분류기(204)의 경우, 출력과 레이블 간의 비유사도를 표현하기 위해 크로스 엔트로피(cross entropy)가 주로 이용되나, 반드시 이에 한정하는 것은 아니며, 거리 메트릭(distance metric, 예컨대, L1 메트릭, L2 메트릭 등), 유사도 메트릭(similarity metric, 예컨대, 코사인 유사도(cosine similarity), 내적(inner product), 크로스 엔트로피 등) 등과 같이 두 비교 대상 간의 차이(difference)를 표현할 수 있는 어느 것이든 이용될 수 있다.
도 3은 본 개시의 일 실시예에 따른 샘플 기반 정규화 기법에 대한 개념도이다.
수학식 1에 나타낸 바와 같은 정규화 항목 Ω에 더하여, 타겟 모델의 일반화 성능을 더 개선하기 위하여, 본 실시예에 따른 트레이닝부는 추가적인 정규화 항목을 이용한다. 본 실시예에서는, 정규화의 기준으로서 소스 모델(110)을 이용하는 대신, 학습용 샘플로부터 추출된 특성이 이용된다. 도 3에 예시된 바와 같이, 동일 클래스에 포함된 각각의 샘플은 정규화를 위한 상호 간의 기준일 수 있으며, 이하 이러한 샘플을 기준으로 정규화 항목을 산정하는 방법을 샘플 기반 정규화 기법(Sample-based Regularization: SBR)으로 표현한다. SBR을 이용하여 동일 클래스에 포함된 샘플들 간의 유사성을 최대화하는 방향으로 타겟 모델(100)을 트레이닝함으로써, 트레이닝부는 소수의 학습용 데이터의 사용에 따른 과적합(overfitting)을 방지할 수 있다.
동일 클래스에 포함된 각 샘플에 대한 특성이 근접시킨다라는 측면에서, 유사성의 최대화는 크로스 엔트로피를 기반으로 분류를 수행하는 타겟 모델(100)에 대한 일반적인 학습 방법일 수 있다. 그러나, 본 실시예에 따른 SBR은 상이한 클래스의 샘플들을 직접 구별하지는 않으며, 타겟 모델(100)의 분류기(204)가 클래스 간의 구별을 실행하도록 한다.
본 실시예에 있어서, SBR의 적용에 따른 정규화 항목 L sbr은 수학식 2로 나타낼 수 있다.
Figure PCTKR2021004648-appb-img-000003
여기서, C는 분류하고자 하는 전체 클래스의 개수이며, X c는 학습용 데이터 중 클래스 c에 포함된 샘플 페어의 집합(Xc = {(x i,x j)|y i=c,y j=c})으로서 하나의 레이블을 갖는다. 함수 D는 두 대상, 즉 샘플 페어에 대한 특성 추출기(202)의 출력들 간의 비유사도를 측정한다. SBR은 동일 클래스에 포함된 상이한 두 샘플 각각에 대한 특성 추출기(202)의 출력들이 서로 유사한 값을 갖도록 유도한다. SBR은 하나의 클래스에 포함된 모든 가능한 샘플 페어, 및 학습용 데이터에 포함된 모든 클래스를 고려한다.
본 개시의 다른 실시예에 있어서, 비교 대상이 되는 두 샘플의 동일 클래스에 대한 포함 여부와 무관하게, 모든 가능한 샘플 페어에 대한 유사도의 증가를 추구하는 단순 형태의 SBR인 경우, 정규화 항목 L sbr은 수학식 3으로 나타낼 수 있다.
Figure PCTKR2021004648-appb-img-000004
여기서, X는 학습용 데이터 전체의 집합이다.
수학식 2 또는 수학식 3에 나타낸 바와 같이 학습용 데이터 또는 동일 클래스에 포함된 데이터 중에서 가능한 샘플 페어를 모두 고려하는 경우, 학습 시간이 길어질 수 있다. 이를 보완하기 위해, 클래스에 대하여 미니 배치(mini-batch) 단위로 트레이닝을 수행하는 경우, 하나의 미니 배치에 포함된 샘플 페어에 대한 유사도를 고려하는 정규화 항목 L sbr을 수학식 4에 나타낸 바와 같이 정의할 수 있다.
Figure PCTKR2021004648-appb-img-000005
여기서, N c는 하나의 미니 배치 내에서 클래스 c에 포함된 샘플의 개수, B c는 하나의 미니 배치 내에서 클래스 c에 포함된 샘플의 집합을 나타낸다. N C pair = N C(N C-1)는 미니 배치 내에서 클래스 c에 포함된 샘플로 이루어진 모든 페어의 개수이다.
한편, 수학식 2 내지 수학식 4에서, 함수 D가 측정하는 비유사도는 거리 메트릭(예컨대, L1, L2 메트릭 등), 유사도 메트릭(예컨대, 코사인 유사도, 내적, 크로스 엔트로피 등) 등과 같이 두 비교 대상 간의 차이를 표현할 수 있는 어느 것이든 이용할 수 있다.
이하, 손실 함수에 사용되는 정규화 항목 Ω와 구분하기 위하여 정규화 항목 L sbr을 SBR 손실로 표현한다.
전술한 바와 같이 분류를 위한 학습에서, 크로스 엔트로피 기반의 손실 함수 및 소수의 학습용 데이터를 이용하여 심층신경망 모델을 트레이닝하는 경우, 소수의 학습용 데이터와 실제 분류에 이용되는 데이터 간의 분포가 상이할 수 있다. 이러한 분포 간 상이성에 기인하는 과적합 문제의 발생 가능성 때문에, 트레이닝된 모델의 분류 성능이 심하게 저하될 수 있다.
따라서, 수학식 5에 나타낸 바와 같이, 본 실시예에 따른 트레이닝부는 타겟 모델(100)에 포함된 특성 추출기(202) 및 분류기(204) 각각의 트레이닝에 상이한 손실 함수 L f 및 L g를 이용함으로써, 과적합 문제에 따른 성능 저하에 대처한다.
Figure PCTKR2021004648-appb-img-000006
수학식 1에서 나타낸 바와 같이, L cls는 타겟 모델(100)의 레이블 추론 수준을 평가하는 분류 손실이다. 분류기(204)를 위한 손실 함수 L g는 L cls와 Ω의 선형 결합이고, 특성 추출기(202)를 위한 손실 함수 L f는 L cls, L sbr 및 Ω 각각의 가중 결합이다. 여기서, α, β, λ g 및 λ f는 하이퍼파라미터이다. 손실 함수 L f에 이용된 L sbr은 수학식 4에 나타낸 SBR 손실이나, 반드시 이에 한정하는 것은 아니며, 수학식 2 또는 3에 나타낸 SBR 손실이 이용될 수도 있다.
본 실시예에 따른 트레이닝부는 수학식 5에 나타낸 바와 같은 손실 함수를 이용하여 특성 추출기(202) 및 분류기(204) 각각의 파라미터를 업데이트함으로써, 타겟 모델(100)에 대한 정밀 조정을 실행할 수 있다.
수학식 5에 나타낸 바와 같이 손실 함수를 분리함으로써, 트레이닝부는 하이퍼파라미터 α을 조절하여 분류기(204)와는 다른 비중으로 L cls를 특성 추출기(202)를 위한 손실 함수 L f에 반영할 수 있고, 하이퍼파라미터 β를 조절하여 L cls와 적절한 비율로 SBR 손실 L sbr을 손실 함수 L f에 반영할 수 있다. 하이퍼파라미터 α와 β는 어떤 값이든 설정이 가능하나, 학습용 데이터가 소수인 경우, 트레이닝부는 α를 1보다 작은 값으로 설정하여 L cls의 비중을 상대적으로 감소시킴으로써 레이블에 대한 의존도를 저하시킬 수 있다. 또한 트레이닝부는 β를 적절한 값으로 설정함으로써, 샘플 페어의 상대적인 관계를 이용하는 SBR의 효과를 기반으로 특성 추출기(202)에서 과적합의 영향을 감소시키는 것을 기대할 수 있다.
한편, 트레이닝부는 타겟 모델(100)에 대한 정밀 조정을 위하여, 수학식 6에 나타낸 바와 같이 파라미터 w f 및 w g를 업데이트할 수 있다.
Figure PCTKR2021004648-appb-img-000007
여기서, η g η f는 하이퍼파라미터로서, 분류기(204) 및 특성 추출기(202) 각각의 트레이닝 속도를 조절하기 위한 학습률(learning rate)이다. 또한, ▽는 손실 항목 각각에 대한 경사도를 산정하는 것을 의미하는 연산자이다.
특징 추출기(202)에 대한 손실 함수 L f가 산정될 때 L cls에 α를 승산하는 것은, 도 2의 도시 및 수학식 6에 나타낸 바와 같이, 역방향전파(backward propagation)를 이용하는 트레이닝 시, 분류기(204)에서 특성 추출기(202)의 방향(즉 역방향)으로 전달되는 L cls의 경사도(gradient) ▽L cls에 α를 승산하여 전달하는 것과 동일하다. 따라서, 전술한 바와 같이 α가 1보다 작게 설정되면 경사도가 감쇄되고, 특성 추출기(202)의 트레이닝 시, L cls의 영향력이 상대적으로 감소될 수 있다. 도 2에 도시된 바와 같은 경사도 감쇄 레이어(206)는 L cls에 기초하는 역방향 경사도에 α를 승산함으로써, L cls에 α를 승산하는 것과 동일한 효과를 생성할 수 있다.
수학식 6에 따르면, 특성 추출기(202)의 트레이닝 시, 학습률 η f를 조절하여 경사도를 감쇄시킬 수 있으나, 학습률은 손실 함수 L f의 모든 항목에 공통적으로 영향을 줄 수 있다. 따라서, L cls의 영향을 독립적으로 조절하기 위해서 하이퍼파라미터 α를 이용하여 경사도를 감쇄시키는 것이 특성 추출기(202)의 트레이닝에 더 효율적일 수 있다.
한편, SBR 손실 L sbr로서 유클리디안 거리의 제곱(square of Euclidean distance)을 이용하는 경우, 트레이닝부는 다음과 같은 학습 속도의 개선 방안을 이용할 수 있다. 유클리디안 거리의 제곱을 이용하는
Figure PCTKR2021004648-appb-img-000008
은 수학식 7로 나타낼 수 있다.
Figure PCTKR2021004648-appb-img-000009
수학적인 전개 과정을 이용하여, 수학식 7은 수학식 8로 변경될 수 있다.
Figure PCTKR2021004648-appb-img-000010
여기서, C c는 하나의 미니 배치 내에서 클래스 c에 포함되는 모든 샘플 각각에 대한 특성 추출기(202)의 출력의 평균이며, 수학식 9로 나타낼 수 있다.
Figure PCTKR2021004648-appb-img-000011
N c pair 개의 샘플 페어에 대한 특성 추출기(202)의 출력 간 차이를 계산하는 대신, 수학식 8에 나타낸 바와 같이, 트레이닝부는 특성 추출기(202)의 출력의 클래스 별 평균(C c)을 계산하고, 이 평균과 N c 개의 샘플의 특성 추출기(202)의 출력 간의 차이를 구한다. 수학식 8에 나타낸 바와 같은 변형을 이용하여 더 적은 연산량으로 수학식 7과 동일한 결과를 획득하는 것이 가능하며, 점근 계산 복잡도(asymptotic computational complexity) 측면에서 수학식 7은 O(N c 2), 수학식 8은 O(N c)의 복잡도를 갖는다. 따라서, 유클리디안 거리의 제곱에 기반하여 미니 배치 단위로 트레이닝을 수행하는 경우, 수학식 8에 나타낸 바를 이용하여 SBR 손실이 더 효율적으로 산정될 수 있다.
이상에서 설명한 바와 같이 본 실시예에 따르면, 소수의 학습 샘플을 이용하여 타겟 모델을 트레이닝함에 있어서, 동일 클래스에 포함된 학습 샘플로부터 추출된 특성 간 유사성을 증대시키는 샘플 기반 정규화 항목을 효율적으로 계산하여 타겟 모델을 정밀 조정하는 전이 학습장치를 제공함으로써, 타겟 모델에 대한 트레이닝 복잡도를 감소시키는 것이 가능해지는 효과가 있다.
도 4는 본 개시의 일 실시예에 따른 전이 학습방법의 순서도이다.
본 실시예에 따른 전이 학습장치(200)의 트레이닝부는 타겟 모델(target model)을 이용하여, 입력 샘플로부터 특성(feature)을 추출하고, 추출된 특성을 이용하여 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성한다(S400). 여기서, 타겟 모델(100)은 특성을 추출하는 특성 추출기(202), 및 출력 결과를 생성하는 분류기(204)를 포함한다.
타겟 모델(100)은 심층신경망으로 구현되고, 기트레이닝된 심층신경망 기반 소스 모델(110)의 구조 및 파라미터를 차용하여 초기화된다. 트레이닝부는 소스 모델(110)의 특성 추출기의 파라미터를 이용하여 타겟 모델(100)의 특성 추출기(202)의 파라미터를 초기화하고, 분류기(204)의 파라미터를 랜덤값(random value)으로 초기화할 수 있다.
타겟 모델(100)의 전이 학습에는 소수의 학습용 데이터가 이용되고, 학습용 데이터는 입력 샘플을 포함하는 것으로 가정한다.
트레이닝부는 출력 결과 및 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정한다(S402).
분류 손실은 타겟 모델(100)의 레이블에 대한 추론 수준을 평가하는 손실 항목으로서, 타겟 모델(100)의 분류기(204)의 출력과 레이블 간의 비유사도를 기반으로 산정될 수 있다. 분류기(204)의 경우, 출력과 레이블 간의 비유사도를 표현하기 위해 크로스 엔트로피(cross entropy)가 주로 이용되나, 반드시 이에 한정하는 것은 아니며, 거리 메트릭(예컨대, L1, L2 메트릭 등), 유사도 메트릭(예컨대, 코사인 유사도, 내적, 크로스 엔트로피 등) 등과 같이 두 비교 대상 간의 차이를 표현할 수 있는 어느 것이든 이용할 수 있다.
트레이닝부는 동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정한다(S404).
타겟 모델(100)의 일반화 성능을 개선하기 위하여, 트레이닝부는 정규화 항목으로서 SBR 손실을 이용한다. 정규화의 기준으로서 소스 모델(110)을 이용하는 대신, 학습용 입력 샘플로부터 추출된 특성이 이용된다. 동일 클래스에 포함된 각각의 샘플은 정규화를 위한 상호 간의 기준일 수 있으며, 이하 이러한 샘플을 기준으로 정규화 항목을 산정하는 방법을 샘플 기반 정규화 기법(Sample-based Regularization: SBR)으로 표현한다. SBR을 이용하여 동일 클래스에 포함된 샘플들 각각에 대한 출력 간의 유사성을 최대화하는 방향으로 타겟 모델(100)을 트레이닝함으로써, 트레이닝부는 소수의 학습용 데이터의 사용에 따른 과적합(overfitting)을 방지할 수 있다.
트레이닝부는 동일 클래스에 속하는 입력 샘플 페어로부터 추출된 특성 페어를 구성하는 두 특성 간의 비유사도에 기반하여 SBR 손실을 산정한다.
동일 클래스에 포함된 데이터 중에서 가능한 샘플 페어를 모두 고려하는 경우, 학습 시간이 길어질 수 있다. 이를 보완하기 위해, 클래스에 대하여 미니 배치(mini-batch) 단위로 트레이닝을 수행하는 경우, 하나의 미니 배치에 포함된 샘플 페어로부터 추출된 특성 페어의 비유사도에 기반하여 SBR 손실이 산정될 수 있다. 여기서, 비유사도는 거리 메트릭(예컨대, L1, L2 메트릭 등), 유사도 메트릭(예컨대, 코사인 유사도, 내적, 크로스 엔트로피 등) 등과 같이 두 비교 대상 간의 차이를 표현할 수 있는 어느 것이든 이용할 수 있다.
트레이닝부는 분류 손실 및 SBR 손실의 전부 또는 일부를 기반으로 타겟 모델의 파라미터를 업데이트한다(S406).
타겟 모델의 정밀 조정하기 위해 파라미터를 업데이트함에 있어서, 트레이닝부는 타겟 모델(100)에 포함된 특성 추출기(202) 및 분류기(204) 각각의 트레이닝에 상이한 손실 함수를 이용함으로써, 과적합 문제에 따른 성능 저하에 대처한다. 분류 손실을 이용하여 분류기(204)를 위한 손실 함수가 생성되고, 분류 손실 및 SBR 손실을 하이퍼파라미터로 가중 결합하여 특성 추출기(202)를 위한 손실 함수가 생성된다. 따라서, 트레이닝부는 분류 손실을 기반으로 분류기(204)의 파라미터를 업데이트하고, 분류 손실 및 상기 SBR 손실을 기반으로 특성 추출기(202)의 파라미터를 업데이트할 수 있다.
손실 함수를 분리함으로써, 트레이닝부는 분류 손실에 승산되는 하이퍼파라미터를 조절하여 분류기(204)와는 다른 비중으로 분류 손실을 특성 추출기(202)를 위한 손실 함수에 반영할 수 있다. 학습용 데이터가 소수인 경우, 트레이닝부는 하이퍼파라미터를 1보다 작은 값으로 설정하여 분류 손실의 비중을 상대적으로 감소시킴으로써 레이블에 대한 의존도를 저하시킬 수 있다.
한편, 특성 추출기(202)를 위한 손실 함수가 산정될 때, 분류 손실에 하이퍼파라미터를 승산하는 것은, 역방향전파(backward propagation)를 통한 트레이닝 시, 분류기(204)에서 특성 추출기(202)의 방향(즉 역방향)으로 전달되는 분류 손실의 경사도(gradient)에 하이퍼파라미터를 승산하여 전달하는 것과 동일하다. 따라서, 전술한 바와 같이 하이퍼파라미터가 1보다 작게 설정되면 경사도가 감쇄되고, 특성 추출기(202)의 트레이닝 시, 분류 손실의 영향력이 상대적으로 감소될 수 있다.
이상에서 설명한 바와 같이 본 실시예에 따르면, 소수의 학습 샘플을 이용하여 타겟 모델을 트레이닝함에 있어서, 동일 클래스에 포함된 학습 샘플로부터 추출된 특성 간 유사성을 증대시키는 샘플 기반 정규화 기법을 이용하여 타겟 모델을 정밀 조정하는 전이 학습장치 및 방법을 제공함으로써, 과적합(overfitting)되는 것을 방지하여 타겟 모델의 성능 향상이 가능해지는 효과가 있다.
본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다.
컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
(부호의 설명)
100: 타겟 모델 110: 소스 모델
200: 전이 학습장치 202: 특성 추출기
204: 분류기 206: 경사도 감쇄 레이어
CROSS-REFERENCE TO RELATED APPLICATION
본 특허출원은 2020년 5월 7일 한국에 출원한 특허출원번호 제10-2020-0054448 호에 대해 우선권을 주장하며, 그 모든 내용은 참고문헌으로 본 특허출원에 병합된다.

Claims (11)

  1. 전이 학습장치의 타겟 모델(target model)에 대한 전이 학습방법에 있어서,
    상기 타겟 모델(target model)을 이용하여, 입력 샘플로부터 특성(feature)을 추출하고, 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 과정, 여기서 상기 타겟 모델은 상기 특성을 추출하는 특성 추출기(feature extractor), 및 상기 출력 결과를 생성하는 분류기(classifier)를 포함함;
    상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정;
    동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및
    상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 타겟 모델의 파라미터를 업데이트하는 과정
    을 포함하는 것을 특징으로 하는 전이 학습방법.
  2. 제1항에 있어서,
    상기 분류 손실에 따른 경사도(gradient)를 상기 특성 추출기 측으로 역방향 전파(backward propagation) 시, 경사도 감쇄 레이어(gradient reduction layer)를 이용하여 하이퍼파라미터를 승산함으로써 상기 경사도를 감소시키는 과정을 더 포함하는 것을 특징으로 하는 전이 학습방법.
  3. 제1항에 있어서,
    상기 타겟 모델은,
    심층신경망(deep neural network)으로 구현되고, 기트레이닝된(pre-trained) 심층신경망 기반 소스 모델(source model)의 구조 및 파라미터를 이용하여 초기화되되, 상기 소스 모델의 파라미터를 이용하여 상기 특성 추출기의 파라미터가 초기화되고, 랜덤값(random value)으로 상기 분류기의 파라미터가 초기화되는 것을 특징으로 하는 전이 학습방법.
  4. 제1항에 있어서,
    상기 분류 손실은 상기 출력 결과와 상기 레이블 간의 비유사도(dissimilarity)에 기반하여 산정되고, 상기 SBR 손실은 상기 특성 페어를 구성하는 두 특성 간의 비유사도에 기반하여 산정되는 것을 특징으로 하는 전이 학습방법.
  5. 제1항에 있어서,
    상기 파라미터를 업데이트하는 과정은,
    상기 분류 손실을 기반으로 상기 분류기의 파라미터를 업데이트하고, 상기 분류 손실 및 상기 SBR 손실을 기반으로 상기 특성 추출기의 파라미터를 업데이트하는 것을 특징으로 하는 전이 학습방법.
  6. 제1항에 있어서,
    상기 동일 클래스에 대하여 미니 배치(mini-batch) 단위로 상기 타겟 모델에 대한 트레이닝을 수행함에 있어서, 상기 미니 배치에 포함된 입력 샘플로부터 추출된 특성과 상기 미니 배치에 포함된 모든 입력 샘플로부터 추출된 특성들의 평균 간의 유클리디안 거리의 제곱(square of Euclidean distance)을 이용하여 상기 SBR 손실을 산정하는 것을 특징으로 하는 전이 학습방법.
  7. 입력 샘플로부터 특성(feature)을 추출하는 특성 추출기(feature extractor); 및
    상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 분류기(classifier)
    를 포함하는 타겟 모델(target model)을 포함하되,
    상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하고, 동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하며, 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 특성 추출기 및 상기 분류기 중 적어도 어느 하나의 파라미터를 업데이트함으로써 상기 타겟 모델을 트레이닝시키는 것을 특징으로 하는 전이 학습장치.
  8. 제7항에 있어서,
    상기 분류 손실에 따른 경사도(gradient)를 상기 특성 추출기 측으로 역방향 전파(backward propagation) 시, 하이퍼파라미터를 승산하여 상기 경사도를 감소시키는 경사도 감쇄 레이어(gradient reduction layer)를 더 포함하는 것을 특징으로 하는 전이 학습장치.
  9. 제7항에 있어서,
    상기 타겟 모델은,
    심층신경망(deep neural network)으로 구현되고, 기트레이닝된(pre-trained) 심층신경망 기반 소스 모델(source model)의 구조 및 파라미터를 이용하여 초기화되되, 상기 소스 모델의 파라미터를 이용하여 상기 특성 추출기의 파라미터가 초기화되고, 랜덤값(random value)으로 상기 분류기의 파라미터가 초기화되는 것을 특징으로 하는 전이 학습장치.
  10. 입력 샘플로부터 특성(feature)를 추출하는 특성 추출기(feature extractor); 및
    상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)하는 분류기(classifier)
    를 포함하는 타겟 모델(target model)을 이용하여 상기 클래스를 분류한 출력 결과를 생성하되,
    학습용 입력 샘플에 대한 출력 결과 및 상기 학습용 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정; 동일 클래스(class)에 속하는 학습용 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및 상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 특성 추출기 및 상기 분류기 중 적어도 어느 하나의 파라미터를 업데이트하는 과정을 이용하여, 상기 타겟 모델이 사전에 트레이닝되는 것을 특징으로 하는 분류장치.
  11. 명령어가 저장된, 컴퓨터로 읽을 수 있는 기록매체로서, 상기 명령어는 상기 컴퓨터에 의해 실행될 때 상기 컴퓨터로 하여금,
    타겟 모델(target model)을 이용하여, 입력 샘플로부터 특성(feature)을 추출하고, 상기 특성을 이용하여 상기 입력 샘플의 클래스를 분류(classify)한 출력 결과를 생성하는 과정, 여기서 상기 타겟 모델은 상기 특성을 추출하는 특성 추출기(feature extractor), 및 상기 출력 결과를 생성하는 분류기(classifier)를 포함함;
    상기 출력 결과 및 상기 입력 샘플에 해당되는 레이블(label)을 이용하여 분류 손실(classification loss)을 산정하는 과정;
    동일 클래스(class)에 속하는 입력 샘플 페어(pair)로부터 추출된 특성 페어를 기반으로 SBR(Sample-based Regularization) 손실을 산정하는 과정; 및
    상기 분류 손실 및 상기 SBR 손실의 전부 또는 일부를 기반으로 상기 타겟 모델의 파라미터를 업데이트하는 과정
    을 실행하도록 하는 것을 특징으로 하는, 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2021/004648 2020-05-07 2021-04-13 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법 WO2021225294A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/797,702 US20230153631A1 (en) 2020-05-07 2021-04-13 Method and apparatus for transfer learning using sample-based regularization
CN202180027418.XA CN115398450A (zh) 2020-05-07 2021-04-13 使用基于样本的正则化技术的迁移学习设备和方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0054448 2020-05-07
KR1020200054448A KR102421349B1 (ko) 2020-05-07 2020-05-07 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법

Publications (1)

Publication Number Publication Date
WO2021225294A1 true WO2021225294A1 (ko) 2021-11-11

Family

ID=78468252

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/004648 WO2021225294A1 (ko) 2020-05-07 2021-04-13 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법

Country Status (4)

Country Link
US (1) US20230153631A1 (ko)
KR (1) KR102421349B1 (ko)
CN (1) CN115398450A (ko)
WO (1) WO2021225294A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115272880A (zh) * 2022-07-29 2022-11-01 大连理工大学 基于度量学习的多模态遥感目标识别方法
WO2023136375A1 (ko) * 2022-01-13 2023-07-20 엘지전자 주식회사 무선 통신 시스템에서 수신 기기가 단-대-단 학습을 수행하는 방법, 수신 기기, 프로세싱 장치 및 저장 매체, 그리고 전송 기기가 단-대-단 학습을 수행하는 방법, 전송 기기

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240029127A (ko) * 2022-08-26 2024-03-05 한국전자기술연구원 환경정보 인식을 위한 계층적 전이학습 기반의 딥러닝 모델 생성 시스템 및 방법
CN116798521B (zh) * 2023-07-19 2024-02-23 广东美赛尔细胞生物科技有限公司 免疫细胞培养控制系统的异常监测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231348A1 (en) * 2010-03-18 2011-09-22 Microsoft Corporation Regularized Dual Averaging Method for Stochastic and Online Learning
US20170169313A1 (en) * 2015-12-14 2017-06-15 Samsung Electronics Co., Ltd. Image processing apparatus and method based on deep learning and neural network learning
KR20180034395A (ko) * 2015-07-22 2018-04-04 퀄컴 인코포레이티드 뉴럴 네트워크들에서의 러닝 트랜스퍼
KR20190138238A (ko) * 2018-06-04 2019-12-12 삼성전자주식회사 딥 블라인드 전의 학습
KR20190140824A (ko) * 2018-05-31 2019-12-20 한국과학기술원 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231348A1 (en) * 2010-03-18 2011-09-22 Microsoft Corporation Regularized Dual Averaging Method for Stochastic and Online Learning
KR20180034395A (ko) * 2015-07-22 2018-04-04 퀄컴 인코포레이티드 뉴럴 네트워크들에서의 러닝 트랜스퍼
US20170169313A1 (en) * 2015-12-14 2017-06-15 Samsung Electronics Co., Ltd. Image processing apparatus and method based on deep learning and neural network learning
KR20190140824A (ko) * 2018-05-31 2019-12-20 한국과학기술원 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치
KR20190138238A (ko) * 2018-06-04 2019-12-12 삼성전자주식회사 딥 블라인드 전의 학습

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023136375A1 (ko) * 2022-01-13 2023-07-20 엘지전자 주식회사 무선 통신 시스템에서 수신 기기가 단-대-단 학습을 수행하는 방법, 수신 기기, 프로세싱 장치 및 저장 매체, 그리고 전송 기기가 단-대-단 학습을 수행하는 방법, 전송 기기
CN115272880A (zh) * 2022-07-29 2022-11-01 大连理工大学 基于度量学习的多模态遥感目标识别方法

Also Published As

Publication number Publication date
KR20210136344A (ko) 2021-11-17
CN115398450A (zh) 2022-11-25
KR102421349B1 (ko) 2022-07-14
US20230153631A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
WO2021225294A1 (ko) 샘플 기반 정규화 기법을 이용한 전이 학습장치 및 방법
Thilagam et al. Intrusion detection for network based cloud computing by custom RC-NN and optimization
CN116010713A (zh) 基于云计算的创新创业平台服务数据处理方法及系统
CN111598167B (zh) 基于图学习的小样本图像识别方法及系统
CN113971733A (zh) 一种基于超图结构的模型训练方法、分类方法及装置
CN111967309B (zh) 一种电磁信号智能协同识别方法及系统
Zhang et al. Automatic modulation classification using involution enabled residual networks
Bucarelli et al. Leveraging inter-rater agreement for classification in the presence of noisy labels
CN113590857A (zh) 键值匹配方法、装置、可读介质及电子设备
CN116758360B (zh) 土地空间用途管理方法及其系统
WO2022162427A1 (en) Annotation-efficient image anomaly detection
CN116935083A (zh) 一种图像聚类方法和装置
Limonova et al. Bipolar morphological u-net for document binarization
Zhang et al. Blind source separation based on quantum slime mould algorithm in impulse noise
WO2023092938A1 (zh) 一种图像识别方法、装置、设备及介质
He et al. Graph-based transfer learning
WO2023003432A1 (ko) 신경망의 양자화를 위한 포화 비율 기반 양자화 범위의 결정 방법 및 장치
CN116109834A (zh) 一种基于局部正交特征注意力融合的小样本图像分类方法
CN114792114A (zh) 一种基于黑盒多源域通用场景下的无监督域适应方法
CN111382233A (zh) 一种相似文本检测方法、装置、电子设备及存储介质
Pang et al. Semisupervised data classification via the Mumford–Shah–Potts-type model
Vrachimis et al. Resilient edge machine learning in smart city environments
CN113534454A (zh) 一种多芯光纤信道损伤均衡方法及系统
Qing et al. Estimating network memberships by mixed regularized spectral clustering
CN115719465B (zh) 车辆检测方法、装置、设备、存储介质以及程序产品

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21800084

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21800084

Country of ref document: EP

Kind code of ref document: A1