WO2019231105A1 - 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치 - Google Patents

트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치 Download PDF

Info

Publication number
WO2019231105A1
WO2019231105A1 PCT/KR2019/004452 KR2019004452W WO2019231105A1 WO 2019231105 A1 WO2019231105 A1 WO 2019231105A1 KR 2019004452 W KR2019004452 W KR 2019004452W WO 2019231105 A1 WO2019231105 A1 WO 2019231105A1
Authority
WO
WIPO (PCT)
Prior art keywords
loss
triplet
learning
classification
ranking
Prior art date
Application number
PCT/KR2019/004452
Other languages
English (en)
French (fr)
Inventor
양현승
임우빈
홍성은
윤성의
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority claimed from KR1020190043019A external-priority patent/KR20190140824A/ko
Publication of WO2019231105A1 publication Critical patent/WO2019231105A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to image processing using machine learning, and more particularly, to a method and apparatus for performing learning in a deep learning network using a triplet based loss function when there is an order in classifying images. .
  • Deep learning is a machine learning that attempts to achieve high levels of abstraction (summarizing key content or functions in large amounts of data or complex data) through a combination of several nonlinear transformations. Defined as a set of algorithms, it is a field of machine learning that teaches a computer the way a person thinks.
  • Age estimation can be largely divided into classification of age groups or direct prediction of age values, that is, regression tasks.
  • CNNs are widely used in a variety of ways.
  • vanilla CNNs with N-class probability outputs, which provides baseline performance for the Adience benchmark dataset.
  • a study using transferred CNN and attention model has been proposed.
  • the technical problem to be solved by the present invention is that the conventional classification loss, that is, cross-entropy loss does not reflect the ordered feature of the age label, in particular only if the predicted label is correct
  • the conventional classification loss that is, cross-entropy loss does not reflect the ordered feature of the age label, in particular only if the predicted label is correct
  • a learning apparatus having at least one processor according to an embodiment of the present invention, the deep learning model for ordered classification problem learning method, the learning apparatus inputs the learning target Forming a convolutional neural network (CNN) consisting of a branch point and two end points which are divided in the branch to generate a classification loss and a triplet loss; Calculating, by the learning device, classification loss for end-to-end learning; Calculating, by the learning apparatus, a triplet loss so that the network can learn the order characteristic; And based on the calculated classification loss and the triplet loss, the learning apparatus performs relative triplet sampling using a dataset configured as a pair during learning, thereby performing a final triplet sampling on the final loss value. Updating the network.
  • CNN convolutional neural network
  • the calculating of the classification loss may perform classification to minimize the loss by using a classification loss function in order to obtain an accurate prediction value for the learning object.
  • the calculating of the triplet loss may include triplet ranking, which may indicate the magnitude of the error as well as the error of the prediction label for the ordered classification problem.
  • the triplet ranking loss can be used to derive the ordering characteristics of the network.
  • the triplet ranking loss may be learned by considering the difference between the prediction value and the actual value of the learning target and the scale of the difference.
  • updating the network with respect to the final loss value comprises: performing correlation triple sampling in mini-batch; And calculating a final ranking loss by multiplying the loss function and a weight indicating the importance of the triplet using the sampled triplet.
  • updating the network with respect to the final loss value may include cross-entropy loss for the correlation triplet by normalizing a distance difference between features through a softmax function.
  • cross-entropy loss can be used.
  • the magnitude of the gradient may be adjusted according to the importance of the correlation triplet by using a non-uniform weight function that measures the importance change of the correlation triplet.
  • the final classification loss can be set by applying the softmax function to a classifier and applying the softmax cross-entropy to the classification target in the same manner as the correlation triplet ranking loss.
  • the learning method of the deep learning model may further include removing a branch of a network for a triplet loss function and performing only classification when the learning apparatus tests recognition after the learning is completed. .
  • the following provides a computer-readable recording medium recording a program for executing the learning method of the deep learning model described above on a computer.
  • the input unit for receiving a data set for the learning target;
  • a memory for storing a program for learning a deep learning model for an ordered classification problem;
  • a processor configured to learn a deep learning model by executing a program stored in the memory, wherein the program stored in the memory is divided at a branch point and the branch to generate a classification loss and a triplet loss.
  • CNNs Form convolutional neural networks (CNNs) consisting of two endpoints, compute classification losses for end-to-end learning, triplet losses for the network to learn order characteristics, and calculate Based on the classified loss and the triplet loss, and performing relative triplet sampling by using a pair of datasets during training, updating the network with respect to the final loss value.
  • the program stored in the memory calculates the classification loss by performing classification to minimize the loss using a classification loss function in order to obtain an accurate prediction value for the learning object. can do.
  • a program stored in the memory may have a triplet ranking loss that may represent the magnitude of the error as well as the error of the prediction label for the ordered classification problem.
  • the triplet loss can be calculated by deriving a learning of the order characteristics of the network using triplet ranking loss.
  • the triplet ranking loss may be learned by considering the difference between the prediction value and the actual value of the learning target and the scale of the difference.
  • the program stored in the memory performs correlation triplet sampling in a mini-batch, and indicates a loss function and importance of the triplet using the sampled triplet.
  • the final ranking loss can be calculated by multiplying the weights.
  • the program stored in the memory is cross-entropy loss for the correlation triplet by normalizing the distance difference between the features through a softmax function. Can be used.
  • the magnitude of the gradient may be adjusted according to the importance of the correlation triplet by using a non-uniform weight function that measures the importance change of the correlation triplet.
  • the final classification loss can be set by applying the softmax function to a classifier and applying the softmax cross-entropy to the classification target in the same manner as the correlation triplet ranking loss.
  • the program stored in the memory may further include instructions for removing the branch of the network for the triplet loss function and performing only classification when the recognition is tested after the learning is completed. Can be.
  • Embodiments of the present invention provide triplet ranking loss and classification-ranking combination loss as well as classification loss used to estimate the correct classification value in learning a deep learning model for ordered classification problems.
  • the adaptive ranking constraint derived by classification-ranking joint loss, together with a regularizer, the effect of achieving fast and accurate loss adjustment can be achieved.
  • FIG. 1 is a diagram illustrating a concept and a goal proposed by embodiments of the present invention.
  • FIG. 2 is a flowchart illustrating a method of learning a deep learning model for an ordered classification problem according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an overall network framework of a deep learning model learning method according to embodiments of the present invention.
  • FIG. 4 is a schematic visualization of a two-dimensional embedding space (bottleneck).
  • FIG. 5 is a block diagram illustrating an apparatus for learning a deep learning model for an ordered classification problem according to an embodiment of the present invention.
  • FIG. 6 illustrates training a baseline and a model according to embodiments of the present invention on a MORPH Album 2 dataset.
  • FIG. 7 is a diagram illustrating a visualization of the embedding space of the bottleneck features of the network by the T-SNE method.
  • the learning apparatus inputs a learning object and divides it at a branch point and a branch thereof.
  • CNNs Convolutional Neural Networks
  • Deep learning models are often used to solve classification problems. For example, you can classify numbers in handwritten images, or simply classify whether there are dogs or cats in the image.
  • Embodiments of the present invention are all predicated on an ordered classification problem, in which an age prediction may be considered as an example of an ordered classification problem. For example, assuming that a person is 30 years old, recognizes that the recognizer is 29 years old, or 60 years old, the classifier recognizes that there is no problem in both cases. Because they both perceived the wrong value. However, considering that it is an ordered classification problem, the difference in the level of incorrect answers should be evaluated differently when the recognizer recognizes as 29 years old and when perceived as 60 years old. As such, the case where the level of classification may vary according to the order is called an ordered classification problem.
  • Embodiments of the present invention proposed below are intended to propose a technical means for learning more accurately and quickly this ordered classification problem.
  • the loss function used here refers to a function that optimally adjusts to reduce such loss as much as possible. By strategically modifying this loss function, optimization can be performed as quickly and accurately as possible.
  • the main differences between the conventional triplet loss and the ranking constraints proposed by the embodiments of the present invention are two factors: correlation triplet sampling and scale-varying ranking.
  • a triplet has two samples with the same label (anchor and positive), one sample with another label (negative), and an embedding space. )
  • the embedding space refers to mapping of high-dimensional data into a low-dimensional space, and the feature map extracted by CNN and remaining is a embedding space.
  • embodiments of the present invention noted that applying a ranking loss using a constant margin in age estimation does not fully utilize the ordered information in the age label.
  • embodiments of the present invention first relaxed existing stringent selection criteria by proposing correlated triplet sampling in which samples relatively close to anchors are positive and negative. The proposed sampling method can generate more diversity in triplets than in the prior art and ultimately effectively apply the following ranking constraints.
  • the correlation triplet Once the correlation triplet has been sampled, it then applies a varying ranking loss, which automatically determines the importance of the triplet and adjusts the scale of the gradient accordingly.
  • This allows the model to learn the ranking without a fixed margin constant and also act like a regularizer that prevents the model from overfitting.
  • overfitting refers to a problem in which learning only depends on the training data, but not limited to the actual phenomena, but limited to the training data, and regularizing decentralizes focusing only on classification problems. It means learning. In other words, what is important in the ordered classification problem is whether the error level is large or small, rather than whether the prediction label (result) is correct.
  • FIG. 1 illustrates a concept and a goal proposed by embodiments of the present invention.
  • the (central) classification loss only considers the label
  • the (left) ranking loss takes into account the age difference of the triplet, which is an additional clue in inferring age
  • I) Adaptive triplet ranking loss takes into account the scale of the differences, so that larger ranking loss is applied to the triplet.
  • triplet loss when triplet loss is adopted, if the predicted age is 35 years old, it becomes positive and recognizes that the prediction should be made smaller. On the other hand, when the predicted age is 23 years old, it becomes negative to induce a larger prediction.
  • the triplet ranking loss is applied to both the age difference and the scale of the difference to induce faster learning.
  • the conventional triplet ranking loss there was only a larger ranking loss on the right side.
  • a limit is found that no learning occurs after entering a certain age difference. Therefore, first, the larger ranking loss was derived to be classified into similar age groups, and then, the ranking loss on the left side was applied to bring it closer to the actual value.
  • the main ideas proposed by the embodiments of the present invention are as follows:
  • Embodiments of the present invention propose an adaptive, varying ranking loss that prevents overfitting of the model by operating like a regularizer, which helps to improve the estimation performance. This is the first attempt to apply the triple ranking method to effectively train the model on age estimation.
  • embodiments of the present invention propose a correlated triplet sampling scheme aimed at the successful application of a ranking loss with varying scale.
  • FIG. 2 is a flowchart illustrating a method of learning a deep learning model for an ordered classification problem according to an embodiment of the present invention, and illustrates a series of operations performed by a learning apparatus having at least one processor.
  • step S210 the learning apparatus forms a convolutional neural network (CNN) consisting of two endpoints that take a learning object as input and are divided at the branch and the branch to generate a classification loss and a triplet loss. do.
  • CNN convolutional neural network
  • the learning apparatus calculates a classification loss for end-to-end learning, which means a method for processing the necessary processing of the various steps of the data processing and learning system at one time, and the network is ordered.
  • the triplet loss is calculated so that the characteristic can be learned.
  • the process of calculating the classification loss is achieved by performing classification so that the loss is minimized by using the classification loss function to obtain an accurate prediction value for the learning object.
  • the process of calculating the triplet loss may include a triplet ranking loss of the network using the triplet ranking loss, which may represent the magnitude of the error as well as the prediction label for the ordered classification problem. This is accomplished by deriving to learn the order property.
  • the triplet ranking loss is learned by considering the difference between the predicted value and the actual value of the learning target and the scale of the difference.
  • the learning apparatus performs final triplet sampling by performing relative triplet sampling based on the calculated classification loss and the triplet loss, using a dataset configured as a pair during learning. Update the network for loss values. This process can calculate the final ranking loss by performing correlation triplet sampling in a mini-batch and multiplying the loss function and the weight representing the importance of the triplet using the sampled triplet.
  • the learning apparatus may further include a step (not shown) of removing a branch of the network for the triplet loss function and performing only classification when the recognition is tested after the learning is completed.
  • embodiments of the present invention are based on a deep end-to-end learnable deep convolutional neural network (CNN).
  • CNN deep convolutional neural network
  • embodiments of the present invention applied an adaptive triplet ranking strategy (L T : Equation 6 to be described later) by selecting a triplet and calculating a triplet ranking loss at which the scale changes.
  • the final goal in embodiments of the present invention is to jointly include the ranking (L T : (6)) and the classification loss (L C : (9) described later) simultaneously.
  • the learning method has a scale-varying triplet ranking module and a softmax output.
  • the final goal of the present invention is to estimate the correct age by the softmax layer given a face image.
  • the triplet ranking module provides the relevant age difference given to the triplet to induce better age inference.
  • the final goal function includes both triplet ranking and classification losses.
  • Triplet sampling is an integral part of triplet ranking losses.
  • Conventional applications using triplet loss only deal with binary labels, ie whether two samples belong to the same classification.
  • triplet samples (a, p, n), usually called anchor, positive, and negative samples, are selected. .
  • the ages of two faces can be treated the same or differently, they are less effective for ordered classifications such as age.
  • One aspect is that the pool of triplets available from this point of view is limited. Assume that there is a mini-batch of size N with the same number of samples for each classification, and K classifications for age labels. If limiting positive samples with the same age label as anchors for conventional ranking losses, the full size of the triplet for mini-batch would be O (N 3
  • the correlation triplet chosen to satisfy the age difference between the anchor and the positive pair must be less than the age difference between the anchor and the negative.
  • This method has a triplet pool of O (N 3 ) and has a K-fold diversity compared to the prior art, thus creating more diversity in the triplet than the conventional method.
  • Using adaptive ranking loss in accordance with embodiments of the present invention results in better performance (Table 1 (a)) and embedding space (FIG. 7) in turn.
  • the loss function uses a direct distance function. For example, we can use the squared L2 distance between two features:
  • FIG. 4 is a schematic visualization of a two-dimensional embedding space (bottleneck), in which similar age samples are located closer.
  • the triplet on the left shows a wider difference between the age labels and their features in the space than the triplet on the right.
  • the triplet on the left should be treated more importantly as the feature is learned.
  • the bottleneck feature is a result value that is output after the CNN block is finished, and the classification is started based on the result.
  • embodiments of the present invention propose to use crossentropy loss for the correlation triplet by normalizing the distance difference through a softmax function. This configuration makes it possible to use a loss function, a varying ranking loss, in consideration of the correlation triplet, without the margin constant used in the conventional ranking loss.
  • cross-entropy loss Given that d + and d - are Softmax outputs, cross-entropy loss can be applied to the correlation triplet as follows:
  • (t +, t -) (0,1) is the target value, and; This adjusts the feature space so that d + approaches 0 and d ⁇ approaches 1.
  • Triplets selected from the training dataset have varying degrees of importance in learning features. For example, the triplet on the left in FIG. 4 is more important than the triplet on the right. For the former, the preferred update is stronger than the latter because of the large difference. If embodiments of the present invention simply use cross-entropy loss (Equation 4), the gradient of these two triplets of varying importance is calculated equally by failing to achieve the desired update.
  • Equation 6 represents a loss value with respect to the ranking, and indicates that the loss is reduced and thus, the better the learning is.
  • the normal classification loss also means that the learning is stabilized and fully learned as the loss decreases and becomes quieter, the loss can be found in the validation. That is, the conventional model is limited to the learned data and recognizes a problem of poor utility, thereby introducing the ranking loss of Equation 6 in the embodiments of the present invention.
  • the proposed loss Prior to moving to the final learning goal considering the classification loss, the proposed loss has the same amount of change as the conventional ranking loss, but the magnitude of the change according to the embodiments of the present invention is adjusted according to the importance of the correlation triplet. I would like to point out that there is a difference.
  • the conventional ranking loss (Equation 2) has derivatives with respect to f a , f p , and f n :
  • 2d + ⁇ (f i , f j , f k ).
  • the final goal is to estimate age values, so set the learning model to have a classification endpoint along with the ranking portion.
  • age values are divided into K classifications.
  • Softmax to the classifier.
  • this classifier model has one hidden layer after the embedding layer along with the ReLU activation and softmax layers.
  • the whole model Set the classifier g to be here Denotes a function composition. g gives the probability that the input x belongs to each age category, so g , , And To satisfy.
  • the symbol j is used to indicate the probability of belonging to the j-th classification.
  • Softmax cross-entropy is also applied to the classification target, in the same way as the correlation triplet ranking loss.
  • the final classification loss is then defined as:
  • N is a batch-size and t ij is an indicator function having a value of 1 when x i belongs to class j, and otherwise having a value of zero.
  • FIG. 5 is a block diagram illustrating an apparatus 500 for learning a deep learning model for an ordered classification problem according to an embodiment of the present invention.
  • the learning method described with reference to FIG. 2 is described in terms of hardware configuration. It is a reconstruction. Therefore, in order to avoid duplication of description, only the outline of each structure will be outlined here.
  • the apparatus 500 for learning a deep learning model includes an input unit 10 for receiving a data set for a learning object, a memory 30 for storing a program for learning a deep learning model for an ordered classification problem, and the memory. It is configured to include a processor 20 for learning the deep learning model by executing a program stored in (30).
  • the program stored in the memory 30 forms a convolutional neural network (CNN) consisting of a branch point and two end points which are divided at the branch to generate a classification loss and a triplet loss.
  • CNN convolutional neural network
  • the program stored in the memory 30 may calculate the classification loss by performing the classification such that the loss is minimized by using the classification loss function to obtain an accurate prediction value for the learning object.
  • the ordered classification problem may be induced to learn the order characteristics of the network using triplet ranking loss, which may indicate the magnitude of the error as well as the error of the prediction label.
  • the triplet loss can be calculated.
  • the triplet ranking loss may be learned by considering the difference between the predicted value and the actual value of the learning target and the scale of the difference.
  • the program stored in the memory 30 calculates the final ranking loss by performing correlation triplet sampling in the mini-batch and multiplying the loss function and the weight representing the importance of the triplet using the sampled triplet. can do.
  • the program stored in the memory 30 can use cross-entropy loss for correlation triplets by normalizing the distance difference between features via a softmax function.
  • the magnitude of the gradient may be adjusted according to the importance of the correlation triplet by using a non-uniform weight function that measures the importance change of the correlation triplet.
  • the final classification loss can be set by applying the softmax function to a classifier and applying the softmax cross-entropy to the classification target in the same manner as the correlation triplet ranking loss.
  • the program stored in the memory 30 may further include a command for removing the branch of the network for the triplet loss function and performing only classification when the recognition is tested after the learning is completed.
  • embodiments of the present invention will be evaluated through two famous age estimation databases, age regression and age classification: MORPH Album 2 and Adience datasets for two different analyses.
  • the model according to the embodiments of the present invention is implemented in the latest Inception-ResNet-V1 implemented by Tensorflow. Because the target benchmark database was relatively small, we did not start learning from scratch. Instead, we used weights previously trained with the MS Celeb 1M or ILSVRC2012 datasets.
  • the MORPH Album 2 dataset contains 55k face images of 13k people and is widely used in many studies in that it provides a variety of labels on identity, gender, age, race and more. MORPH is also widely used in the age estimation field.
  • the protocol for evaluation was set up to use 80% of the image samples for learning and the rest of the test.
  • embodiments of the present invention propose to split the dataset into training and test sets that do not have duplicate identity.
  • 13,617 identities were separated into five mutually exclusive sets, and 5-fold cross-validation was performed for evaluation.
  • the evaluation mean absolute error means the average absolute error value of the set separated from the data set to confirm that the learning has been performed well, and in the test set of the evaluation set. The mean value of the difference between actual and measured age.
  • the first graph showing the mean absolute error, the main target metric shows a clear difference between the baseline (light blue solid curve) and the curve according to embodiments of the invention (red solid curve).
  • the curves according to embodiments of the invention improve the mean absolute error.
  • the second and third graphs operate as regulators in which the ranking loss in accordance with embodiments of the present invention results in a lower generalization error for the invisible dataset in compensating for relatively higher learning loss compared to the baseline model.
  • Table 1 (a) shows the difference in accuracy obtained by different loss types.
  • the baseline (L C ) does not use the ranking loss and has a worse mean absolute error than other schemes.
  • the ranking loss L c .triplet (Equation 2) which is designed for baseline and face recognition and adopted in the conventional model, is compared.
  • the experimental results show that the combination loss setting using the classification loss and the ranking loss is effective enough to improve the mean absolute error at 0.3 years from the baseline.
  • the ranking loss L T shows 0.02 years better performance than L c .triplet .
  • the model according to embodiments of the present invention shows better results by showing an average absolute error of 2.87, which is the lowest result of all the test methods, compared to other combination models combined using the correlation sampling method. This improvement is mainly due to the loss function (Equation 6), which changes the adaptive scale resulting in a reasonable amount of change (Equation 8) for the correlated sampling and ordered classification problems for the various sets of triplets.
  • Table 1 (b) was compared with the model according to the embodiments of the present invention and other CNN model.
  • the face domain knowledge that is, the pre-learned results for MS-Celeb
  • a higher result can be obtained based on the widely used separation protocol, that is, random separation by image.
  • a more robust separation i.e. random separation by identity
  • a better average absolute error of 2.87 can be achieved compared to results from other recent studies.
  • FIG. 7 is a visualization of the embedding space calculated by only the classification loss, by the combination loss with L c: triplet , and by the combination model according to embodiments of the invention. Input was given from a test instance of the MORPH database, and the value on the color bar indicates age
  • the T-SNE method means stochastic neighbor embedding (SNE) of a t distribution.
  • SNE stochastic neighbor embedding
  • a similar or identical group is a graph format that preserves the distance as much as possible.
  • the performance is good if the shape of each other is distributed and divided as much as possible.
  • the combination model (FIG. 7C) according to embodiments of the present invention further features on the one-dimensional curve along the one-dimensional curve as a function of age compared to the other models (FIGS. 7A-B).
  • the close alignment can be clearly observed. This is because the classification loss recognizes only classification differences, not just considering ordered features. That is, samples with the same color (age) as well as completely different colors are treated the same, resulting in a more ambiguous feature space.
  • combinatorial loss Fig. 7 (b)
  • the samples are arranged in a more ordered fashion, but not a complete one-dimensional curve. This is because it has a fixed margin term that does not take into account the different importance of triplets.
  • the ranking loss with varying scale places samples with similar colors in close proximity, while samples with other colors are located farther, taking into account how close or how far the samples should be located.
  • the model according to the embodiments of the present invention was evaluated for age classification using an Adience benchmark database.
  • This database contains 25k cropped face images obtained in an unconstrained environment. This provides an identity, gender, and age group label for each facial image.
  • the experiment was conducted according to the evaluation protocol.
  • the dataset consists of five splits on which 5-fold cross-checking is performed. The group is divided into eight categories: [0,2], [4,6], [8,12], [15,20], [25,32], [38,43], [48,53], And [60,100].
  • Table 2 compares the results of the latest different dip methods on the Adience benchmark. '1-off' means that as many as one miss classification is allowed for accuracy. For 'exact' results, this experiment did not allow any misclassification. Along with the accuracy, the standard error ( ⁇ e) of the 5-fold cross-check results was recorded.
  • Embodiments of the present invention proposed an adaptive, scaled ranking loss, using classification loss for age estimation.
  • the conventional models have been refined by introducing a correlation triplet selection and weighting technique to improve the performance of the combination target for age estimation.
  • the ranking loss with the adaptive scale change can reduce the generalization error of the model and better align age characteristics than the baseline.
  • the model according to embodiments of the present invention achieved significant performance improvements over other recent studies in both age regression and classification analysis.
  • inventions of the present invention can be implemented by computer readable codes on a computer readable recording medium.
  • the computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored.
  • Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage device, and the like.
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
  • functional programs, codes and code segments for implementing the present invention can be easily inferred by programmers in the art to which the present invention belongs.
  • the model proposed by the embodiments of the present invention is mainly focused on the estimation of face age, but is not limited thereto. Since embodiments of the present invention use a correlation ranking strategy, it is expected that the present invention may be widely applied to other areas where distance measurement between ground-truth labels appears.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 기계 학습을 이용한 영상 처리에 관한 기술로, 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법은, 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하고, 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하며, 산출된 분류 손실 및 트리플릿 손실에 기반하되 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신함으로써, 효과적인 학습과 손실 제어가 가능하다.

Description

트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치
본 발명은 기계 학습(machine learning)을 이용한 영상 처리에 관한 기술로, 특히 이미지를 분류함에 있어서 순서가 있는 경우 트리플릿 기반의 손실함수를 이용하여 딥 러닝 네트워크에서 학습을 수행하는 방법 및 장치에 관한 것이다.
딥 러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계 학습(machine learning) 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고 방식을 컴퓨터에게 가르치는 기계 학습의 한 분야이다.
최근 수년간, 얼굴 영상들로부터 나이를 추정하기 위해 CNN(convolutional neural network)에 기반한 의미있는 노력이 경주되어 왔다. 이러한 시도들 중에서, 분류-기반의 접근 방법들이 성과를 내고 있으나, 나이 차이 및 순서가 있는 나이 정보를 제공하는 것에는 미진함이 존재하였다.
구현 가능한 다양한 응용 기술들로 인해 얼굴 영상으로부터 나이를 추정하는 기술에 대한 관심이 증가하고 있다. 다른 컴퓨터 비전(computer vision) 분야에서와 마찬가지로, CNN(Convolutional Neural Network)에 기반한 의미있는 노력이 나이 추정을 위해 사용되고 있다. 나이 추정은, 크게 나이 그룹의 분류 또는 나이 값(age value)의 직접적인 예측, 즉 회귀 분석(regression task)으로 구분될 수 있다.
나이 추정 분야에서, CNN은 다양한 방식으로 널리 활용된다. 나이 그룹을 분류하기 위해, 종래에는 N-클래스 확률 출력을 갖는 바닐라(vanilla) CNN을 사용하였는데, 이는 Adience 벤치마크 데이터셋에 대한 베이스라인(baseline) 성능을 제공한다. 얼굴 영상으로부터 나이를 보다 잘 추정하기 위해, 전이(transferred) CNN과 주의 모델(attention model)을 사용한 연구가 제안되었다.
한편, 나이 그룹 분류를 넘어 나이 값을 예측하는 연구가 수행되었다. 초기의 연구들은 가우시안 손실(Gaussian loss)을 갖는 3개-층(layer) CNN 회귀 모델을 포함하였다. 그러나, 회귀 손실에 대해 직접 CNN을 학습시키는 최근의 실험들은 이상점(outlier) 값들이 더 큰 일반화 오류를 야기하기 때문에 안정적이지 못하였다. 이로 인해, 분포-기반 손실(distribution-related loss), 순서가 있는 랭킹 전략, 및 분류 손실과 같이, 나이 값을 추정하기 위해 서로 다른 접근 방법들이 소개되었다. 이들 중에서, 분류 기반의 방법들은 큰 스케일의 데이터셋에서 약속된 결과를 보여준다.
<선행기술문헌>
Sungeun Hong, Woobin Im, Jongbin Ryu, and Hyun S Yang. Sspp-dan: Deep domain adaptation network for face recognition with single sample per person. In International Conference on Image Processing, 2017.
Sungeun Hong, Jongbin Ryu,Woobin Im, and Hyun S Yang. D3: Recognizing dynamic scenes with deep dual descriptor based on key frames and key segments. Neurocomputing, 273:611-621, 2018.
본 발명이 해결하고자 하는 기술적 과제는, 종래의 분류 손실, 즉 크로스-엔트로피 손실(cross-entropy loss)이 나이 라벨(label)의 순서가 있는 특징을 반영하지 못하며, 특히 예측된 라벨이 옳은지 여부에만 집중함으로써, 예측과 목표 값 사이의 오류의 정도를 처리하지 못한다는 문제를 해소하고자 한다. 실험을 통해 이후에 논의되는 바와 같이, 이는 학습(training)과 평가 셋(set) 간에 큰 성능 차이를 야기한다. 이러한 이슈에 대해, 본 발명의 실시예들은 분류 손실뿐만 아니라 제안된 랭킹 제약으로부터 공동으로 설정된, CNN을 위한 종단간(end-to-end) 학습 목표를 제안하고자 한다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 적어도 하나의 프로세서를 구비하는 학습 장치가, 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법은, 학습 장치가 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하는 단계; 상기 학습 장치가 종단간(end-to-end) 학습을 위한 분류 손실을 산출하는 단계; 상기 학습 장치가 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하는 단계; 및 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 상기 학습 장치가 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 단계;를 포함한다.
일 실시예에 따른 딥러닝 모델의 학습 방법에서, 상기 분류 손실을 산출하는 단계는, 학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행할 수 있다.
일 실시예에 따른 딥러닝 모델의 학습 방법에서, 상기 트리플릿 손실을 산출하는 단계는, 상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도할 수 있다. 또한, 상기 트리플릿 랭킹 손실은, 학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습할 수 있다.
일 실시예에 따른 딥러닝 모델의 학습 방법에서, 상기 최종 손실값에 대해 네트워크를 갱신하는 단계는, 미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하는 단계; 및 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출하는 단계;를 포함할 수 있다.
일 실시예에 따른 딥러닝 모델의 학습 방법에서, 상기 최종 손실값에 대해 네트워크를 갱신하는 단계는, 소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용할 수 있다. 또한, 상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정할 수 있다. 나아가, 상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정할 수 있다.
일 실시예에 따른 딥러닝 모델의 학습 방법은, 상기 학습 장치가 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 단계;를 더 포함할 수 있다.
한편, 이하에서는 상기 기재된 딥러닝 모델의 학습 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 딥러닝 모델의 학습 장치는, 학습 대상에 대한 데이터셋을 입력받는 입력부; 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 프로그램을 저장하는 메모리; 및 상기 메모리에 저장된 프로그램을 실행하여 딥러닝 모델을 학습하는 프로세서;를 포함하고, 상기 메모리에 저장된 프로그램은, 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하고, 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하며, 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 명령어를 포함한다.
일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행함으로써, 상기 분류 손실을 산출할 수 있다.
일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도함으로써, 상기 트리플릿 손실을 산출할 수 있다. 또한, 상기 트리플릿 랭킹 손실은, 학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습할 수 있다.
일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하고, 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출할 수 있다.
일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용할 수 있다. 또한, 상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정할 수 있다. 나아가, 상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정할 수 있다.
일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 명령어를 더 포함할 수 있다.
본 발명의 실시예들은, 순서가 있는 분류 문제에 대한 딥러닝 모델을 학습시킴에 있어서, 정확한 분류 값을 추정하는데 사용되는 분류 손실뿐만 아니라, 트리플릿 랭킹 손실(triplet ranking loss) 및 분류-랭킹 조합 손실(classification-ranking joint loss)에 의해 도출된, 적응적인 랭킹 제약을 레귤러라이저(regularizer)와 같이 동작시킴으로써, 빠르고 정확하게 손실의 조정을 달성할 수 있다는 효과를 얻을 수 있다.
도 1은 본 발명의 실시예들이 제안하는 컨셉과 목표를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법을 도시한 흐름도이다.
도 3는 본 발명의 실시예들에 따른 딥러닝 모델 학습 방법의 전체적인 네트워크 프레임워크를 도시한 도면이다.
도 4은 2차원 임베딩 공간(바틀넥)을 개괄적으로 시각화한 도면이다.
도 5는 본 발명의 일 실시예에 따른 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 장치를 도시한 블록도이다.
도 6는 MORPH Album 2 데이터셋 상에 베이스라인(baseline) 및 본 발명의 실시예들에 따른 모델을 학습시킨 것을 예시한 도면이다.
도 7는 T-SNE 방법에 의해 네트워크의 바틀넥 특징의 임베딩 공간을 시각화한 것을 예시한 도면이다.
본 발명의 일 실시예에 따른 적어도 하나의 프로세서를 구비하는 학습 장치가, 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법은, 학습 장치가 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하는 단계; 상기 학습 장치가 종단간(end-to-end) 학습을 위한 분류 손실을 산출하는 단계; 상기 학습 장치가 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하는 단계; 및 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 상기 학습 장치가 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 단계;를 포함한다.
본 발명의 실시예들을 설명하기에 앞서, 종래의 딥러닝 모델에서 분류를 수행함에 있어서 나타나는 약점을 소개하고, 이를 해결하기 위해 본 발명의 실시예들이 제안하는 기술적 수단을 순차적으로 소개하도록 한다.
딥러닝 모델은 많은 경우 분류와 관련된 문제를 해결하는 데에 사용된다. 예를 들어, 수기로 그려진 이미지에서 숫자를 분류할 수도 있고, 단순하게는 이미지 내에 개가 있는지 고양이가 있는지 등을 분류할 수도 있다. 본 발명의 실시예들은 모두 순서가 있는 분류 문제를 대상으로 전제하고 있는데, 여기서 순서가 있는 분류 문제의 예시로 나이 예측을 고려할 수 있다. 예로 들어, 어떤 사람이 30살이라고 했을 때, 인식기에서 29살로 인식한 경우 또는 60살로 인식한 경우를 가정하면, 기존의 분류 문제에서는 두 경우 인식기는 문제가 전혀 없다고 간주한다. 왜냐하면, 둘 다 잘못된 값으로 인식하였기 때문이다. 그러나, 순서가 있는 분류 문제라는 점을 고려하면, 오답의 수준에 차이가 현저하다는 점에서 해당 인식기가 29살로 인식한 경우와 60살로 인식한 경우의 수준을 다르게 평가하여야 할 것이다. 이와 같이 순서에 따라서 분류 수준이 달라질 수 있는 경우를 순서가 있는 분류 문제라고 명명한다. 이하에서 제안되는 본 발명의 실시예들은 이러한 순서가 있는 분류 문제를 보다 정확하고 빠르게 학습하기 위한 기술적 수단을 제안하고자 한다.
딥 러닝에서는 행렬 모양의 네트워크를 이용하여 피드백이 이루어지는데, 이러한 피드백이란 결국 어떤 입력이 오더라도 최적의 답을 도출할 수 있도록 유도한다는 것을 의미한다. 당연하게도 모든 학습되지 않는 네트워크는 실제의 값과 예측되는 값이 다르게 나오게 되며, 실제 값과 예측되는 값이 다르면 이를 손실(loss)이라고 한다. 이때 사용되는 손실 함수(loss function)는 그런 손실을 최대한 줄일 수 있도록 최적으로 조정시켜주는 함수를 의미한다. 이러한 손실 함수를 전략적으로 개량함으로써 최대한 빠르고 정확하게 최적화를 수행할 수 있다.
종래의 트리플릿 손실과 본 발명의 실시예들이 제안하는 랭킹 제약 간의 주된 차이점은 상관 트리플릿 샘플링 및 규모가 변화하는(scale-varying) 랭킹의 두 가지 요소이다. 일반적으로, 종래의 트리플릿 손실에서, 트리플릿은 동일한 라벨(앵커(anchor) 및 포지티브(positive))을 갖는 두 개의 샘플, 다른 라벨(네거티브(negative))을 갖는 하나의 샘플, 및 임베딩 공간(embedding space)에서 상수 마진(constant margin)에 의해 네거티브 쌍(pair)으로부터 포지티브 쌍을 분리하는 목표를 갖는 손실로 구성된다. 여기서 임베딩 공간이란 고차원 데이터를 저차원 공간으로 매핑시키는 것을 의미하며, CNN으로 추출하여 남게 되는 특징 맵(feature map)은 다 임베딩 공간이 된다.
그러나, 본 발명의 실시예들은 나이 추정에서 상수 마진을 이용하여 랭킹 손실을 적용하는 것이 나이 라벨에서 순서가 있는 정보를 완전하게 활용하지 못한다는 점에 주목하였다. 이러한 문제를 해결하기 위해, 본 발명의 실시예들은 우선, 앵커에 상대적으로 가까운 샘플이 포지티브이고 그렇지 않은 것이 네거티브인 상관 트리플릿 샘플링을 제안함으로써 현존하는 엄격한 선택 기준을 완화하였다. 제안된 샘플링 방법은 종래의 기술에 비해 트리플릿에서 더 다양성을 생성할 수 있고, 궁극적으로 다음의 랭킹 제약을 효과적으로 적용할 수 있게 한다.
일단 상관 트리플릿이 샘플링되면, 다음으로 트리플릿의 중요도를 자동으로 결정하고 그에 따라 변화량(gradient)의 스케일(scale)을 조정하는, 스케일이 변화하는 랭킹 손실을 적용한다. 이는 모델로 하여금 고정된 마진 상수 없이도 랭킹을 학습하고, 또한 모델이 오버피팅(overfitting)되는 것을 방지하는 레귤러라이저(regularizer)와 같이 동작하도록 한다. 여기서, 오버피팅이란, 학습 데이터에만 의존적으로 학습을 하면서 실제 현상에는 맞지 않고 학습 데이터에만 한정적으로 맞게 되는 문제를 말하며, 레귤러라이즈(regularize)한다는 것은 단순히 분류(classification)만의 문제로 집중하는 것을 분산시켜 학습한다는 것을 의미한다. 즉, 순서가 있는 분류 문제에서 중요한 것은 예측 라벨(결과)이 옳은지 아닌지보다는 에러 수준이 크냐 작냐의 수준이다. 종래에는 그런 형식의 분류와 관련된 중심의 손실을 중심으로 연구가 진행되어 왔으나, 본 발명의 실시예들에서는 트리플릿 랭킹 손실(triplet ranking loss)의 요소를 도입하였다. 기존 분류 손실(classification loss)을 통해 계속적으로 정확한 나이를 예측하면서, 동시에 트리플릿 랭킹 손실을 통해 성능이 더 향상되도록 레귤러라이즈하게 된다.
이하에서는 도면을 참조하여 본 발명의 실시예들을 구체적으로 설명하도록 한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 덧붙여, 명세서 전체에서, 어떤 구성 요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
특별히 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 실시예들이 제안하는 컨셉과 목표를 도시하였다. 도 1에서, 중앙의 여성의 나이를 추론하는 경우, (중앙) 분류손실은 오직 그 라벨만을 고려하고, (좌) 랭킹 손실은 나이를 추론함에 있어서 추가적인 단서인 트리플릿의 나이 차이를 고려하며, (우) 적응적인 트리플릿 랭킹 손실은 차이들의 스케일을 고려함으로써, 더 큰 랭킹 손실이 트리플릿에 적용된다.
도 1을 참조하면, 현재 실제나이가 29세인 여성을 예측하여 29세인 곳으로 분류(classification)하고자 하는 상황을 가정하고 있다. 종래의 분류 손실(classification loss)을 이용하면 예측된 나이가 29세인지 아닌지만을 고려하게 된다. 즉, 80세로 예측하는 경우와 30세로 예측하는 경우 모두 똑같은 손실(loss)이 발생한다.
그러나, 트리플릿 손실을 채택하였을 때, 예측 나이가 35세인 경우라면 포지티브(positive)가 되어 더 작게 예측이 수행되어야 하는 것을 인지하게 된다. 반면, 예측 나이가 23세인 경우에는 네거티브(negative)가 되어 더 크게 예측이 수행되도록 유도하다.
굳이 비교가 아니더라도 스케일(scale) 차이에 따라서도 이를 정할 수 있다. 만약 80세를 예측하면 네거티브가 되어 훨씬 다른 나이대에 있는 것을 감안하며 학습이 될 것이고, 28세를 예측하면 근접한 위치에 있으니 조금만 더 학습하면 금방 실제에 가까워질 것이다.
본 발명의 실시예들에서는 트리플릿 랭킹 손실(triplet ranking loss)로써 나이 차이와 차이의 스케일(scale of difference)를 모두 적용하여 더 빠르게 학습하도록 유도한다. 종래의 트리플릿 랭킹 손실의 경우 오른쪽의 더 큰 랭킹 손실(larger ranking loss)만이 존재하였는데, 이 경우에도 어느 정도의 보정이 가능하지만 특정 나이 차이 내로 진입한 이후에는 전혀 학습이 되지 않는 한계가 발견되었다. 따라서 우선 더 큰 랭킹 손실(larger ranking loss)로 서로 비슷한 나이대들로 분류되도록 유도한 후, 왼쪽의 랭킹 손실(ranking loss)을 적용하여 실제 값에 더 가까워지게 유도하도록 하였다. 요약하건대, 본 발명의 실시예들이 제안하는 주된 아이디어는 다음과 같다:
(i) 본 발명의 실시예들은 레귤러라이저와 같이 동작함으로써 모델의 오버피팅을 방지하는, 적응적이고, 스케일이 변화하는 랭킹 손실을 제안하고, 이는 추정 성능의 향상을 돕는다. 이러한 방식은 나이 추정에 대해 모델을 효과적으로 학습시키기 위해 트리플릿 랭킹 방식을 응용한 최초의 시도에 해당한다.
(ii) 종래의 트리플릿 샘플링에 의해 야기되는 가능한 트리플릿의 결핍에 대해, 본 발명의 실시예들은 스케일이 변화하는 랭킹 손실의 성공적인 응용을 목표로 하는 상관 트리플릿 샘플링 방식을 제안한다.
(iii) 본 발명의 실시예들은 2가지 잘 알려진 벤치마크 기법을 통해 대규모 실험을 수행하였으며, 최신의 방식을 넘어서는 의미있는 향상을 보여주었다. 즉, 실험 결과는 본 발명의 실시예들에 따른 랭킹 손실 및 분류 목표의 합동 학습의 효과를 보여주었다.
도 2는 본 발명의 일 실시예에 따른 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법을 도시한 흐름도로서, 적어도 하나의 프로세서를 구비하는 학습 장치를 통해 수행되는 일련의 연산을 보여준다.
S210 단계에서, 학습 장치는, 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성한다.
S220 단계에서, 상기 학습 장치는, 자료 처리 및 학습 시스템의 여러 단계의 필요한 처리 과정을 한번에 처리하는 방법을 의미하는 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출한다. 여기서, 상기 분류 손실을 산출하는 과정은, 학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행함으로써 달성된다. 또한, 상기 트리플릿 손실을 산출하는 과정은, 상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도함으로써 달성된다. 이러한 트리플릿 랭킹 손실은, 학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습하게 된다.
S230 단계에서, 상기 학습 장치는, 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신한다. 이 과정은, 미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하고, 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출할 수 있다.
한편, 상기 학습 장치는, 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 과정(미도시)을 더 포함할 수 있다.
이하에서는 각 단계를 도면을 참조하여 보다 구체적으로 설명하도록 한다.
1. 분류문제를 갖는 트리플릿 랭킹
도 3를 참조하면, 본 발명의 실시예들은 종단간 학습 가능한 딥 CNN(deep convolutional neural network)에 기반한다. 바틀넥 층(bottleneck layer)에서, 본 발명의 실시예들은 트리플릿을 선택하고 스케일이 변화하는 트리플릿 랭킹 손실을 계산함으로써 적응적인 트리플릿 랭킹 전략(LT : 이후에 기술할 수학식 6)을 적용하였다. 본 발명의 실시예들에서 최종 목표는 랭킹(LT : 수학식 6) 및 분류 손실(LC: 이후에 기술할 수학식 9)을 동시에 함께 공동으로 포함하는 것이다.
즉, 본 발명의 실시예들에 따른 학습 방법은, 스케일이 변화하는 트리플릿 랭킹(scale-varying triplet ranking) 모듈 및 소프트맥스 출력(softmax output)을 갖는다. 네트워크에서, 본 발명의 최종 목표는 얼굴 영상이 주어졌을 경우 소프트맥스 층에 의해 정확한 나이를 추정하는 것이다. 나이 추론과 직접 관련되지는 않으나, 트리플릿 랭킹 모듈은 더 나은 나이 추론을 유도하도록 트리플릿에 주어진 관련된 나이 차이를 제공한다. 그 결과로서, 최종 목표 함수는 트리플릿 랭킹 및 분류 손실을 모두 포함한다. 이후, 본 발명의 실시예들이 제안하는 손실 함수를 보다 구체적으로 설명하도록 한다.
1.1 상관 트리플릿 샘플링
트리플릿 샘플링은 트리플릿 랭킹 손실의 필수적인 부분이다. 트리플릿 손실을 이용한 종래의 응용예에서는 이진(binary) 라벨, 즉 2개의 샘풀이 동일한 분류에 속하는지 아닌지 여부만을 다루었다. 다시 말해, a 및 p가 동일한 분류이나 a 및 n은 다른 분류인 경우, 보통 앵커(anchor), 포지티브(positive), 및 네거티브(negative) 샘플로 불리는 트리플릿 샘플 (a,p,n)이 선택된다.
두 얼굴의 나이가 동일하게 또는 다르게 취급될 수 있는 경우, 나이와 같이 순서가 있는 분류에 대해 덜 효과적이라는 점이 발견된다. 한가지 측면은 이러한 관점에서 가능한 트리플릿의 풀(pool)이 제한적이라는 점이다. 각각의 분류마다 동일한 개수의 샘플을 갖는 크기가 N인 미니-배치(mini-batch)가 있고, 나이 라벨에 대해 K개의 분류가 있다고 가정하자. 만약 종래의 랭킹 손실에 대한 앵커와 같이 동일한 나이 라벨을 갖는 포지티브 샘플을 제한한다면, 미니-배치를 위한 트리플릿의 풀 크기는 O(N3|K)가 될 것이다. 나이 회귀 분석에 대해 K가 큰 값이 될 수 있기 때문에, 예를 들어 MORPH 데이터셋은 나이에 대해 60개의 분류를 가지므로, 이러한 접근법은 트리플릿의 조합을 심각하게 제한하게 된다.
나이에 관하여, 상대 측정에 의해 포지티브 및 네거티브 샘플을 더 잘 정의할 수 있다. 공식적으로, CNN에 의해 구축된
Figure PCTKR2019004452-appb-I000001
내의 d-차원 임베딩 공간으로부터 특징을 샘플링한다. 여기서, f는 영상 입력 x를
Figure PCTKR2019004452-appb-I000002
로 임베딩한다. 포지티브 실수(real number)를 포함하는 나이 라벨 Y의 대응하는 셋을 갖는 크기 N의 미니-배치가 있다고 가정하자. 즉, X = {x1,x2,...,xN} 및 Y = {y1,y2,...,yN}이다. 그런 다음, 상관 트리플릿이
Figure PCTKR2019004452-appb-I000003
를 만족하도록 (fa,fp,fn)로 간단히 덴트(dented)함으로써 모든 가능한 (f(xa),f(xp),f(xn))를 샘플링한다. 다시 말해, 선택된 트리플릿의 셋은 다음과 같다:
[수학식 1]
Figure PCTKR2019004452-appb-I000004
결과로서, 앵커 및 포지티브 쌍 간의 나이 차이를 만족하도록 선택된 상관 트리플릿은 앵커 및 네거티브 간의 나이 차이보다 작아야만 한다. 이러한 방식은 O(N3)의 트리플릿 풀을 가지며, 종래에 비해 K배의 다양성을 가지므로, 종래의 방법에 비해 트리플릿에 더 많은 다양성을 형성한다. 본 발명의 실시예들에 따른 적응적 랭킹 손실을 사용할 경우, 차례차례 더 나은 성능(테이블 1(a)) 및 임베딩 공간(도 7)을 가져오게 된다.
1.2 Scale-Varying Triplet Ranking Loss
트리플릿 랭킹이 표현 학습에 사용되는 경우, 그 손실 함수는 직접 거리 함수를 사용한다. 예를 들어, 2개의 특징들 간의 제곱(squared) L2 거리를 사용할 수 있다:
[수학식 2]
Figure PCTKR2019004452-appb-I000005
여기서, m은 마진 상수(margin constant)이고,
Figure PCTKR2019004452-appb-I000006
이다. 이러한 손실은 d(fa,fp) 및 d(fa,fn) 간의 차이가 m보다 더 커야만 한다는 것을 목표로 한다.
불행하게도, 이러한 방식은 마진 상수를 요구하고, 트리플릿의 다양한 셋이 이러한 전략의 효율을 제한할 수 있도록 m을 상수로서 고정할 것을 요구한다. 이러한 무익함은 특징 공간을 학습함에 있어서 나이 트리플릿이 다른 중요도를 갖기 때문에 주로 야기된다. 즉, 일부 트리플릿은 더 큰 m을 요구하는 반면, 다른 트리플릿은 더 작은 m을 요구하며, 이는 도 4에 시각화되어 도시되었다. 도 4은 2차원 임베딩 공간(바틀넥)을 개괄적으로 시각화한 도면으로서, 유사한 나이 샘플이 더 근접하여 위치한다. 좌측의 트리플릿은 우측의 트리플릿에 비해 나이 라벨들 및 공간 내의 그 특징들 간의 차이가 더 넓은 것을 보여준다. 좌측의 트리플릿은 특징을 학습시킴에 있어서 그 업데이트를 보다 중요하게 처리되어야만 한다. 바틀렉 특징(Bottleneck feature)은 CNN 블록이 종료되어 출력되는 결과물 값으로서, 그 결과물을 토대로 분류를 시작하게 된다.
트리플릿에서 차이를 고려하는 손실을 설계하기 위해, 본 발명의 실시예들은 소프트맥스(softmax) 함수를 통해 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스엔트로피 손실(crossentropy loss)를 사용할 것을 제안한다. 이러한 구성은 종래의 랭킹 손실에서 사용되던 마진 상수 없이도, 상관 트리플릿을 고려하여, 손실 함수, 스케일이 변화하는 랭킹 손실을 사용할 수 있도록 한다.
상기 손실을 계산하기 위해, 상관 트리플릿 T의 셋에서 시작한다. T가 주어지면, 포지티브 거리 d+ 및 네거티브 거리 d-의 정규화된 버전을 산출한다. 본 발명의 실시예들은 다음과 같이 상기 거리를 정규화하였다.
[수학식 3]
Figure PCTKR2019004452-appb-I000007
d+ 및 d-가 소프트맥스 출력이라는 점을 고려하여, 크로스-엔트로피 손실을 상관 트리플릿에 다음과 같이 적용할 수 있다:
[수학식 4]
Figure PCTKR2019004452-appb-I000008
여기서, (t+,t-) = (0,1)는 목표 값이고; 이는 특징 공간을 조정하여 d+ 가 0에 접근하도록, 그리고 d-가 1에 접근하도록 만든다.
학습(training) 데이터셋로부터 선택된 트리플릿(수학식 1)은 학습 특징에 있어서 다양한 중요도를 갖는다. 예를 들어, 도 4에서 좌측의 트리플릿은 우측의 트리플릿에 비해 보다 중요하다. 왜냐하면, 전자의 경우 바람직한 업데이트가 그 큰 차이로 인해 후자보다 더 강하기 때문이다. 만약 본 발명의 실시예들이 크로스-엔트로피 손실(수학식 4)를 간단히 사용한다면, 중요도가 변화하는 이러한 2개의 트리플릿의 변화량(gradient)은 바람직한 업데이트를 달성하는데 실패하여 동일하게 계산된다.
상관 트리플릿의 변화하는 중요도를 반영하기 위해, 본 발명의 실시예들은 비-균일(non-uniform) 가중치 함수 w(·)를 제안한다. 이러한 비-균일 가중치 함수는 다음과 같이 트리플릿의 중요도를 측정한다:
[수학식 5]
Figure PCTKR2019004452-appb-I000009
여기서, ε는 0으로 나누는 것을 방지하는 작은 상수이고,
Figure PCTKR2019004452-appb-I000010
는 데이터셋 내의 나이 라벨의 범위가 [Ymin,Ymax]인 경우 정규화된 라벨이다. 그러면, 이를 즉시 손실 함수에 승산하고, 최종 랭킹 손실 LT 이 다음과 같이 주어진다:
[수학식 6]
Figure PCTKR2019004452-appb-I000011
수학식 6은 랭킹에 관한 손실 값을 나타내는 것으로, 손실이 줄어들어 일정해질수록 더 잘 학습되고 있다는 것을 나타낸다. 비록 보통의 분류 손실(classification loss) 역시 손실이 줄어들고 잠잠해질수록 학습이 안정화되어 충분히 학습되었다는 것을 의미하지만, 정작 평가(validation)에서는 손실이 발생하는 것을 확인할 수 있었다. 즉, 종래의 모델이 학습한 데이터에 한정되면서 활용성이 떨어지는 문제를 인식하여, 본 발명의 실시예들에 수학식 6의 랭킹 손실을 도입하게 되었다.
변화량(gradient) 분석
분류 손실을 고려한 최종 학습 목표로 이동하기에 앞서, 제안된 손실이 종래의 랭킹 손실과 동일한 변화량을 가지나, 본 발명의 실시예들에 따른 변화량의 규모(magnitude)가 상관 트리플릿의 중요도에 따라 조정됨에 있어서 차이가 있음을 지적하고자 한다. 종래의 랭킹 손실(수학식 2)은 fa, fp, 및 fn에 관하여 도함수(derivative)를 가짐을 주목하자:
[수학식 7]
Figure PCTKR2019004452-appb-I000012
여기서, S ⊂ T이고 S는 단지 그 손실이 max(0,·)에 의해 제로 아웃되는(zeroed out) 트리플릿을 포함하며, 상기 도함수는 T - S에 대해 0과 동일하다. 상기 마진 상수는 이러한 변화량에 아무런 영향도 갖지 못함에 유의하여야 한다. 반면, 본 발명의 실시예들이 채택하는 손실 함수(수학식 6)은 그 도함수를 갖는다:
[수학식 8]
Figure PCTKR2019004452-appb-I000013
여기서, α = 2d(fi,fj,fk)이다.
2개의 서로 다른 손실 함수들의 도함수의 방향(direction)은 정확하게 동일하나, 그 스케일(scale)은 2개의 값: d+ 및 ω에 의해 조절된다(regulated). d+는 학습(training)되는 동안 0을 향해 이동하고, 만약 d+가 0에 가까워지면, 손실 역시 0에 가까워진다. 이것의 장점은 학습이 적절하게 수행되는 경우, 마진 상수 m과 같은 어떠한 하이퍼-파라미터(hyper-parameter)를 사용하지 않고도, d+가 학습의 진행을 부드럽게 늦추는 것이다. d+ 뿐만 아니라 ω도 가지며, 양자는 상기 변화량 스케일이 트리플릿의 차이에 의존하도록 한다는 점을 주목할 필요가 있다. 이때, 더 높은 중요도를 갖는 트리플릿이 더 큰 업데이트를 갖게 되고, 덜 중요한 중요도를 갖는 트리플릿은 더 작은 업데이트를 갖게 될 것이다.
1.3 최종 학습 목표
최종 목표는 나이 값을 추정하는 것이며, 따라서 학습 모델이 랭킹 부분과 함께 분류 종료점을 갖도록 설정한다. 분류 네트워크를 학습시키기 위한 나이 값을 이용하기 위해, 나이 값들을 K개의 분류로 구분한다. 그런 다음, 소프트맥스를 분류자(classifier)에 적용한다. 특히, 이러한 분류자 모델은 임베딩 층 이후에 ReLU 액티베이션(activation) 및 소프트맥스 층과 함께 하나의 은닉 층을 갖는다. 분류 손실을 표현하기 위해, 전체 모델이
Figure PCTKR2019004452-appb-I000014
가 되도록 하는 분류자 g를 설정한다. 여기서,
Figure PCTKR2019004452-appb-I000015
는 합성 함수(function composition)를 나타낸다. g는 입력 x가 각각의 나이 분류에 속할 확률을 제공하므로, g는
Figure PCTKR2019004452-appb-I000016
,
Figure PCTKR2019004452-appb-I000017
, 및
Figure PCTKR2019004452-appb-I000018
을 만족한다. 여기서, 기호 j는 j-번째 분류에 속할 확률을 나타내는데 사용된다. 또한, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게, 분류 목표에 적용한다. 그러면, 최종 분류 손실은 다음과 같이 정의된다:
[수학식 9]
Figure PCTKR2019004452-appb-I000019
여기서, N은 배치-크기(batch-size)이고, tij는 xi가 분류 j에 속하는 경우 1의 값을 갖고, 그 외에는 0의 값을 갖는 지시자 함수(indicator function)이다.
분류 및 트리플릿 랭킹 손실에 기초하여, 최종 학습 목표 함수는 L = λLC + LT 와 같이 정의되며, λ는 LT 및 LC 사이의 밸런스를 제어하기 위한 상수이다.
도 5는 본 발명의 일 실시예에 따른 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 장치(500)를 도시한 블록도로서, 앞서 도 2를 통해 기술한 학습 방법을 하드웨어 구성의 관점에서 재구성한 것이다. 따라서, 여기서는 설명의 중복을 피하고자 각각의 구성의 개요만을 약술하도록 한다.
딥러닝 모델을 학습하는 장치(500)는, 학습 대상에 대한 데이터셋을 입력받는 입력부(10), 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 프로그램을 저장하는 메모리(30) 및 상기 메모리(30)에 저장된 프로그램을 실행하여 딥러닝 모델을 학습하는 프로세서(20)를 포함하여 구성된다. 여기서, 상기 메모리(30)에 저장된 프로그램은, 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하고, 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하며, 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 명령어를 포함한다.
메모리(30)에 저장된 프로그램은, 학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행함으로써, 상기 분류 손실을 산출할 수 있다. 또한, 상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도함으로써, 상기 트리플릿 손실을 산출할 수 있다. 여기서, 상기 트리플릿 랭킹 손실은, 학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습하는 것이 바람직하다.
또한, 메모리(30)에 저장된 프로그램은, 미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하고, 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출할 수 있다.
메모리(30)에 저장된 프로그램은, 소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용할 수 있다. 또한, 상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정할 수 있다. 나아가, 상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정할 수 있다.
한편, 메모리(30)에 저장된 프로그램은, 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 명령어를 더 포함할 수 있다.
2. 실험
이하에서는, 두 가지 서로 다른 분석에 대한 두 가지 유명한 나이 추정 데이터베이스, 나이 회귀 및 나이 분류: MORPH Album 2 및 Adience 데이터셋을 통해 본 발명의 실시예들을 평가하도록 한다.
2.1 상세한 구현예
텐서플로우(Tensorflow)로 구현된 최신의 Inception-ResNet-V1에 본 발명의 실시예들에 따른 모델을 구현하였다. 목표 벤치마크 데이터베이스가 상대적으로 작았기 때문에, 스크래치(scratch)로부터 학습을 시작하지는 않았다. 대신, MS Celeb 1M 또는 ILSVRC2012 데이터셋으로 사전에 학습된 가중치를 활용하였다.
본 발명의 실시예들에 따른 모델을 학습시키는 경우, 지수 감소(exponential decay)로 작은 학습 레이트 5×10-4를 갖는 Adam 옵티마이저를 사용하였다. 모든 실험에서, λ 을 0.01로, 또한 ε을 0.1로 설정하였다. 중단 정책에 관하여, 평가 셋(validation set)으로서 학습 셋(training set)의 일부를 활용하였고, 평가 정확도가 수렴되는 경우 학습을 중단한다. 랜덤 크로핑(random cropping)과 밝기, 채도 및 색상을 포함하는 컬러 지터링(color jittering)으로 학습 셋을 증가시킨다. 테스트 단계에서는, 랜덤 크로핑을 사용하지 않고, 영상의 4개의 모서리 및 중앙을 크로핑(cropping)하고 플립핑(flipping)함으로써 10개의 샘플을 획득하였다. 그런 다음, 최종 결정을 계산하기 위해 모든 10개의 샘플로부터 마지막 층의 점수에 대한 평균을 내었다.
2.2 MORPH Album 2 데이터셋
MORPH Album 2 데이터셋은 13k 명의 사람들의 55k 얼굴 영상을 포함하고, 신원(identity), 성별, 나이, 인종 등에 관한 다양한 라벨을 제공한다는 점에서 많은 연구에 널리 사용되고 있다. MORPH 역시 나이 추정 분야에서 널리 사용되고 있다. 평가를 위한 프로토콜은 학습 및 나머지 테스트를 위해 영상 샘플의 80%를 사용하도록 설정되었다.
흥미롭게도, 본 발명의 실시예들을 활용한 실험에서 신분에 관한 사진이 짧은 시간 프레임에서 획득되었음을 발견하였다. 특히, 하나의 신원에 대한 최대 나이 편차는 단지 평균 1.9년에 불과하였다. 이는 완전하게 신원을 식별함으로써, 평균 절대 오차(mean absolute error, MAE)를 1.9년까지 낮추는 것을 달성할 수 있음을 나타낸다. 예시된 설정에서, 또한 MS-Celeb를 이용한 얼굴 평가에 대해 미리 학습된 베이스라인 네트워크(baseline network)를 사용하는 것이 2.43년의 평균 절대 오차를 나타내며, 이는 최신의 다른 연구들의 실험 결과인 2.96보다 훨씬 더 좋은 값임을 확인할 수 있다.
평가(evaluation)를 위해 본 발명의 실시예들이 채택하고 있는 기술적 사상
신원 효과를 제거하기 위해, 본 발명의 실시예들은 데이터셋을 중복된 신원을 갖지 않는 훈련 및 테스트 셋으로 분리하는 것을 제안한다. 따라서, 13,617개의 신원을 5개의 상호 배타적인 셋으로 분리하였고, 평가를 위해 5-폴드 크로스-확인(5-fold cross-validation)을 수행하였다.
학습-확인 커브(Training-validation curves)
도 6는 평균 절대 오차 및 2개 유형의 손실에 관한 학습-확인 커브를 보여준다. 도 6에서, 평가 평균 절대 오차(validation MAE)는 학습이 잘 되었는지를 확인하기 위해 데이터셋에서 따로 분리시킨 셋으로 나온 평균 절대 오차 값을 의미하며, 평가 셋(validation set)에 있는 테스트 셋에서의 실제 나이와 측정 나이의 차이의 평균 값을 의미한다.
주요 목표 메트릭인, 평균 절대 오차를 나타내는 첫 번째 그래프는 베이스라인(밝은 파랑색 실선 커브) 및 본 발명의 실시예들에 따른 커브(빨간색 실선 커브) 간의 명확한 차이를 보여준다. 특히, 베이스라인이 학습의 초기 단계에서 오버피팅되는 반면, 본 발명의 실시예들에 따른 커브는 평균 절대 오차를 개선하고 있는 것을 관찰할 수 있다. 두 번째 및 세 번째 그래프는 본 발명의 실시예들에 따른 랭킹 손실이 베이스라인 모델에 비해 상대적으로 더 높은 학습 손실을 보상함에 있어서 보이지 않는 데이터셋에 대해 더 낮은 일반화 오차를 가져오는 레귤러라이저로서 동작하는 것을 보여준다.
Figure PCTKR2019004452-appb-T000001
표 1에서 (a)는 본 발명의 실시예에 따른 분리(split) 프로토콜에 의해 MORPH 상에 표준 오차 (±e)를 갖는 5-폴드 크로스-확인 평균 절대 오차를 나타낸다. 이는 다른 조합(분류 + 트리플릿 랭킹) 손실에 비해 본 실시예의 효과를 보여준다. (b)는 최신의 다른 연구 결과들과의 비교를 보여준다.
손실 유형들 간의 비교
표 1의 (a)에는 서로 다른 손실 유형들에 의해 획득된 정확도 차이가 나타난다. 베이스라인 (LC)은 랭킹 손실을 이용하지 못하고 다른 방식들에 비해 더 나쁜 평균 절대 오차를 갖는다. 먼저 베이스라인과 얼굴 인식을 위해 설계되어 종래의 모델에서 채택되었던 랭킹 손실 Lc .triplet (수학식 2)을 비교하였다. 여기서, 실험 결과는 분류 손실 및 랭킹 손실을 이용한 조합 손실 설정이 베이스라인 대비 0.3년의 차이에서 평균 절대 오차를 향상시키는데 충분히 효과적이라는 사실을 보여준다. 상관 트리플릿 선택을 이용하지 않는 경우, 랭킹 손실 LT은 Lc .triplet보다 0.02년 우수한 성능을 보여준다. 나아가, 본 발명의 실시예들에 따른 모델은 상관 샘플링 방법을 이용해 조합된 다른 조합 모델에 비해 모든 테스트 방법들 중 가장 낮은 결과인 2.87의 평균 절대 오차를 보여줌으로써 더 우수한 결과를 나타낸다. 이러한 개선은 트리플릿의 다양한 셋에 대한 상관 샘플링 및 순서가 있는 분류문제에 대해 합리적인 변화량(수학식 8)을 가져오는 적응적 스케일이 변화하는 손실 함수(수학식 6)로부터 주로 야기된 것이다.
최신의 다른 연구들과의 비교
표 1의 (b)에는 본 발명의 실시예들에 따른 모델과 다른 CNN 모델을 비교하였다. 먼저, 만약 얼굴 도메인 지식, 즉 MS-Celeb에 미리 학습된 결과를 사용하는 경우, 앞서 널리 사용된 분리 프로토콜, 즉 영상에 의한 랜덤 분리에 기초하여 더 높은 결과를 얻을 수 있다는 결론을 내렸다. 보다 견고한 분리, 즉 신원에 의한 랜덤 분리를 사용하는 경우, 최신의 다른 연구들로부터 도출된 결과에 비해서도 더 우수한 2.87의 평균 절대 오차를 달성할 수 있다.
임베딩 공간의 시각화
도 7는 단지 분류 손실만에 의한 것, Lc:triplet을 갖는 조합 손실에 의한 것, 및 본 발명의 실시예들에 따른 조합 모델에 의해 계산된 임베딩 공간을 시각화한 도면이다. MORPH 데이터베이스의 테스트 인스턴스로부터 입력이 주어졌으며, 컬러 바 상의 값은 나이를 나타낸다
T-SNE 방법은 t 분포(t distribution)의 SNE(stochastic Neighbor embedding)라는 의미이다. 고차원 공간에 존재하는 데이터들에서 주변과 비슷하거나 동일한 집단끼리는 거리를 최대한 보존하여 표현하는 그래프 형식을 말한다. T-SNE에서 서로가 최대한 균형적으로 분포되고 나뉘어질 형태를 띄고 있으면 성능이 좋다고 평가할 수 있다.
여기서, 본 발명의 실시예들에 의한 조합 모델(도 7의 (c))이 다른 모델들(도 7의 (a)-(b))에 비해 나이의 함수인 1차원 커브을 따라 특징들에 더욱 밀착하여 정렬된 것을 명확하게 관찰할 수 있다. 이는 분류 손실이 단지 순서가 있는 특징들을 고려하는 것이 아니라 분류 차이만을 인식하기 때문이다. 즉, 완전히 다른 색깔뿐만 아니라 동일한 색깔(나이)을 갖는 샘플들도 동일하게 취급되어 더욱 모호한 특징 공간으로 귀결된다. 조합 손실의 경우(도 7의 (b)), 샘플들은 더욱 정돈된 형태로 정렬되나, 완전한 1차원 커브는 아니다. 왜냐하면 트리플릿의 서로 다른 중요도를 고려하지 않는 고정된 마진 항(term)을 갖기 때문이다. 반면, 스케일이 변화하는 랭킹 손실은 샘플들이 얼마나 근접하여야만 하는지 또는 얼마나 멀리 위치해야만 하는지를 고려하여, 근접한 위치에 유사한 색깔들을 갖는 샘플들을 위치시키는 반면, 다른 색깔들을 갖는 샘플들은 더 멀리 위치시키게 된다.
2.3 Adience 벤치마크
여기서는 Adience 벤치마크 데이터베이스를 이용하여 나이 분류 작업에 대해 본 발명의 실시예들에 따른 모델을 평가하였다. 이 데이터베이스는 제약없는 환경에서 획득된 25k개의 크롭된 얼굴 영상을 포함한다. 이는 각각의 얼굴 영상에 대해 신원, 성별, 및 나이 그룹 라벨을 제공한다. 성능 평가를 위해, 평가 프로토콜에 따라 실험을 진행하였다. 데이터셋은 5-폴드 크로스-확인이 수행되는 5개의 분할(split)로 구성된다. 그 아니 그룹은 8개의 분류: [0,2], [4,6], [8,12], [15,20], [25,32], [38,43], [48,53], 및 [60,100]를 포함한다.
Figure PCTKR2019004452-appb-T000002
표 2는 Adience 벤치마크에 대한 최신의 다른 딥 방법들의 연구 결과를 비교한 것이다. '1-off'는 정확도로서 1개 분류 만큼의 오분류(miss classification)가 허용됨을 의미한다. '정확한(exact)' 결과를 위해, 본 실험에서는 어떠한 오분류도 허용하지 않았다. 정확도와 함께, 5-폴드 크로스-확인 결과의 표준 오차 (±e)를 기록하였다.
성능 분석
나이 분류 결과를 기록하고 그 결과를 표 2에서 다른 방법들과 비교하였다. 베이스라인에 대해, 우선 베이스라인 모델을 60.5%의 정확도를 갖는 분류 손실만을 이용해 학습시켰다. 본 발명의 실시예들에 따른 방법으로 네트워크를 학습시켰을 때, 베이스라인 대비 ‘exact’에서 약 3% 및 ‘1-off’ 결과에서 2%의 차이를 보여 본 발명의 실시예들의 향상을 명확하게 확인할 수 있었다. 분류에 대해 다른 방법들이 LC (수학식 9)를 사용하였다는 사실과 관련하여, 본 발명의 실시예들에 따른 적응적 랭킹 손실(LT : 수학식 6)을 이들의 분류 손실(LC: 수학식 9)에 추가하는 것이 더욱 성능향상을 가져올 수 있을 것으로 예상할 수 있다.
3. 결론
본 발명의 실시예들은, 나이 추정에 대한 분류 손실을 이용하여, 적응적이고, 스케일이 변화하는 랭킹 손실을 제안하였다. 트리플릿 랭킹 손실이 나이 특징을 학습하는데 도움이 된다는 단순한 직관에 기초하여, 나이 추정에 대한 조합 목표의 성능 향상을 위해, 상관 트리플릿 선택 및 가중치 기법을 도입함으로써 종래의 모델들을 개량하였다. 본 발명의 실시예들에 따른 상관 트리플릿 샘플링에 대한 조합 손실을 이용함으로써 적응적인 스케일이 변화하는 랭킹 손실이 모델의 일반화 오차를 감소시키고 베이스라인보다 나이 특징을 더욱 잘 정렬할 수 있는 것을 확인하였다. 마지막으로, 본 발명의 실시예들에 따른 모델은 나이 회귀 및 분류 분석 모두에 있어서 최신의 다른 연구들에 비해 의미있는 성능 향상을 달성하였다.
한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이상에서 본 발명에 대하여 그 다양한 실시예들을 중심으로 살펴보았다. 본 발명에 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명의 실시예들이 제안하는 모델은 얼굴 나이의 추정에 주로 집중되었으나, 이에 제한되지 않는다. 본 발명의 실시예들이 상관 랭킹 전략을 이용하였으므로, 실측 자료(ground-truth) 라벨들 간의 거리 측정이 나타나는 다른 영역에 널리 적용될 수 있을 것으로 예상된다.
본 발명의 실시예들에 따르면, 순서가 있는 분류 문제에 대한 딥러닝 모델을 학습시킴에 있어서, 정확한 분류 값을 추정하는데 사용되는 분류 손실뿐만 아니라, 트리플릿 랭킹 손실(triplet ranking loss) 및 분류-랭킹 조합 손실(classification-ranking joint loss)에 의해 도출된, 적응적인 랭킹 제약을 레귤러라이저(regularizer)와 같이 동작시킴으로써, 빠르고 정확하게 손실의 조정을 달성할 수 있다는 효과를 얻을 수 있다.

Claims (19)

  1. 적어도 하나의 프로세서를 구비하는 학습 장치가, 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법에 있어서,
    학습 장치가 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하는 단계;
    상기 학습 장치가 종단간(end-to-end) 학습을 위한 분류 손실을 산출하는 단계;
    상기 학습 장치가 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하는 단계; 및
    산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 상기 학습 장치가 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 단계;를 포함하는, 딥러닝 모델의 학습 방법.
  2. 제 1 항에 있어서,
    상기 분류 손실을 산출하는 단계는,
    학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행하는, 딥러닝 모델의 학습 방법.
  3. 제 1 항에 있어서,
    상기 트리플릿 손실을 산출하는 단계는,
    상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도하는, 딥러닝 모델의 학습 방법.
  4. 제 3 항에 있어서,
    상기 트리플릿 랭킹 손실은,
    학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습하는, 딥러닝 모델의 학습 방법.
  5. 제 1 항에 있어서,
    상기 최종 손실값에 대해 네트워크를 갱신하는 단계는,
    미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하는 단계; 및
    샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출하는 단계;를 포함하는, 딥러닝 모델의 학습 방법.
  6. 제 1 항에 있어서,
    상기 최종 손실값에 대해 네트워크를 갱신하는 단계는,
    소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용하는, 딥러닝 모델의 학습 방법.
  7. 제 6 항에 있어서,
    상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정하는, 딥러닝 모델의 학습 방법.
  8. 제 6 항에 있어서,
    상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정하는, 딥러닝 모델의 학습 방법.
  9. 제 1 항에 있어서,
    상기 학습 장치가 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 단계;를 더 포함하는, 딥러닝 모델의 학습 방법.
  10. 제 1 항 내지 제 9 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  11. 학습 대상에 대한 데이터셋을 입력받는 입력부;
    순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 프로그램을 저장하는 메모리; 및
    상기 메모리에 저장된 프로그램을 실행하여 딥러닝 모델을 학습하는 프로세서;를 포함하고,
    상기 메모리에 저장된 프로그램은,
    분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하고, 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하며, 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 명령어를 포함하는, 딥러닝 모델의 학습 장치.
  12. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행함으로써, 상기 분류 손실을 산출하는, 딥러닝 모델의 학습 장치.
  13. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도함으로써, 상기 트리플릿 손실을 산출하는, 딥러닝 모델의 학습 장치.
  14. 제 13 항에 있어서,
    상기 트리플릿 랭킹 손실은,
    학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습하는, 딥러닝 모델의 학습 장치.
  15. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하고, 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출하는, 딥러닝 모델의 학습 장치.
  16. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용하는, 딥러닝 모델의 학습 장치.
  17. 제 16 항에 있어서,
    상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정하는, 딥러닝 모델의 학습 장치.
  18. 제 16 항에 있어서,
    상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정하는, 딥러닝 모델의 학습 장치.
  19. 제 11 항에 있어서,
    상기 메모리에 저장된 프로그램은,
    학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 명령어를 더 포함하는, 딥러닝 모델의 학습 장치.
PCT/KR2019/004452 2018-05-31 2019-04-12 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치 WO2019231105A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2018-0062705 2018-05-31
KR20180062705 2018-05-31
KR1020190043019A KR20190140824A (ko) 2018-05-31 2019-04-12 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치
KR10-2019-0043019 2019-04-12

Publications (1)

Publication Number Publication Date
WO2019231105A1 true WO2019231105A1 (ko) 2019-12-05

Family

ID=68698252

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/004452 WO2019231105A1 (ko) 2018-05-31 2019-04-12 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2019231105A1 (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444765A (zh) * 2020-02-24 2020-07-24 北京市商汤科技开发有限公司 图像重识别方法及相关模型的训练方法及相关装置、设备
CN111460155A (zh) * 2020-03-31 2020-07-28 北京邮电大学 一种基于知识图谱的信息可信度评估方法及装置
CN111582107A (zh) * 2020-04-28 2020-08-25 浙江大华技术股份有限公司 目标重识别模型的训练方法、识别方法、电子设备及装置
CN112328786A (zh) * 2020-11-03 2021-02-05 平安科技(深圳)有限公司 基于bert的文本分类方法、装置、计算机设备及存储介质
CN112949720A (zh) * 2021-03-04 2021-06-11 电子科技大学 一种基于三元组损失的未知辐射源辨别方法
CN113128444A (zh) * 2021-04-28 2021-07-16 奇瑞汽车股份有限公司 一种损失函数获取方法、计算机可读存储介质及电子设备
WO2021169473A1 (zh) * 2020-02-28 2021-09-02 深圳前海微众银行股份有限公司 模型性能优化方法、装置、设备及存储介质
CN113435383A (zh) * 2021-07-07 2021-09-24 中国人民解放军国防科技大学 基于双三元组伪孪生架构的遥感飞机目标分类方法和装置
CN113822145A (zh) * 2021-07-30 2021-12-21 的卢技术有限公司 一种基于深度学习的人脸识别操作方法
CN113837228A (zh) * 2021-08-30 2021-12-24 厦门大学 基于惩罚感知中心损失函数的用于细粒度物体检索方法
CN116127298A (zh) * 2023-02-22 2023-05-16 北京邮电大学 基于三元组损失的小样本射频指纹识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124711A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Universal correspondence network
WO2017203262A2 (en) * 2016-05-25 2017-11-30 Metail Limited Method and system for predicting garment attributes using deep learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124711A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Universal correspondence network
WO2017203262A2 (en) * 2016-05-25 2017-11-30 Metail Limited Method and system for predicting garment attributes using deep learning

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BAE, BYEONG-UK ET AL.: "Improved Deep Learning Model for Bone Age Assessment using Triplet Ranking Loss", OPEN REVIEW, 12 April 2018 (2018-04-12), pages 1 - 3, XP055659494 *
LIU, HAO ET AL.: "Label-Sensitive Deep Metric Learning for Facial Age Estimation", IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECUCITY, vol. 13, no. 2, February 2018 (2018-02-01), pages 292 - 305, XP011673384, DOI: 10.1109/TIFS.2017.2746062 *
LIU. HAO ET AL.: "Ordinal Deep Feature Learning for Facial Age Estimation", 2017 IEEE 12TH INTERNATIONAL CONFERENCE AN AUTOMATIC FACE & GESTURE RECOGNITION, 29 June 2017 (2017-06-29), pages 157 - 164, XP033109700 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444765A (zh) * 2020-02-24 2020-07-24 北京市商汤科技开发有限公司 图像重识别方法及相关模型的训练方法及相关装置、设备
CN111444765B (zh) * 2020-02-24 2023-11-24 北京市商汤科技开发有限公司 图像重识别方法及相关模型的训练方法及相关装置、设备
WO2021169473A1 (zh) * 2020-02-28 2021-09-02 深圳前海微众银行股份有限公司 模型性能优化方法、装置、设备及存储介质
CN111460155B (zh) * 2020-03-31 2023-07-18 北京邮电大学 一种基于知识图谱的信息可信度评估方法及装置
CN111460155A (zh) * 2020-03-31 2020-07-28 北京邮电大学 一种基于知识图谱的信息可信度评估方法及装置
CN111582107A (zh) * 2020-04-28 2020-08-25 浙江大华技术股份有限公司 目标重识别模型的训练方法、识别方法、电子设备及装置
CN111582107B (zh) * 2020-04-28 2023-09-29 浙江大华技术股份有限公司 目标重识别模型的训练方法、识别方法、电子设备及装置
CN112328786A (zh) * 2020-11-03 2021-02-05 平安科技(深圳)有限公司 基于bert的文本分类方法、装置、计算机设备及存储介质
CN112949720A (zh) * 2021-03-04 2021-06-11 电子科技大学 一种基于三元组损失的未知辐射源辨别方法
CN113128444A (zh) * 2021-04-28 2021-07-16 奇瑞汽车股份有限公司 一种损失函数获取方法、计算机可读存储介质及电子设备
CN113435383A (zh) * 2021-07-07 2021-09-24 中国人民解放军国防科技大学 基于双三元组伪孪生架构的遥感飞机目标分类方法和装置
CN113822145A (zh) * 2021-07-30 2021-12-21 的卢技术有限公司 一种基于深度学习的人脸识别操作方法
CN113837228A (zh) * 2021-08-30 2021-12-24 厦门大学 基于惩罚感知中心损失函数的用于细粒度物体检索方法
CN113837228B (zh) * 2021-08-30 2024-01-16 厦门大学 基于惩罚感知中心损失函数的用于细粒度物体检索方法
CN116127298A (zh) * 2023-02-22 2023-05-16 北京邮电大学 基于三元组损失的小样本射频指纹识别方法
CN116127298B (zh) * 2023-02-22 2024-03-19 北京邮电大学 基于三元组损失的小样本射频指纹识别方法

Similar Documents

Publication Publication Date Title
WO2019231105A1 (ko) 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치
WO2018212494A1 (ko) 객체를 식별하는 방법 및 디바이스
KR20190140824A (ko) 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치
WO2019098449A1 (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
US9053391B2 (en) Supervised and semi-supervised online boosting algorithm in machine learning framework
WO2019074195A1 (ko) 딥러닝 기반 이미지 비교 장치, 방법 및 컴퓨터 판독가능매체에 저장된 컴퓨터 프로그램
US20080201144A1 (en) Method of emotion recognition
WO2021075735A1 (en) Training a neural network using periodic sampling over model weights
KR101175597B1 (ko) 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체
WO2019050297A1 (ko) 뉴럴 네트워크 학습 방법 및 장치
WO2020045848A1 (ko) 세그멘테이션을 수행하는 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법
WO2020005049A1 (ko) 인공 신경망의 학습 방법
WO2023008884A1 (ko) 다중 인공지능 모델의 연속 처리 구조에 기반한 이미지 자동 분류 및 처리 방법, 그리고 이를 실행시키기 위해 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램
WO2020141907A1 (ko) 키워드에 기초하여 이미지를 생성하는 이미지 생성 장치 및 이미지 생성 방법
CN110443372A (zh) 一种基于熵最小化的迁移学习方法及系统
WO2020164336A1 (zh) 通过强化学习提取主干词的方法及装置
WO2018212584A2 (ko) 딥 뉴럴 네트워크를 이용하여 문장이 속하는 클래스를 분류하는 방법 및 장치
WO2022145800A1 (ko) 이미지 인식 기반 전력량 분석 정보를 제공하는 컴퓨팅 장치
CN117078656A (zh) 一种新型基于多模态提示学习的无监督图像质量评估方法
JP7310904B2 (ja) 学習装置、学習方法、及び、プログラム
WO2018084473A1 (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
Kirana et al. Ant System for face detection
Khalifa et al. A survey on loss functions for deep face recognition network
WO2019059460A1 (ko) 영상 처리 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19810119

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19810119

Country of ref document: EP

Kind code of ref document: A1