WO2019231105A1

WO2019231105A1 - 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치

Info

Publication number: WO2019231105A1
Application number: PCT/KR2019/004452
Authority: WO
Inventors: 양현승; 임우빈; 홍성은; 윤성의
Original assignee: 한국과학기술원
Priority date: 2018-05-31
Filing date: 2019-04-12
Publication date: 2019-12-05

Abstract

본 발명은 기계 학습을 이용한 영상 처리에 관한 기술로, 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법은, 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하고, 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하며, 산출된 분류 손실 및 트리플릿 손실에 기반하되 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신함으로써, 효과적인 학습과 손실 제어가 가능하다.

Description

트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치

본 발명은 기계 학습(machine learning)을 이용한 영상 처리에 관한 기술로, 특히 이미지를 분류함에 있어서 순서가 있는 경우 트리플릿 기반의 손실함수를 이용하여 딥 러닝 네트워크에서 학습을 수행하는 방법 및 장치에 관한 것이다.

딥 러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계 학습(machine learning) 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고 방식을 컴퓨터에게 가르치는 기계 학습의 한 분야이다.

최근 수년간, 얼굴 영상들로부터 나이를 추정하기 위해 CNN(convolutional neural network)에 기반한 의미있는 노력이 경주되어 왔다. 이러한 시도들 중에서, 분류-기반의 접근 방법들이 성과를 내고 있으나, 나이 차이 및 순서가 있는 나이 정보를 제공하는 것에는 미진함이 존재하였다.

구현 가능한 다양한 응용 기술들로 인해 얼굴 영상으로부터 나이를 추정하는 기술에 대한 관심이 증가하고 있다. 다른 컴퓨터 비전(computer vision) 분야에서와 마찬가지로, CNN(Convolutional Neural Network)에 기반한 의미있는 노력이 나이 추정을 위해 사용되고 있다. 나이 추정은, 크게 나이 그룹의 분류 또는 나이 값(age value)의 직접적인 예측, 즉 회귀 분석(regression task)으로 구분될 수 있다.

나이 추정 분야에서, CNN은 다양한 방식으로 널리 활용된다. 나이 그룹을 분류하기 위해, 종래에는 N-클래스 확률 출력을 갖는 바닐라(vanilla) CNN을 사용하였는데, 이는 Adience 벤치마크 데이터셋에 대한 베이스라인(baseline) 성능을 제공한다. 얼굴 영상으로부터 나이를 보다 잘 추정하기 위해, 전이(transferred) CNN과 주의 모델(attention model)을 사용한 연구가 제안되었다.

한편, 나이 그룹 분류를 넘어 나이 값을 예측하는 연구가 수행되었다. 초기의 연구들은 가우시안 손실(Gaussian loss)을 갖는 3개-층(layer) CNN 회귀 모델을 포함하였다. 그러나, 회귀 손실에 대해 직접 CNN을 학습시키는 최근의 실험들은 이상점(outlier) 값들이 더 큰 일반화 오류를 야기하기 때문에 안정적이지 못하였다. 이로 인해, 분포-기반 손실(distribution-related loss), 순서가 있는 랭킹 전략, 및 분류 손실과 같이, 나이 값을 추정하기 위해 서로 다른 접근 방법들이 소개되었다. 이들 중에서, 분류 기반의 방법들은 큰 스케일의 데이터셋에서 약속된 결과를 보여준다.

<선행기술문헌>

Sungeun Hong, Woobin Im, Jongbin Ryu, and Hyun S Yang. Sspp-dan: Deep domain adaptation network for face recognition with single sample per person. In International Conference on Image Processing, 2017.

Sungeun Hong, Jongbin Ryu,Woobin Im, and Hyun S Yang. D3: Recognizing dynamic scenes with deep dual descriptor based on key frames and key segments. Neurocomputing, 273:611-621, 2018.

본 발명이 해결하고자 하는 기술적 과제는, 종래의 분류 손실, 즉 크로스-엔트로피 손실(cross-entropy loss)이 나이 라벨(label)의 순서가 있는 특징을 반영하지 못하며, 특히 예측된 라벨이 옳은지 여부에만 집중함으로써, 예측과 목표 값 사이의 오류의 정도를 처리하지 못한다는 문제를 해소하고자 한다. 실험을 통해 이후에 논의되는 바와 같이, 이는 학습(training)과 평가 셋(set) 간에 큰 성능 차이를 야기한다. 이러한 이슈에 대해, 본 발명의 실시예들은 분류 손실뿐만 아니라 제안된 랭킹 제약으로부터 공동으로 설정된, CNN을 위한 종단간(end-to-end) 학습 목표를 제안하고자 한다.

상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 적어도 하나의 프로세서를 구비하는 학습 장치가, 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법은, 학습 장치가 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하는 단계; 상기 학습 장치가 종단간(end-to-end) 학습을 위한 분류 손실을 산출하는 단계; 상기 학습 장치가 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하는 단계; 및 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 상기 학습 장치가 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 단계;를 포함한다.

일 실시예에 따른 딥러닝 모델의 학습 방법에서, 상기 분류 손실을 산출하는 단계는, 학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행할 수 있다.

일 실시예에 따른 딥러닝 모델의 학습 방법에서, 상기 트리플릿 손실을 산출하는 단계는, 상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도할 수 있다. 또한, 상기 트리플릿 랭킹 손실은, 학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습할 수 있다.

일 실시예에 따른 딥러닝 모델의 학습 방법에서, 상기 최종 손실값에 대해 네트워크를 갱신하는 단계는, 미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하는 단계; 및 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출하는 단계;를 포함할 수 있다.

일 실시예에 따른 딥러닝 모델의 학습 방법에서, 상기 최종 손실값에 대해 네트워크를 갱신하는 단계는, 소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용할 수 있다. 또한, 상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정할 수 있다. 나아가, 상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정할 수 있다.

일 실시예에 따른 딥러닝 모델의 학습 방법은, 상기 학습 장치가 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 단계;를 더 포함할 수 있다.

한편, 이하에서는 상기 기재된 딥러닝 모델의 학습 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 딥러닝 모델의 학습 장치는, 학습 대상에 대한 데이터셋을 입력받는 입력부; 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 프로그램을 저장하는 메모리; 및 상기 메모리에 저장된 프로그램을 실행하여 딥러닝 모델을 학습하는 프로세서;를 포함하고, 상기 메모리에 저장된 프로그램은, 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하고, 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하며, 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 명령어를 포함한다.

일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행함으로써, 상기 분류 손실을 산출할 수 있다.

일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도함으로써, 상기 트리플릿 손실을 산출할 수 있다. 또한, 상기 트리플릿 랭킹 손실은, 학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습할 수 있다.

일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하고, 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출할 수 있다.

일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용할 수 있다. 또한, 상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정할 수 있다. 나아가, 상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정할 수 있다.

일 실시예에 따른 딥러닝 모델의 학습 장치에서, 상기 메모리에 저장된 프로그램은, 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 명령어를 더 포함할 수 있다.

본 발명의 실시예들은, 순서가 있는 분류 문제에 대한 딥러닝 모델을 학습시킴에 있어서, 정확한 분류 값을 추정하는데 사용되는 분류 손실뿐만 아니라, 트리플릿 랭킹 손실(triplet ranking loss) 및 분류-랭킹 조합 손실(classification-ranking joint loss)에 의해 도출된, 적응적인 랭킹 제약을 레귤러라이저(regularizer)와 같이 동작시킴으로써, 빠르고 정확하게 손실의 조정을 달성할 수 있다는 효과를 얻을 수 있다.

도 1은 본 발명의 실시예들이 제안하는 컨셉과 목표를 도시한 도면이다.

도 2는 본 발명의 일 실시예에 따른 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법을 도시한 흐름도이다.

도 3는 본 발명의 실시예들에 따른 딥러닝 모델 학습 방법의 전체적인 네트워크 프레임워크를 도시한 도면이다.

도 4은 2차원 임베딩 공간(바틀넥)을 개괄적으로 시각화한 도면이다.

도 5는 본 발명의 일 실시예에 따른 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 장치를 도시한 블록도이다.

도 6는 MORPH Album 2 데이터셋 상에 베이스라인(baseline) 및 본 발명의 실시예들에 따른 모델을 학습시킨 것을 예시한 도면이다.

도 7는 T-SNE 방법에 의해 네트워크의 바틀넥 특징의 임베딩 공간을 시각화한 것을 예시한 도면이다.

본 발명의 일 실시예에 따른 적어도 하나의 프로세서를 구비하는 학습 장치가, 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법은, 학습 장치가 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하는 단계; 상기 학습 장치가 종단간(end-to-end) 학습을 위한 분류 손실을 산출하는 단계; 상기 학습 장치가 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하는 단계; 및 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 상기 학습 장치가 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 단계;를 포함한다.

본 발명의 실시예들을 설명하기에 앞서, 종래의 딥러닝 모델에서 분류를 수행함에 있어서 나타나는 약점을 소개하고, 이를 해결하기 위해 본 발명의 실시예들이 제안하는 기술적 수단을 순차적으로 소개하도록 한다.

딥러닝 모델은 많은 경우 분류와 관련된 문제를 해결하는 데에 사용된다. 예를 들어, 수기로 그려진 이미지에서 숫자를 분류할 수도 있고, 단순하게는 이미지 내에 개가 있는지 고양이가 있는지 등을 분류할 수도 있다. 본 발명의 실시예들은 모두 순서가 있는 분류 문제를 대상으로 전제하고 있는데, 여기서 순서가 있는 분류 문제의 예시로 나이 예측을 고려할 수 있다. 예로 들어, 어떤 사람이 30살이라고 했을 때, 인식기에서 29살로 인식한 경우 또는 60살로 인식한 경우를 가정하면, 기존의 분류 문제에서는 두 경우 인식기는 문제가 전혀 없다고 간주한다. 왜냐하면, 둘 다 잘못된 값으로 인식하였기 때문이다. 그러나, 순서가 있는 분류 문제라는 점을 고려하면, 오답의 수준에 차이가 현저하다는 점에서 해당 인식기가 29살로 인식한 경우와 60살로 인식한 경우의 수준을 다르게 평가하여야 할 것이다. 이와 같이 순서에 따라서 분류 수준이 달라질 수 있는 경우를 순서가 있는 분류 문제라고 명명한다. 이하에서 제안되는 본 발명의 실시예들은 이러한 순서가 있는 분류 문제를 보다 정확하고 빠르게 학습하기 위한 기술적 수단을 제안하고자 한다.

딥 러닝에서는 행렬 모양의 네트워크를 이용하여 피드백이 이루어지는데, 이러한 피드백이란 결국 어떤 입력이 오더라도 최적의 답을 도출할 수 있도록 유도한다는 것을 의미한다. 당연하게도 모든 학습되지 않는 네트워크는 실제의 값과 예측되는 값이 다르게 나오게 되며, 실제 값과 예측되는 값이 다르면 이를 손실(loss)이라고 한다. 이때 사용되는 손실 함수(loss function)는 그런 손실을 최대한 줄일 수 있도록 최적으로 조정시켜주는 함수를 의미한다. 이러한 손실 함수를 전략적으로 개량함으로써 최대한 빠르고 정확하게 최적화를 수행할 수 있다.

종래의 트리플릿 손실과 본 발명의 실시예들이 제안하는 랭킹 제약 간의 주된 차이점은 상관 트리플릿 샘플링 및 규모가 변화하는(scale-varying) 랭킹의 두 가지 요소이다. 일반적으로, 종래의 트리플릿 손실에서, 트리플릿은 동일한 라벨(앵커(anchor) 및 포지티브(positive))을 갖는 두 개의 샘플, 다른 라벨(네거티브(negative))을 갖는 하나의 샘플, 및 임베딩 공간(embedding space)에서 상수 마진(constant margin)에 의해 네거티브 쌍(pair)으로부터 포지티브 쌍을 분리하는 목표를 갖는 손실로 구성된다. 여기서 임베딩 공간이란 고차원 데이터를 저차원 공간으로 매핑시키는 것을 의미하며, CNN으로 추출하여 남게 되는 특징 맵(feature map)은 다 임베딩 공간이 된다.

그러나, 본 발명의 실시예들은 나이 추정에서 상수 마진을 이용하여 랭킹 손실을 적용하는 것이 나이 라벨에서 순서가 있는 정보를 완전하게 활용하지 못한다는 점에 주목하였다. 이러한 문제를 해결하기 위해, 본 발명의 실시예들은 우선, 앵커에 상대적으로 가까운 샘플이 포지티브이고 그렇지 않은 것이 네거티브인 상관 트리플릿 샘플링을 제안함으로써 현존하는 엄격한 선택 기준을 완화하였다. 제안된 샘플링 방법은 종래의 기술에 비해 트리플릿에서 더 다양성을 생성할 수 있고, 궁극적으로 다음의 랭킹 제약을 효과적으로 적용할 수 있게 한다.

일단 상관 트리플릿이 샘플링되면, 다음으로 트리플릿의 중요도를 자동으로 결정하고 그에 따라 변화량(gradient)의 스케일(scale)을 조정하는, 스케일이 변화하는 랭킹 손실을 적용한다. 이는 모델로 하여금 고정된 마진 상수 없이도 랭킹을 학습하고, 또한 모델이 오버피팅(overfitting)되는 것을 방지하는 레귤러라이저(regularizer)와 같이 동작하도록 한다. 여기서, 오버피팅이란, 학습 데이터에만 의존적으로 학습을 하면서 실제 현상에는 맞지 않고 학습 데이터에만 한정적으로 맞게 되는 문제를 말하며, 레귤러라이즈(regularize)한다는 것은 단순히 분류(classification)만의 문제로 집중하는 것을 분산시켜 학습한다는 것을 의미한다. 즉, 순서가 있는 분류 문제에서 중요한 것은 예측 라벨(결과)이 옳은지 아닌지보다는 에러 수준이 크냐 작냐의 수준이다. 종래에는 그런 형식의 분류와 관련된 중심의 손실을 중심으로 연구가 진행되어 왔으나, 본 발명의 실시예들에서는 트리플릿 랭킹 손실(triplet ranking loss)의 요소를 도입하였다. 기존 분류 손실(classification loss)을 통해 계속적으로 정확한 나이를 예측하면서, 동시에 트리플릿 랭킹 손실을 통해 성능이 더 향상되도록 레귤러라이즈하게 된다.

이하에서는 도면을 참조하여 본 발명의 실시예들을 구체적으로 설명하도록 한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 덧붙여, 명세서 전체에서, 어떤 구성 요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

특별히 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 발명의 실시예들이 제안하는 컨셉과 목표를 도시하였다. 도 1에서, 중앙의 여성의 나이를 추론하는 경우, (중앙) 분류손실은 오직 그 라벨만을 고려하고, (좌) 랭킹 손실은 나이를 추론함에 있어서 추가적인 단서인 트리플릿의 나이 차이를 고려하며, (우) 적응적인 트리플릿 랭킹 손실은 차이들의 스케일을 고려함으로써, 더 큰 랭킹 손실이 트리플릿에 적용된다.

도 1을 참조하면, 현재 실제나이가 29세인 여성을 예측하여 29세인 곳으로 분류(classification)하고자 하는 상황을 가정하고 있다. 종래의 분류 손실(classification loss)을 이용하면 예측된 나이가 29세인지 아닌지만을 고려하게 된다. 즉, 80세로 예측하는 경우와 30세로 예측하는 경우 모두 똑같은 손실(loss)이 발생한다.

그러나, 트리플릿 손실을 채택하였을 때, 예측 나이가 35세인 경우라면 포지티브(positive)가 되어 더 작게 예측이 수행되어야 하는 것을 인지하게 된다. 반면, 예측 나이가 23세인 경우에는 네거티브(negative)가 되어 더 크게 예측이 수행되도록 유도하다.

굳이 비교가 아니더라도 스케일(scale) 차이에 따라서도 이를 정할 수 있다. 만약 80세를 예측하면 네거티브가 되어 훨씬 다른 나이대에 있는 것을 감안하며 학습이 될 것이고, 28세를 예측하면 근접한 위치에 있으니 조금만 더 학습하면 금방 실제에 가까워질 것이다.

본 발명의 실시예들에서는 트리플릿 랭킹 손실(triplet ranking loss)로써 나이 차이와 차이의 스케일(scale of difference)를 모두 적용하여 더 빠르게 학습하도록 유도한다. 종래의 트리플릿 랭킹 손실의 경우 오른쪽의 더 큰 랭킹 손실(larger ranking loss)만이 존재하였는데, 이 경우에도 어느 정도의 보정이 가능하지만 특정 나이 차이 내로 진입한 이후에는 전혀 학습이 되지 않는 한계가 발견되었다. 따라서 우선 더 큰 랭킹 손실(larger ranking loss)로 서로 비슷한 나이대들로 분류되도록 유도한 후, 왼쪽의 랭킹 손실(ranking loss)을 적용하여 실제 값에 더 가까워지게 유도하도록 하였다. 요약하건대, 본 발명의 실시예들이 제안하는 주된 아이디어는 다음과 같다:

(i) 본 발명의 실시예들은 레귤러라이저와 같이 동작함으로써 모델의 오버피팅을 방지하는, 적응적이고, 스케일이 변화하는 랭킹 손실을 제안하고, 이는 추정 성능의 향상을 돕는다. 이러한 방식은 나이 추정에 대해 모델을 효과적으로 학습시키기 위해 트리플릿 랭킹 방식을 응용한 최초의 시도에 해당한다.

(ii) 종래의 트리플릿 샘플링에 의해 야기되는 가능한 트리플릿의 결핍에 대해, 본 발명의 실시예들은 스케일이 변화하는 랭킹 손실의 성공적인 응용을 목표로 하는 상관 트리플릿 샘플링 방식을 제안한다.

(iii) 본 발명의 실시예들은 2가지 잘 알려진 벤치마크 기법을 통해 대규모 실험을 수행하였으며, 최신의 방식을 넘어서는 의미있는 향상을 보여주었다. 즉, 실험 결과는 본 발명의 실시예들에 따른 랭킹 손실 및 분류 목표의 합동 학습의 효과를 보여주었다.

도 2는 본 발명의 일 실시예에 따른 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법을 도시한 흐름도로서, 적어도 하나의 프로세서를 구비하는 학습 장치를 통해 수행되는 일련의 연산을 보여준다.

S210 단계에서, 학습 장치는, 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성한다.

S220 단계에서, 상기 학습 장치는, 자료 처리 및 학습 시스템의 여러 단계의 필요한 처리 과정을 한번에 처리하는 방법을 의미하는 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출한다. 여기서, 상기 분류 손실을 산출하는 과정은, 학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행함으로써 달성된다. 또한, 상기 트리플릿 손실을 산출하는 과정은, 상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도함으로써 달성된다. 이러한 트리플릿 랭킹 손실은, 학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습하게 된다.

S230 단계에서, 상기 학습 장치는, 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신한다. 이 과정은, 미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하고, 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출할 수 있다.

한편, 상기 학습 장치는, 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 과정(미도시)을 더 포함할 수 있다.

이하에서는 각 단계를 도면을 참조하여 보다 구체적으로 설명하도록 한다.

1. 분류문제를 갖는 트리플릿 랭킹

도 3를 참조하면, 본 발명의 실시예들은 종단간 학습 가능한 딥 CNN(deep convolutional neural network)에 기반한다. 바틀넥 층(bottleneck layer)에서, 본 발명의 실시예들은 트리플릿을 선택하고 스케일이 변화하는 트리플릿 랭킹 손실을 계산함으로써 적응적인 트리플릿 랭킹 전략(L_T : 이후에 기술할 수학식 6)을 적용하였다. 본 발명의 실시예들에서 최종 목표는 랭킹(L_T : 수학식 6) 및 분류 손실(L_C: 이후에 기술할 수학식 9)을 동시에 함께 공동으로 포함하는 것이다.

즉, 본 발명의 실시예들에 따른 학습 방법은, 스케일이 변화하는 트리플릿 랭킹(scale-varying triplet ranking) 모듈 및 소프트맥스 출력(softmax output)을 갖는다. 네트워크에서, 본 발명의 최종 목표는 얼굴 영상이 주어졌을 경우 소프트맥스 층에 의해 정확한 나이를 추정하는 것이다. 나이 추론과 직접 관련되지는 않으나, 트리플릿 랭킹 모듈은 더 나은 나이 추론을 유도하도록 트리플릿에 주어진 관련된 나이 차이를 제공한다. 그 결과로서, 최종 목표 함수는 트리플릿 랭킹 및 분류 손실을 모두 포함한다. 이후, 본 발명의 실시예들이 제안하는 손실 함수를 보다 구체적으로 설명하도록 한다.

1.1 상관 트리플릿 샘플링

트리플릿 샘플링은 트리플릿 랭킹 손실의 필수적인 부분이다. 트리플릿 손실을 이용한 종래의 응용예에서는 이진(binary) 라벨, 즉 2개의 샘풀이 동일한 분류에 속하는지 아닌지 여부만을 다루었다. 다시 말해, a 및 p가 동일한 분류이나 a 및 n은 다른 분류인 경우, 보통 앵커(anchor), 포지티브(positive), 및 네거티브(negative) 샘플로 불리는 트리플릿 샘플 (a,p,n)이 선택된다.

두 얼굴의 나이가 동일하게 또는 다르게 취급될 수 있는 경우, 나이와 같이 순서가 있는 분류에 대해 덜 효과적이라는 점이 발견된다. 한가지 측면은 이러한 관점에서 가능한 트리플릿의 풀(pool)이 제한적이라는 점이다. 각각의 분류마다 동일한 개수의 샘플을 갖는 크기가 N인 미니-배치(mini-batch)가 있고, 나이 라벨에 대해 K개의 분류가 있다고 가정하자. 만약 종래의 랭킹 손실에 대한 앵커와 같이 동일한 나이 라벨을 갖는 포지티브 샘플을 제한한다면, 미니-배치를 위한 트리플릿의 풀 크기는 O(N³｜K)가 될 것이다. 나이 회귀 분석에 대해 K가 큰 값이 될 수 있기 때문에, 예를 들어 MORPH 데이터셋은 나이에 대해 60개의 분류를 가지므로, 이러한 접근법은 트리플릿의 조합을 심각하게 제한하게 된다.

나이에 관하여, 상대 측정에 의해 포지티브 및 네거티브 샘플을 더 잘 정의할 수 있다. 공식적으로, CNN에 의해 구축된

내의 d-차원 임베딩 공간으로부터 특징을 샘플링한다. 여기서, f는 영상 입력 x를

로 임베딩한다. 포지티브 실수(real number)를 포함하는 나이 라벨 Y의 대응하는 셋을 갖는 크기 N의 미니-배치가 있다고 가정하자. 즉, X = {x₁,x₂,...,x_N} 및 Y = {y₁,y₂,...,y_N}이다. 그런 다음, 상관 트리플릿이

를 만족하도록 (f_a,f_p,f_n)로 간단히 덴트(dented)함으로써 모든 가능한 (f(x_a),f(x_p),f(x_n))를 샘플링한다. 다시 말해, 선택된 트리플릿의 셋은 다음과 같다:

[수학식 1]

결과로서, 앵커 및 포지티브 쌍 간의 나이 차이를 만족하도록 선택된 상관 트리플릿은 앵커 및 네거티브 간의 나이 차이보다 작아야만 한다. 이러한 방식은 O(N³)의 트리플릿 풀을 가지며, 종래에 비해 K배의 다양성을 가지므로, 종래의 방법에 비해 트리플릿에 더 많은 다양성을 형성한다. 본 발명의 실시예들에 따른 적응적 랭킹 손실을 사용할 경우, 차례차례 더 나은 성능(테이블 1(a)) 및 임베딩 공간(도 7)을 가져오게 된다.

1.2 Scale-Varying Triplet Ranking Loss

트리플릿 랭킹이 표현 학습에 사용되는 경우, 그 손실 함수는 직접 거리 함수를 사용한다. 예를 들어, 2개의 특징들 간의 제곱(squared) L2 거리를 사용할 수 있다:

[수학식 2]

여기서, m은 마진 상수(margin constant)이고,

이다. 이러한 손실은 d(f_a,f_p) 및 d(f_a,f_n) 간의 차이가 m보다 더 커야만 한다는 것을 목표로 한다.

불행하게도, 이러한 방식은 마진 상수를 요구하고, 트리플릿의 다양한 셋이 이러한 전략의 효율을 제한할 수 있도록 m을 상수로서 고정할 것을 요구한다. 이러한 무익함은 특징 공간을 학습함에 있어서 나이 트리플릿이 다른 중요도를 갖기 때문에 주로 야기된다. 즉, 일부 트리플릿은 더 큰 m을 요구하는 반면, 다른 트리플릿은 더 작은 m을 요구하며, 이는 도 4에 시각화되어 도시되었다. 도 4은 2차원 임베딩 공간(바틀넥)을 개괄적으로 시각화한 도면으로서, 유사한 나이 샘플이 더 근접하여 위치한다. 좌측의 트리플릿은 우측의 트리플릿에 비해 나이 라벨들 및 공간 내의 그 특징들 간의 차이가 더 넓은 것을 보여준다. 좌측의 트리플릿은 특징을 학습시킴에 있어서 그 업데이트를 보다 중요하게 처리되어야만 한다. 바틀렉 특징(Bottleneck feature)은 CNN 블록이 종료되어 출력되는 결과물 값으로서, 그 결과물을 토대로 분류를 시작하게 된다.

트리플릿에서 차이를 고려하는 손실을 설계하기 위해, 본 발명의 실시예들은 소프트맥스(softmax) 함수를 통해 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스엔트로피 손실(crossentropy loss)를 사용할 것을 제안한다. 이러한 구성은 종래의 랭킹 손실에서 사용되던 마진 상수 없이도, 상관 트리플릿을 고려하여, 손실 함수, 스케일이 변화하는 랭킹 손실을 사용할 수 있도록 한다.

상기 손실을 계산하기 위해, 상관 트리플릿 T의 셋에서 시작한다. T가 주어지면, 포지티브 거리 d₊ 및 네거티브 거리 d_-의 정규화된 버전을 산출한다. 본 발명의 실시예들은 다음과 같이 상기 거리를 정규화하였다.

[수학식 3]

d₊ 및 d_-가 소프트맥스 출력이라는 점을 고려하여, 크로스-엔트로피 손실을 상관 트리플릿에 다음과 같이 적용할 수 있다:

[수학식 4]

여기서, (t₊,t_-) = (0,1)는 목표 값이고; 이는 특징 공간을 조정하여 d₊ 가 0에 접근하도록, 그리고 d_-가 1에 접근하도록 만든다.

학습(training) 데이터셋로부터 선택된 트리플릿(수학식 1)은 학습 특징에 있어서 다양한 중요도를 갖는다. 예를 들어, 도 4에서 좌측의 트리플릿은 우측의 트리플릿에 비해 보다 중요하다. 왜냐하면, 전자의 경우 바람직한 업데이트가 그 큰 차이로 인해 후자보다 더 강하기 때문이다. 만약 본 발명의 실시예들이 크로스-엔트로피 손실(수학식 4)를 간단히 사용한다면, 중요도가 변화하는 이러한 2개의 트리플릿의 변화량(gradient)은 바람직한 업데이트를 달성하는데 실패하여 동일하게 계산된다.

상관 트리플릿의 변화하는 중요도를 반영하기 위해, 본 발명의 실시예들은 비-균일(non-uniform) 가중치 함수 w(·)를 제안한다. 이러한 비-균일 가중치 함수는 다음과 같이 트리플릿의 중요도를 측정한다:

[수학식 5]

여기서, ε는 0으로 나누는 것을 방지하는 작은 상수이고,

는 데이터셋 내의 나이 라벨의 범위가 [Y_min,Y_max]인 경우 정규화된 라벨이다. 그러면, 이를 즉시 손실 함수에 승산하고, 최종 랭킹 손실 L_T 이 다음과 같이 주어진다:

[수학식 6]

수학식 6은 랭킹에 관한 손실 값을 나타내는 것으로, 손실이 줄어들어 일정해질수록 더 잘 학습되고 있다는 것을 나타낸다. 비록 보통의 분류 손실(classification loss) 역시 손실이 줄어들고 잠잠해질수록 학습이 안정화되어 충분히 학습되었다는 것을 의미하지만, 정작 평가(validation)에서는 손실이 발생하는 것을 확인할 수 있었다. 즉, 종래의 모델이 학습한 데이터에 한정되면서 활용성이 떨어지는 문제를 인식하여, 본 발명의 실시예들에 수학식 6의 랭킹 손실을 도입하게 되었다.

변화량(gradient) 분석

분류 손실을 고려한 최종 학습 목표로 이동하기에 앞서, 제안된 손실이 종래의 랭킹 손실과 동일한 변화량을 가지나, 본 발명의 실시예들에 따른 변화량의 규모(magnitude)가 상관 트리플릿의 중요도에 따라 조정됨에 있어서 차이가 있음을 지적하고자 한다. 종래의 랭킹 손실(수학식 2)은 f_a, f_p, 및 f_n에 관하여 도함수(derivative)를 가짐을 주목하자:

[수학식 7]

여기서, S ⊂ T이고 S는 단지 그 손실이 max(0,·)에 의해 제로 아웃되는(zeroed out) 트리플릿을 포함하며, 상기 도함수는 T - S에 대해 0과 동일하다. 상기 마진 상수는 이러한 변화량에 아무런 영향도 갖지 못함에 유의하여야 한다. 반면, 본 발명의 실시예들이 채택하는 손실 함수(수학식 6)은 그 도함수를 갖는다:

[수학식 8]

여기서, α = 2d_+ω(f_i,f_j,f_k)이다.

2개의 서로 다른 손실 함수들의 도함수의 방향(direction)은 정확하게 동일하나, 그 스케일(scale)은 2개의 값: d₊ 및 ω에 의해 조절된다(regulated). d₊는 학습(training)되는 동안 0을 향해 이동하고, 만약 d₊가 0에 가까워지면, 손실 역시 0에 가까워진다. 이것의 장점은 학습이 적절하게 수행되는 경우, 마진 상수 m과 같은 어떠한 하이퍼-파라미터(hyper-parameter)를 사용하지 않고도, d₊가 학습의 진행을 부드럽게 늦추는 것이다. d₊ 뿐만 아니라 ω도 가지며, 양자는 상기 변화량 스케일이 트리플릿의 차이에 의존하도록 한다는 점을 주목할 필요가 있다. 이때, 더 높은 중요도를 갖는 트리플릿이 더 큰 업데이트를 갖게 되고, 덜 중요한 중요도를 갖는 트리플릿은 더 작은 업데이트를 갖게 될 것이다.

1.3 최종 학습 목표

최종 목표는 나이 값을 추정하는 것이며, 따라서 학습 모델이 랭킹 부분과 함께 분류 종료점을 갖도록 설정한다. 분류 네트워크를 학습시키기 위한 나이 값을 이용하기 위해, 나이 값들을 K개의 분류로 구분한다. 그런 다음, 소프트맥스를 분류자(classifier)에 적용한다. 특히, 이러한 분류자 모델은 임베딩 층 이후에 ReLU 액티베이션(activation) 및 소프트맥스 층과 함께 하나의 은닉 층을 갖는다. 분류 손실을 표현하기 위해, 전체 모델이

가 되도록 하는 분류자 g를 설정한다. 여기서,

는 합성 함수(function composition)를 나타낸다. g는 입력 x가 각각의 나이 분류에 속할 확률을 제공하므로, g는

,

, 및

을 만족한다. 여기서, 기호 j는 j-번째 분류에 속할 확률을 나타내는데 사용된다. 또한, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게, 분류 목표에 적용한다. 그러면, 최종 분류 손실은 다음과 같이 정의된다:

[수학식 9]

여기서, N은 배치-크기(batch-size)이고, t_ij는 x_i가 분류 j에 속하는 경우 1의 값을 갖고, 그 외에는 0의 값을 갖는 지시자 함수(indicator function)이다.

분류 및 트리플릿 랭킹 손실에 기초하여, 최종 학습 목표 함수는 L = λL_C + L_T 와 같이 정의되며, λ는 L_T 및 L_C 사이의 밸런스를 제어하기 위한 상수이다.

도 5는 본 발명의 일 실시예에 따른 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 장치(500)를 도시한 블록도로서, 앞서 도 2를 통해 기술한 학습 방법을 하드웨어 구성의 관점에서 재구성한 것이다. 따라서, 여기서는 설명의 중복을 피하고자 각각의 구성의 개요만을 약술하도록 한다.

딥러닝 모델을 학습하는 장치(500)는, 학습 대상에 대한 데이터셋을 입력받는 입력부(10), 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 프로그램을 저장하는 메모리(30) 및 상기 메모리(30)에 저장된 프로그램을 실행하여 딥러닝 모델을 학습하는 프로세서(20)를 포함하여 구성된다. 여기서, 상기 메모리(30)에 저장된 프로그램은, 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하고, 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하며, 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 명령어를 포함한다.

메모리(30)에 저장된 프로그램은, 학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행함으로써, 상기 분류 손실을 산출할 수 있다. 또한, 상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도함으로써, 상기 트리플릿 손실을 산출할 수 있다. 여기서, 상기 트리플릿 랭킹 손실은, 학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습하는 것이 바람직하다.

또한, 메모리(30)에 저장된 프로그램은, 미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하고, 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출할 수 있다.

메모리(30)에 저장된 프로그램은, 소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용할 수 있다. 또한, 상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정할 수 있다. 나아가, 상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정할 수 있다.

한편, 메모리(30)에 저장된 프로그램은, 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 명령어를 더 포함할 수 있다.

2. 실험

이하에서는, 두 가지 서로 다른 분석에 대한 두 가지 유명한 나이 추정 데이터베이스, 나이 회귀 및 나이 분류: MORPH Album 2 및 Adience 데이터셋을 통해 본 발명의 실시예들을 평가하도록 한다.

2.1 상세한 구현예

텐서플로우(Tensorflow)로 구현된 최신의 Inception-ResNet-V1에 본 발명의 실시예들에 따른 모델을 구현하였다. 목표 벤치마크 데이터베이스가 상대적으로 작았기 때문에, 스크래치(scratch)로부터 학습을 시작하지는 않았다. 대신, MS Celeb 1M 또는 ILSVRC2012 데이터셋으로 사전에 학습된 가중치를 활용하였다.

본 발명의 실시예들에 따른 모델을 학습시키는 경우, 지수 감소(exponential decay)로 작은 학습 레이트 5×10^-4를 갖는 Adam 옵티마이저를 사용하였다. 모든 실험에서, λ 을 0.01로, 또한 ε을 0.1로 설정하였다. 중단 정책에 관하여, 평가 셋(validation set)으로서 학습 셋(training set)의 일부를 활용하였고, 평가 정확도가 수렴되는 경우 학습을 중단한다. 랜덤 크로핑(random cropping)과 밝기, 채도 및 색상을 포함하는 컬러 지터링(color jittering)으로 학습 셋을 증가시킨다. 테스트 단계에서는, 랜덤 크로핑을 사용하지 않고, 영상의 4개의 모서리 및 중앙을 크로핑(cropping)하고 플립핑(flipping)함으로써 10개의 샘플을 획득하였다. 그런 다음, 최종 결정을 계산하기 위해 모든 10개의 샘플로부터 마지막 층의 점수에 대한 평균을 내었다.

2.2 MORPH Album 2 데이터셋

MORPH Album 2 데이터셋은 13k 명의 사람들의 55k 얼굴 영상을 포함하고, 신원(identity), 성별, 나이, 인종 등에 관한 다양한 라벨을 제공한다는 점에서 많은 연구에 널리 사용되고 있다. MORPH 역시 나이 추정 분야에서 널리 사용되고 있다. 평가를 위한 프로토콜은 학습 및 나머지 테스트를 위해 영상 샘플의 80%를 사용하도록 설정되었다.

흥미롭게도, 본 발명의 실시예들을 활용한 실험에서 신분에 관한 사진이 짧은 시간 프레임에서 획득되었음을 발견하였다. 특히, 하나의 신원에 대한 최대 나이 편차는 단지 평균 1.9년에 불과하였다. 이는 완전하게 신원을 식별함으로써, 평균 절대 오차(mean absolute error, MAE)를 1.9년까지 낮추는 것을 달성할 수 있음을 나타낸다. 예시된 설정에서, 또한 MS-Celeb를 이용한 얼굴 평가에 대해 미리 학습된 베이스라인 네트워크(baseline network)를 사용하는 것이 2.43년의 평균 절대 오차를 나타내며, 이는 최신의 다른 연구들의 실험 결과인 2.96보다 훨씬 더 좋은 값임을 확인할 수 있다.

평가(evaluation)를 위해 본 발명의 실시예들이 채택하고 있는 기술적 사상

신원 효과를 제거하기 위해, 본 발명의 실시예들은 데이터셋을 중복된 신원을 갖지 않는 훈련 및 테스트 셋으로 분리하는 것을 제안한다. 따라서, 13,617개의 신원을 5개의 상호 배타적인 셋으로 분리하였고, 평가를 위해 5-폴드 크로스-확인(5-fold cross-validation)을 수행하였다.

학습-확인 커브(Training-validation curves)

도 6는 평균 절대 오차 및 2개 유형의 손실에 관한 학습-확인 커브를 보여준다. 도 6에서, 평가 평균 절대 오차(validation MAE)는 학습이 잘 되었는지를 확인하기 위해 데이터셋에서 따로 분리시킨 셋으로 나온 평균 절대 오차 값을 의미하며, 평가 셋(validation set)에 있는 테스트 셋에서의 실제 나이와 측정 나이의 차이의 평균 값을 의미한다.

주요 목표 메트릭인, 평균 절대 오차를 나타내는 첫 번째 그래프는 베이스라인(밝은 파랑색 실선 커브) 및 본 발명의 실시예들에 따른 커브(빨간색 실선 커브) 간의 명확한 차이를 보여준다. 특히, 베이스라인이 학습의 초기 단계에서 오버피팅되는 반면, 본 발명의 실시예들에 따른 커브는 평균 절대 오차를 개선하고 있는 것을 관찰할 수 있다. 두 번째 및 세 번째 그래프는 본 발명의 실시예들에 따른 랭킹 손실이 베이스라인 모델에 비해 상대적으로 더 높은 학습 손실을 보상함에 있어서 보이지 않는 데이터셋에 대해 더 낮은 일반화 오차를 가져오는 레귤러라이저로서 동작하는 것을 보여준다.

표 1에서 (a)는 본 발명의 실시예에 따른 분리(split) 프로토콜에 의해 MORPH 상에 표준 오차 (±e)를 갖는 5-폴드 크로스-확인 평균 절대 오차를 나타낸다. 이는 다른 조합(분류 + 트리플릿 랭킹) 손실에 비해 본 실시예의 효과를 보여준다. (b)는 최신의 다른 연구 결과들과의 비교를 보여준다.

손실 유형들 간의 비교

표 1의 (a)에는 서로 다른 손실 유형들에 의해 획득된 정확도 차이가 나타난다. 베이스라인 (L_C)은 랭킹 손실을 이용하지 못하고 다른 방식들에 비해 더 나쁜 평균 절대 오차를 갖는다. 먼저 베이스라인과 얼굴 인식을 위해 설계되어 종래의 모델에서 채택되었던 랭킹 손실 L_c _.triplet (수학식 2)을 비교하였다. 여기서, 실험 결과는 분류 손실 및 랭킹 손실을 이용한 조합 손실 설정이 베이스라인 대비 0.3년의 차이에서 평균 절대 오차를 향상시키는데 충분히 효과적이라는 사실을 보여준다. 상관 트리플릿 선택을 이용하지 않는 경우, 랭킹 손실 L_T은 L_c _.triplet보다 0.02년 우수한 성능을 보여준다. 나아가, 본 발명의 실시예들에 따른 모델은 상관 샘플링 방법을 이용해 조합된 다른 조합 모델에 비해 모든 테스트 방법들 중 가장 낮은 결과인 2.87의 평균 절대 오차를 보여줌으로써 더 우수한 결과를 나타낸다. 이러한 개선은 트리플릿의 다양한 셋에 대한 상관 샘플링 및 순서가 있는 분류문제에 대해 합리적인 변화량(수학식 8)을 가져오는 적응적 스케일이 변화하는 손실 함수(수학식 6)로부터 주로 야기된 것이다.

최신의 다른 연구들과의 비교

표 1의 (b)에는 본 발명의 실시예들에 따른 모델과 다른 CNN 모델을 비교하였다. 먼저, 만약 얼굴 도메인 지식, 즉 MS-Celeb에 미리 학습된 결과를 사용하는 경우, 앞서 널리 사용된 분리 프로토콜, 즉 영상에 의한 랜덤 분리에 기초하여 더 높은 결과를 얻을 수 있다는 결론을 내렸다. 보다 견고한 분리, 즉 신원에 의한 랜덤 분리를 사용하는 경우, 최신의 다른 연구들로부터 도출된 결과에 비해서도 더 우수한 2.87의 평균 절대 오차를 달성할 수 있다.

임베딩 공간의 시각화

도 7는 단지 분류 손실만에 의한 것, L_c:triplet을 갖는 조합 손실에 의한 것, 및 본 발명의 실시예들에 따른 조합 모델에 의해 계산된 임베딩 공간을 시각화한 도면이다. MORPH 데이터베이스의 테스트 인스턴스로부터 입력이 주어졌으며, 컬러 바 상의 값은 나이를 나타낸다

T-SNE 방법은 t 분포(t distribution)의 SNE(stochastic Neighbor embedding)라는 의미이다. 고차원 공간에 존재하는 데이터들에서 주변과 비슷하거나 동일한 집단끼리는 거리를 최대한 보존하여 표현하는 그래프 형식을 말한다. T-SNE에서 서로가 최대한 균형적으로 분포되고 나뉘어질 형태를 띄고 있으면 성능이 좋다고 평가할 수 있다.

여기서, 본 발명의 실시예들에 의한 조합 모델(도 7의 (c))이 다른 모델들(도 7의 (a)-(b))에 비해 나이의 함수인 1차원 커브을 따라 특징들에 더욱 밀착하여 정렬된 것을 명확하게 관찰할 수 있다. 이는 분류 손실이 단지 순서가 있는 특징들을 고려하는 것이 아니라 분류 차이만을 인식하기 때문이다. 즉, 완전히 다른 색깔뿐만 아니라 동일한 색깔(나이)을 갖는 샘플들도 동일하게 취급되어 더욱 모호한 특징 공간으로 귀결된다. 조합 손실의 경우(도 7의 (b)), 샘플들은 더욱 정돈된 형태로 정렬되나, 완전한 1차원 커브는 아니다. 왜냐하면 트리플릿의 서로 다른 중요도를 고려하지 않는 고정된 마진 항(term)을 갖기 때문이다. 반면, 스케일이 변화하는 랭킹 손실은 샘플들이 얼마나 근접하여야만 하는지 또는 얼마나 멀리 위치해야만 하는지를 고려하여, 근접한 위치에 유사한 색깔들을 갖는 샘플들을 위치시키는 반면, 다른 색깔들을 갖는 샘플들은 더 멀리 위치시키게 된다.

2.3 Adience 벤치마크

여기서는 Adience 벤치마크 데이터베이스를 이용하여 나이 분류 작업에 대해 본 발명의 실시예들에 따른 모델을 평가하였다. 이 데이터베이스는 제약없는 환경에서 획득된 25k개의 크롭된 얼굴 영상을 포함한다. 이는 각각의 얼굴 영상에 대해 신원, 성별, 및 나이 그룹 라벨을 제공한다. 성능 평가를 위해, 평가 프로토콜에 따라 실험을 진행하였다. 데이터셋은 5-폴드 크로스-확인이 수행되는 5개의 분할(split)로 구성된다. 그 아니 그룹은 8개의 분류: [0,2], [4,6], [8,12], [15,20], [25,32], [38,43], [48,53], 및 [60,100]를 포함한다.

표 2는 Adience 벤치마크에 대한 최신의 다른 딥 방법들의 연구 결과를 비교한 것이다. '1-off'는 정확도로서 1개 분류 만큼의 오분류(miss classification)가 허용됨을 의미한다. '정확한(exact)' 결과를 위해, 본 실험에서는 어떠한 오분류도 허용하지 않았다. 정확도와 함께, 5-폴드 크로스-확인 결과의 표준 오차 (±e)를 기록하였다.

성능 분석

나이 분류 결과를 기록하고 그 결과를 표 2에서 다른 방법들과 비교하였다. 베이스라인에 대해, 우선 베이스라인 모델을 60.5%의 정확도를 갖는 분류 손실만을 이용해 학습시켰다. 본 발명의 실시예들에 따른 방법으로 네트워크를 학습시켰을 때, 베이스라인 대비 ‘exact’에서 약 3% 및 ‘1-off’ 결과에서 2%의 차이를 보여 본 발명의 실시예들의 향상을 명확하게 확인할 수 있었다. 분류에 대해 다른 방법들이 L_C (수학식 9)를 사용하였다는 사실과 관련하여, 본 발명의 실시예들에 따른 적응적 랭킹 손실(L_T : 수학식 6)을 이들의 분류 손실(L_C: 수학식 9)에 추가하는 것이 더욱 성능향상을 가져올 수 있을 것으로 예상할 수 있다.

3. 결론

본 발명의 실시예들은, 나이 추정에 대한 분류 손실을 이용하여, 적응적이고, 스케일이 변화하는 랭킹 손실을 제안하였다. 트리플릿 랭킹 손실이 나이 특징을 학습하는데 도움이 된다는 단순한 직관에 기초하여, 나이 추정에 대한 조합 목표의 성능 향상을 위해, 상관 트리플릿 선택 및 가중치 기법을 도입함으로써 종래의 모델들을 개량하였다. 본 발명의 실시예들에 따른 상관 트리플릿 샘플링에 대한 조합 손실을 이용함으로써 적응적인 스케일이 변화하는 랭킹 손실이 모델의 일반화 오차를 감소시키고 베이스라인보다 나이 특징을 더욱 잘 정렬할 수 있는 것을 확인하였다. 마지막으로, 본 발명의 실시예들에 따른 모델은 나이 회귀 및 분류 분석 모두에 있어서 최신의 다른 연구들에 비해 의미있는 성능 향상을 달성하였다.

한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이상에서 본 발명에 대하여 그 다양한 실시예들을 중심으로 살펴보았다. 본 발명에 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

본 발명의 실시예들이 제안하는 모델은 얼굴 나이의 추정에 주로 집중되었으나, 이에 제한되지 않는다. 본 발명의 실시예들이 상관 랭킹 전략을 이용하였으므로, 실측 자료(ground-truth) 라벨들 간의 거리 측정이 나타나는 다른 영역에 널리 적용될 수 있을 것으로 예상된다.

본 발명의 실시예들에 따르면, 순서가 있는 분류 문제에 대한 딥러닝 모델을 학습시킴에 있어서, 정확한 분류 값을 추정하는데 사용되는 분류 손실뿐만 아니라, 트리플릿 랭킹 손실(triplet ranking loss) 및 분류-랭킹 조합 손실(classification-ranking joint loss)에 의해 도출된, 적응적인 랭킹 제약을 레귤러라이저(regularizer)와 같이 동작시킴으로써, 빠르고 정확하게 손실의 조정을 달성할 수 있다는 효과를 얻을 수 있다.

Claims

적어도 하나의 프로세서를 구비하는 학습 장치가, 순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 방법에 있어서,

학습 장치가 학습 대상을 입력으로 하고 분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하는 단계;

상기 학습 장치가 종단간(end-to-end) 학습을 위한 분류 손실을 산출하는 단계;

상기 학습 장치가 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하는 단계; 및

산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 상기 학습 장치가 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 단계;를 포함하는, 딥러닝 모델의 학습 방법.
제 1 항에 있어서,

상기 분류 손실을 산출하는 단계는,

학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행하는, 딥러닝 모델의 학습 방법.
제 1 항에 있어서,

상기 트리플릿 손실을 산출하는 단계는,

상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도하는, 딥러닝 모델의 학습 방법.
제 3 항에 있어서,

상기 트리플릿 랭킹 손실은,

학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습하는, 딥러닝 모델의 학습 방법.
제 1 항에 있어서,

상기 최종 손실값에 대해 네트워크를 갱신하는 단계는,

미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하는 단계; 및

샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출하는 단계;를 포함하는, 딥러닝 모델의 학습 방법.
제 1 항에 있어서,

상기 최종 손실값에 대해 네트워크를 갱신하는 단계는,

소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용하는, 딥러닝 모델의 학습 방법.
제 6 항에 있어서,

상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정하는, 딥러닝 모델의 학습 방법.
제 6 항에 있어서,

상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정하는, 딥러닝 모델의 학습 방법.
제 1 항에 있어서,

상기 학습 장치가 학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 단계;를 더 포함하는, 딥러닝 모델의 학습 방법.
제 1 항 내지 제 9 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
학습 대상에 대한 데이터셋을 입력받는 입력부;

순서가 있는 분류 문제를 위한 딥러닝 모델을 학습하는 프로그램을 저장하는 메모리; 및

상기 메모리에 저장된 프로그램을 실행하여 딥러닝 모델을 학습하는 프로세서;를 포함하고,

상기 메모리에 저장된 프로그램은,

분기점과 그 분기에서 나누어져 분류 손실(classification loss)과 트리플릿 손실(triplet loss)을 발생시키는 두 개의 종단점으로 구성된 CNN(Convolutional Neural Networks)을 형성하고, 종단간(end-to-end) 학습을 위한 분류 손실을 산출하고, 네트워크가 순서 특성을 학습할 수 있도록 트리플릿 손실을 산출하며, 산출된 상기 분류 손실 및 상기 트리플릿 손실에 기반하되, 학습시 쌍(pair)으로 구성된 데이터셋(dataset)을 활용하여 상관 트리플릿 샘플링(relative triplet sampling)을 수행함으로써 최종 손실값에 대해 네트워크를 갱신하는 명령어를 포함하는, 딥러닝 모델의 학습 장치.
제 11 항에 있어서,

상기 메모리에 저장된 프로그램은,

학습 대상에 대한 정확한 예측값을 획득하기 위해 분류 손실 함수를 이용하여 손실이 최소화되도록 분류를 수행함으로써, 상기 분류 손실을 산출하는, 딥러닝 모델의 학습 장치.
제 11 항에 있어서,

상기 메모리에 저장된 프로그램은,

상기 순서가 있는 분류 문제에 대해 예측 라벨(label)의 정/오 뿐만 아니라 오차의 크기를 나타낼 수 있는 트리플릿 랭킹 손실(triplet ranking loss)을 이용하여 네트워크의 순서 특성을 학습하도록 유도함으로써, 상기 트리플릿 손실을 산출하는, 딥러닝 모델의 학습 장치.
제 13 항에 있어서,

상기 트리플릿 랭킹 손실은,

학습 대상의 예측 값과 실제 값의 차이 및 상기 차이의 스케일(scale)을 함께 고려하여 학습하는, 딥러닝 모델의 학습 장치.
제 11 항에 있어서,

상기 메모리에 저장된 프로그램은,

미니-배치(mini-batch)에서 상관 트리플릿 샘플링을 수행하고, 샘플링된 트리플릿을 이용하여 손실 함수와 트리플릿의 중요도를 나타내는 가중치를 승산함으로써 최종 랭킹 손실을 산출하는, 딥러닝 모델의 학습 장치.
제 11 항에 있어서,

상기 메모리에 저장된 프로그램은,

소프트맥스(softmax) 함수를 통해 특징들 간의 거리 차를 정규화함으로써 상관 트리플릿을 위한 크로스-엔트로피 손실(cross-entropy loss)을 사용하는, 딥러닝 모델의 학습 장치.
제 16 항에 있어서,

상기 상관 트리플릿의 중요도 변화를 측정하는 비-균일(non-uniform) 가중치 함수를 이용하여 변화량(gradient)의 크기를 상기 상관 트리플릿의 중요도에 따라 조정하는, 딥러닝 모델의 학습 장치.
제 16 항에 있어서,

상기 소프트맥스 함수를 분류자(classifier)에 적용하고, 소프트맥스 크로스-엔트로피를 상관 트리플릿 랭킹 손실과 동일하게 분류 목표에 적용함으로써 최종 분류 손실을 설정하는, 딥러닝 모델의 학습 장치.
제 11 항에 있어서,

상기 메모리에 저장된 프로그램은,

학습이 종료된 후 인식을 테스트할 경우 트리플릿 손실 함수에 대한 네트워크의 가지를 제거하고 분류만을 수행하는 명령어를 더 포함하는, 딥러닝 모델의 학습 장치.