KR102366302B1

KR102366302B1 - 준 지도 학습을 위한 오토인코더 기반 그래프 설계

Info

Publication number: KR102366302B1
Application number: KR1020200013592A
Authority: KR
Inventors: 이용훈; 이기원; 강민근; 서창호
Original assignee: 주식회사 스파이더코어
Priority date: 2020-02-05
Filing date: 2020-02-05
Publication date: 2022-02-22
Also published as: KR20210099795A; WO2021157863A1

Abstract

준 지도 학습을 위한 오토인코더 기반 그래프 설계 기술이 개시된다. 일 실시예에 따른 그래프 설계 시스템에 의해 수행되는 그래프 설계 방법은, 특징 벡터와 라벨(label)을 병합하여 입력 벡터를 생성하는 단계; 상기 생성된 입력 벡터를 이용하여 특징 벡터를 획득하기 위하여 구성된 판별기와 그래프를 설계하기 위하여 구성된 오토인코더를 동시에 학습하는 단계; 및 상기 학습을 수행한 학습 결과로서 획득된 라벨이 없는 데이터의 예측 결과에 기초하여 그래프를 설계하는 단계를 포함할 수 있다.

Description

준 지도 학습을 위한 오토인코더 기반 그래프 설계{AUTOENCODER-BASED GRAPH CONSTRUCTION FOR SEMI-SUPERVISED LEARNING}

아래의 설명은 오토인코더 기반의 매트릭스 완성(matrix completion)을 이용한 그래프 설계 기술에 관한 것이다.

최근 딥러닝 기술의 발전으로 Neural Network 기반 판별기는 많은 양의 라벨을 가진 데이터가 제공될 경우 우수한 판별 성능을 보인다. 그러나 실제 현실 상황에서 데이터에 라벨을 달아주는 시간 소모가 크고 이를 위한 인력 부족으로 인해 라벨이 주어진 데이터의 양은 부족하다. 이러한 한계에 대처하기 위해 준지도 학습이 제시되며, 이는 라벨이 없는 많은 양의 데이터를 함께 학습에 활용하여 지도 학습만을 사용하였을 경우의 성능을 개선한다. 현재 준지도 학습에서 쓰이는 가장 일반적인 접근 방식은 일관성 정규화(consistency-regularization)이다. 이러한 접근은 이중 역할(교사 모델과 학생 모델)로 구성된 섭동 기반 방법의 모델로서, 판별기는 입력 데이터 혹은 모델 파라미터에 노이즈가 추가되더라도 각 데이터에 대한 일관된 결과를 예측하도록 학습된다. 이는 판별기의 결정 바운더리(decision boundary)가 각각의 데이터로부터 멀어지도록 유도하는 효과를 가진다. 학생 모델의 훈련 목표는 교사 모델에 의해 결정된다. Ð model, Temporal ensembling(TempEns), MT(Mean-Teacher), Virtual Adversarial Dropout (VAdD), Virtural Adversarial Training(VAT) 등 다양한 일관성 정규화 기법이 있다. 각 기법은 데이터에 추가된 섭동의 유형과 모델 파라미터 업데이트 방식에서 차이를 가진다. 이들의 공통점은 라벨이 없는 데이터에 대한 일관성 없는 예측에 불이익을 주기 위해 regularization loss term을 학습 시 사용한다. 그러나 이러한 방법은 데이터 간의 관계는 고려하지 않고 각 단일 데이터에 섭동 만을 고려한다.

데이터간의 관계를 설명하기 위해 그래프를 이용한 준지도 학습 접근법이 있다. 그래프는 각 데이터 포인트에 해당하는 노드와 데이터 포인트 사이의 유사성을 나타내는 가중치로 구성된다. 최근 몇 년 동안, 기존의 그래프 기반 SSL 접근법의 성능을 높이기 위해 Deep neural network가 함께 적용된 알고리즘이 연구가 활발하였다. 그래프는 판별기가 학습하는 동안 데이터를 low manifold 상에 효과적인 임베딩(embedding)을 위한 보조적인 역할로 쓰였다. 이러한 접근에서 중요한 요소는 데이터간의 관계를 그래프로 변환하는 방식과 획득된 그래프의 신뢰도이다. 가장 최근에는 Smoothness Neighbors on Teacher Graphs(SNTG)에서 일관성 정규화와 그래프 정보를 함께 활용하여 성능 향상을 달성했다.

기존의 준지도 학습의 problem formulation은 다음과 같다.

은 m개의 라벨이 있는 데이터 셋이고,

은 n-m개의 라벨이 없는 데이터 셋이다. 라벨 데이터 셋,

은

데이터와 그에 대응하는 라벨

의 짝으로 구성되어 있다. 라벨이 없는 데이터 셋

은 라벨 정보 없이

로만 이루어져 있다. 일반적으로 준지도 학습에서 m은 n보다 훨씬 작은 환경을 고려한다. 준지도 학습의 목적은 라벨이 지정된 모든 데이터 셋

과 라벨이 지정되지 않은 데이터 셋

을 모두 학습하여 파라미터

를 가진 최적의 판별기 f를 얻는 것이다.

로 이루어져 있다. h는 판별기의 특징 벡터 추출을 목적으로 하며

로 입력 공간(input space)에서 특징 벡터로 맵핑(mapping)을 수행한다. q는 소프트맥스(softmax)와 결합된 완전 연결 레이어(fully-connected layer)로

최종 맵핑을 수행한다. 라벨 데이터에 대한 지도 손실(supervised loss)과 와 라벨이 없는 데이터를 활용하여 획득한 정규화 손실(regularization loss)을 사용하여 판별기 f 학습을 위한 손실 함수(loss function)를 설계한다.

지도 손실(supervised loss)은 라벨 데이터 셋

만을 사용하여 수학식 1을 통해 판별기를 학습할 수 있다.

수학식 1:

손실 함수 l _s 는 일반적으로 cross-entropy이며

는 모델 매개변수(파라미터)

로 predicted conditional probability

를 나타낸다.

Consistency loss은 라벨 데이터 셋

과 라벨이 없는 데이터 셋

을 함께 사용하여 수학식 2의 제너럴 폼(general form)으로 구성한다.

수학식 2:

Consistency loss는 임의의 섭동

이 포함된 학생 모델의 예측 확률

과 섭동이 추가된 파라미터

와 섭동

이 포함된 교사 모델의 예측 확률

의 차이에 패널티를 부과한다. l _c 는 두 예측 사이의 거리를 나타내며, 일반적으로 유클리드 거리 또는 KL divergence로 표현된다. Consistency loss 항을 활용하는 여러 알고리즘이 있는데, 이는 교사 모델을 구성하는 방법과 더해지는 섭동 유형에 의해 조금의 차이를 보인다.

Feature matching loss 역시 라벨 데이터 셋

과 라벨이 없는 데이터 셋

을 함께 사용하여 수학식 3의 제너럴 폼(general form)으로 구성한다.

수학식 3:

는 그래프 매트릭스(matrix)로

와

의 유사도를 나타내는 값을 나타낸다. 이 경우, 유사도 값은 소프트하게 표현되는 KL divergence나 hard decision의 결과로

로 표현될 수 있다. l _g 는 비지도 특징 학습(unsupervised feature learning) 혹은 클러스터링(clustering)을 수행하는 관련 함수를 주로 사용한다. 이때, 그래프는

값을 가지도록 가정하고 효율적인 특징 클러스터링(feature clustering)을 위하여 수학식 4를 사용할 수 있다.

m은 margin을 의미하며, 위의 손실(loss)를 통해 같은 클래스(class)라고 생각할 경우, 특징 벡터 간의 거리를 더욱 좁히고, 아닌 경우 최소 margin을 가지도록 특징 벡터 간의 거리를 더욱 멀어지게 유도하였다.

SSL문제에서 상기 언급한 3가지 손실을 사용하여 학습하고 최종 손실은 수학식 5와 같다.

수학식 5:

와

는 정규화(regularization)를 위한 하이퍼 파라미터(hyper-parameter)가 된다.

그래프 설계 방안과 이에 따른 그래프의 정확도는 최종 모델의 판별 성능에 중요한 영향을 끼친다. 이에, 그래프의 정확도 개선을 위하여 종래 기술에서 교사 모델의 소프트맥스 분류기 결과를 바탕으로 그래프를 설계하는 것을 대체하기 위한 새로운 그래프 설계 방안이 제시될 필요가 있다. 매트릭스 완성(Matrix completion)의 접근은 학습 과정에서 라벨(label)이 있는 데이터와 없는 데이터 간의 관계를 이용하여 데이터를 분류하기 때문에 더 정확한 성능을 유도한다. 이전 연구에서 특징 벡터와 라벨을 병합하여 만든 행렬이 low rank 임을 활용하여 매트릭스 완성(matrix completion) 문제로 설계하였고, 이를 nuclear norm minimization 알고리즘을 이용해 라벨이 없는 데이터의 클래스를 예측을 하였다. 하지만 이러한 접근은 convex 문제로 relaxation 한 가정이 있어 성능의 한계를 가지고 있다. 또한 종래의 연구의 경우, 그래프 추정 과정이 분류기의 모델 매개변수 업데이트와 독립적으로 수행되며, 이는 다시 상당한 계산 복잡성 및 시간 소모를 수반한다.

오토인코더 기반의 매트릭스 완성(matrix completion)을 이용한 그래프 설계 방식을 제안하며 이를 준지도 학습에 활용하는 방법 및 시스템을 제공할 수 있다.

그래프 설계 시스템에 의해 수행되는 그래프 설계 방법은, 특징 벡터와 라벨(label)을 병합하여 입력 벡터를 생성하는 단계; 상기 생성된 입력 벡터를 이용하여 특징 벡터를 획득하기 위하여 구성된 판별기와 그래프를 설계하기 위하여 구성된 오토인코더를 동시에 학습하는 단계; 및 상기 학습을 수행한 학습 결과로서 획득된 라벨이 없는 데이터의 예측 결과에 기초하여 그래프를 설계하는 단계를 포함할 수 있다.

상기 학습하는 단계는, 상기 특징 벡터와 라벨을 병합함에 따라 생성된 입력 행렬을 상기 오토인코더에 입력하여 손실 함수를 최소화하도록 오차 역전파로 오토인코더를 훈련시키는 단계를 포함할 수 있다.

상기 학습하는 단계는, 상기 특징 벡터와 라벨을 병합함에 따라 생성된 입력 행렬을 오토인코더에 입력하여 드롭 아웃을 적용한 손실 함수를 최소화하도록 오차 역전파로 오토인코더를 훈련시키는 단계를 포함할 수 있다.

상기 오토인코더는, 비선형 인코더와 선형 디코더를 포함하는 복수 개의 종류의 신경망으로 구성된 기저학습 오토인코더이고, 상기 비선형 인코더의 마지막 레이어의 노드 수인 유효 계수가 클래스의 수보다 같거나 크게 설정될 수 있다.

상기 학습하는 단계는, 특징 벡터를 획득하는 제1 모델 및 제2 모델을 포함하는 판별기와 그래프를 설계하는 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습하는 단계를 포함하고, 상기 판별기는, 준지도 학습 기반의 일관성(consistency) 모델로 구성되고, 상기 제1 모델은 교사 모델, 상기 제2 모델은 학생 모델일 수 있다.

상기 학습하는 단계는, 상기 판별기와 상기 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습하기 위하여 통합된 손실 함수를 구성하는 단계를 포함할 수 있다.

상기 그래프를 설계하는 단계는, 상기 오토인코더를 통과함에 따라 예측한 라벨 쌍을 비교하여 유사 그래프를 설계하고, 상기 설계된 유사 그래프에 대한 그래프 정보를 특징 매칭 손실(feature matching loss)에 적용하여 상기 판별기의 학생 모델을 학습하는 단계를 포함할 수 있다.

그래프 설계 시스템은, 특징 벡터와 라벨(label)을 병합하여 입력 벡터를 생성하는 입력부; 상기 생성된 입력 벡터를 이용하여 특징 벡터를 획득하기 위하여 구성된 판별기와 그래프를 설계하기 위하여 구성된 오토인코더를 동시에 학습하는 학습부; 및 상기 학습을 수행한 학습 결과로서 획득된 라벨이 없는 데이터의 예측 결과에 기초하여 그래프를 설계하는 설계부를 포함할 수 있다.

상기 학습부는, 상기 특징 벡터와 라벨을 병합함에 따라 생성된 입력 행렬을 상기 오토인코더에 입력하여 손실 함수를 최소화하도록 오차 역전파로 오토인코더를 훈련시킬 수 있다.

상기 학습부는, 상기 특징 벡터와 라벨을 병합함에 따라 생성된 입력 행렬을 오토인코더에 입력하여 드롭 아웃을 적용한 손실 함수를 최소화하도록 오차 역전파로 오토인코더를 훈련시킬 수 있다.

상기 학습부는, 특징 벡터를 획득하는 제1 모델 및 제2 모델을 포함하는 판별기와 그래프를 설계하는 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습하는 것을 포함하고, 상기 판별기는, 준지도 학습 기반의 일관성(consistency) 모델로 구성되고, 상기 제1 모델은 교사 모델, 상기 제2 모델은 학생 모델일 수 있다.

상기 학습부는, 상기 판별기와 상기 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습하기 위하여 통합된 손실 함수를 구성할 수 있다.

상기 설계부는, 상기 오토인코더를 통과함에 따라 예측한 라벨 쌍을 비교하여 유사 그래프를 설계하고, 상기 설계된 유사 그래프에 대한 그래프 정보를 특징 매칭 손실(feature matching loss)에 적용하여 상기 판별기의 학생 모델을 학습할 수 있다.

일 실시예에 따른 그래프 설계 시스템은 기저학습 오토인코더를 이용하여 그래프를 설계함으로써 기존의 알고리즘 대비 모든 학습 과정에서 우수한 정확도를 보였으며 라벨의 수가 매우 적은 환경에서도 다른 알고리즘 대비 높은 성능을 제공할 수 있다.

또한, 통합된 손실 함수(loss function) 설계를 기반으로 판별기와 그래프 설계를 위한 오토인코더를 동시 학습시킴으로써 학습 시 모델의 복잡도를 크게 감소시킬 수 있다.

도 1은 일 실시예에 따른 그래프 설계 시스템의 동작을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 그래프 설계 시스템에서 복수 개의 은닉층을 갖는 오토인코더의 구조를 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 그래프 설계 시스템의 구성을 설명하기 위한 블록도이다.
도 4는 일 실시예에 따른 그래프 설계 시스템에서 그래프 설계 방법을 설명하기 위한 흐름도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

최근 딥러닝 분야에서 준지도 학습(Semi-Supervised Learning) 에 대한 연구가 활발히 진행되고 있다. 준지도 학습이란 기계 학습(Machine Learning)의 한 범주로 라벨이 있는 데이터와 없는 데이터를 모두 학습에 함께 사용하여 임의에 데이터에 대한 목표 값을 예측하는 방법을 의미한다. 현실에서 다루는 데이터의 라벨을 얻는 과정은 전문가의 손을 거쳐야 하고 그에 따른 비용과 시간 소요는 크기 때문에 준지도 학습은 필수적이다. 최근 준지도 학습에서 데이터 간의 관계를 나타내는 그래프 정보를 이용한 접근이 우수한 결과를 보이고 있다. 실시예에서는 오토인코더 기반의 매트릭스 완성(matrix completion)을 이용한 그래프 설계 방식을 제안하며 이를 준지도 학습에 활용하는 동작을 설명하기로 한다.

도 1은 일 실시예에 따른 그래프 설계 시스템의 동작을 설명하기 위한 도면이다.

그래프 설계 시스템은 입력 데이터가 파라미터

를 가진 판별기 f를 거치고 라벨이 있는 데이터에 제한하여 일반적인 지도 손실(supervised loss)로 판별기 f를 학습할 수 있다. 모든 데이터는 서로 다른 입력 섭동을 가진 제1 모델 및 제2 모델을 통과할 수 있다. 이때, 제1 모델은 학생 모델일 수 있고, 제2 모델은 교사 모델일 수 있다. 실시예에서 교사 모델의 파라미터

와 학생 모델의 파라미터

가 동일한 모델인

모델(model)을 고려하기로 한다. 또한,

모델뿐만 아니라 다른 일관성(consistency) 기반의 모델에 적용 가능하다. 일관성 손실(consistency loss)은 모든 데이터 포인트에서 학생 모델과 교사 모델의 출력 값의 차이 값으로 표현되며, 거리가 작아질수록 판별기 f가 학습될 수 있다. 실시예에서는 특징 매칭 손실(Feature matching loss) 값을 획득하기 위하여 다음과 같이 동작되도록 한다.

는 교사 모델에서 데이터 샘플에 해당하는 소프트맥스 계층(레이어) 이전 단계에서 획득된 특징 벡터가 된다.

는 각 데이터 특징 벡터를 모아둔 특징 벡터 행렬이다. c는 클래스 수,

은 각 데이터 샘플의 one-hot coded label을 나타낸다.

는 각 데이터의 라벨을 모아둔 라벨 행렬이다.

는 크기 c인 제로(zero) 벡터이다. 위 문제에서 특징 벡터 행렬 X의 모든 값은 교사 모델에서 획득할 수 있기 때문에 모든 인덱스(index)에는 채워진 값을 가진다. 하지만 라벨 행렬 Y의 경우 라벨 데이터 샘플에 해당하는 항목은 주어져 있기 때문에 채워져 있지만, 라벨이 없는 데이터에 해당하는 인덱스에는 값이 비어있다. 채워져 있는 인덱스의 집합을

로 명명하기로 한다. 여기서 주된 목표는 라벨 행렬 Y의 누락된 부분을 예측하는 것이다. 특징 벡터 행렬 X와 라벨 행렬 Y를 행(row) 방향으로 쌓아 low rank 성질을 만족하는 label-feature augmented matrix

를 획득할 수 있다. 행렬 Z에서 누락된 부분을 예측하는 것은 매트릭스 완성 문제로 해결할 수 있다.

실시예에서는 행렬 Z를 입력으로 가지며 매트릭스 완성을 수행하는 오토인코더의 파라미터

로 이루어진

를 통해 라벨이 없는 데이터의 예측을 획득하고, 이를 바탕으로 유사도 그래프를 생성할 수 있다(

).

도 2를 참고하면, 복수 개(예를 들면, 2개)의 은닉층을 갖는 오토인코더의 구조를 나타낸 예이다. 실시예에서 제안하는 오토인코더는 매트릭스 완성을 위하여 파라미터화된 신경망 기반의 오토인코더일 수 있다. 오토인코더는 비선형 인코더와 선형 디코더를 포함하는 복수 개의 종류의 신경망으로 구성된 기저학습 오토인코더일 수 있다.

행렬 Z의 j번째 열 벡터를

라 정의하면 디코더 출력

와 각 은닉층의 출력

는 수학식 6과 같다.

수학식 6:

가중치(weight) {

}와 편향(bias){

}의 값을 훈련하기 위한 손실 함수는 수학식 7과 같다.

수학식 7:

손실 함수는 입력과 복원된 특징 행렬

, 복원된 라벨 행렬

사이의 차이를 사용한다. 각각의 손실 요소는 학습에 적절한 비율을 만족하도록

를 사용할 수 있다. 학습이 진행될수록 에포크(epoch)가 증가함에 따라 특징 벡터의 신뢰도가 증가하게 된다. 이를 활용하기 위해

는 단조 증가 함수를 사용한다. 또한, 라벨이 없는 데이터의 추정을 돕기 위해 오토인코더의 입력단에 드롭아웃(dropout)을 적용할 수 있다. 드롭아웃은 훈련 데이터의 입력 Y중 일부 열벡터의 값을 0벡터로 변환하여 심층 신경망을 훈련시키는 기법이다. 다시 말해서, j번째 열벡터

에 드롭아웃이 적용된 경우, 입력은

으로 표현되며 0 _c 은 크기가 c인 0벡터를 의미한다.

를 입력으로 하는 디코더 출력

와 각 은닉층의 출력

는 수학식 8과 같다.

수학식 8:

드롭아웃 적용 시의 손실 함수는 수학식 9와 같다.

수학식 9:

인코더의 마지막 레이어 노드 수를 유효 계수라고 하며, 인코더에서 추출되는 기저의 수를 의미한다. 실시예에서는 유효 계수의 수가 구분하고자 하는 클래스의 수 c보다 크거나 같도록 하였을 때, 동작될 수 있다. 라벨이 없는 데이터에 해당하는 추정된

값을 사용하여 클래스를 판단한다. 클래스 구분은

로 수행한다. 여기서,

는 벡터의 k번째 성분 값을 의미한다. 오토인코더를 이용하여 획득된 결과

를 바탕으로 수학식 10과 같은 방식으로 유사 그래프(similarity graph)가 설계될 수 있다.

수학식 10:

설계된 그래프 정보는 특징 매칭 손실에 적용하여 학습 모델을 학습한다. 이때, 동일한 클래스라면, 특징 벡터 공간에서 데이터가 더욱 가까워지도록 유도하고, 다른 클래스라면 더욱 차별성을 가까워지도록 유도한다. 실시예에서 제안된 오토인코더를 통해 획득된 그래프의 정확도는 모둔 훈련 과정에서 종래의 기술보다 우수할 뿐만 아니라 최종 성능에 영향을 미친다. 실시예에서 제안된 모델이 다른 종래의 기술과 비교하였을 때, 최고 성능을 가지는 것을 확인할 수 있다.

실시예는 그래프를 설계하는 과정과 판별기를 업데이트하는 과정이 분리되어 동작하는 이전 접근법과는 달리, 수학식 11과 같이 손실 함수를 구성하여 오토인코더 파라미터

를 분류자 파라미터

와 동시에 업데이트 가능하도록 설계하였고, 이를 통해 계산 복잡도를 크게 감소시킬 수 있다.

수학식 11:

그래프 설계 시스템은지도 손실(supervised loss), 일관성 손실(consistency-loss), 특징 매칭 손실(feature matching loss)에 오토 인코더 손실(auto-encoder loss)를 통합하여 하나의 손실함수로 모델 파라미터

,

를 동시에 학습할 수 있다. 이를 통해 훈련 초기 단계에서 특징 벡터를 신뢰할 수 없기 때문에 w(t)는 ramp-up 함수를 사용할 수 있다. 이때,

는 일관성 손실과 특징 매칭 손실을 조절하는 하이퍼 파라미터이다.

실시예에서 제안한 오토인코더 기반의 그래프 설계 알고리즘은 표 1과 같이 나타낼 수 있다.

표 1:

표 1을 참고하면, 네번째 줄은 미니 배치(mini-batch)를 구성할 때, 라벨이 부착되지 않은 데이터는 무작위로 샘플링되며, 각 데이터 사이에 일정한 비율을 유지하는 것이다. 여섯번째 줄 내지 여덟번째 줄은 각각 학생 모델, 교사 모델 및 오토인코더의 feed-forward과정을 나타낸 것이다. 열번째 줄은 제안하는 오토인코더가 예측한 라벨 쌍을 비교하여 유사 그래프를 설계하는 것이다. 예를 들면, 예측한 레벨 쌍의 유사도를 비교하여 유사 그래프가 설계될 수 있다. 이때, 유사도를 비교하기 위한 기준값이 설정되어 있을 수 있고, 설정된 기준값에 기초하여 예측한 레벨 쌍의 유사도가 판단될 수 있다. 그런 다음 수학식 11에서 설계한 단일 통합 손실 함수에 따라 모든 파라미터(

,

)를 동시에 업데이트한다.

실시예에 따르면, 신경망 기반의 분류기인 비선형 인코더와 선형 디코더로 구성된 기저학습 오토인코더(Basis learning Auto-Encoder, BAE)를 사용하여 매트릭스 완성 문제를 해결하고 예측된 결과를 바탕으로 그래프를 설계할 수 있다. 구체적으로, 매트릭스 완성을 위해 파라미터화된 신경망 기반 오토인코더를 도입할 수 있다. 이를 통해 CNN의 모델 파라미터와 매트릭스 완성 블록(오토인코더)이 동시에 학습함으로써 높은 성능을 가지면서 계산상의 복잡도 감소시킬 수 있다.

일례로, 제안하는 모델의 성능 검증을 위해 handwritten digits인 MNIST 데이터 셋이 사용될 수 있다. MNIST 데이터 셋은 총 0~9까지의 숫자 데이터로 10개의 클래스를 가지며 훈련 셋(training set)은 60,000장 테스트 셋(test set)은 10,000장으로 구성될 수 있다. 훈련 셋 중에 라벨이 있는 데이터가 각각 50, 100, 20개만 주어져 있고, 나머지 데이터는 라벨이 없는 환경을 가정하기로 한다. 라벨 데이터는 각 클래스당 동일한 개수를 맞추어 랜덤 선정할 수 있다. 성능은 훈련 데이터로 학습한 모델에 테스트 데이터의 분류 에러 비율(classification error rate)로 보일 수 있다. 최종 성능을 구하기 위해 각각의 동작 과정마다 기 설정된 횟수(예를 들면, 10번)씩 서로 다른 라벨 데이터를 랜덤으로 선정하여 평균 성능을 도출할 수 있다. CNN classifier의 구조는 SNTG에서 학생 모델과 동일하고, 표 2와 같다.

표 2: Classifier 구조

표 3은 매트릭스 완성(matrix completion)을 수행하는 오토인코더의 구조를 설명하기 위한 것이다.

표 3: 오토인코더의 구조

오토인코더는 복수 개(예를 들면, 총 3개)의 은닉 계층로 구성되어 있으며 각 유닛의 수는 [300,300,15]이다. 인코더 파트는 non-linear activation을 사용하고, 디코더 파트는 linear activation을 사용할 수 있다. 또한 각각의 레이어 마다 activation 이전에 BN(Batch-Normalization) 레이어를 사용할 수 있다. 기존의 트레이닝 손실(training loss)에서 그래프 정규화 파라미터(graph regularization parameter)는 {0.2,0.4,0.6,0.8,1} 사이 값 중 하이퍼 파라미터(hyper-parameter)로 사용할 수 있다.

표 4를 참고하면, 실시예에서 제안된 방식이 기존의 연구보다 높은 성능 이득을 가지는 것을 확인할 수 있다.

표 4: Error rates (%) on MNIST, averaged over 10 runs

라벨 데이터의 수가 100개인 경우 에러 비율(error rate)은 0.58%로 기존의 최고 성능 대비, 약 13.6%의 성능 개선을 확인할 수 있다. 또한 실시예에서 제안된 알고리즘의 라벨의 수가 줄어들수록 기존의 연구보다 성능 증가의 폭은 더욱 커지고 효과적임을 확인할 수 있다. 또한 다른 알고리즘의 성능은 큰 variance를 가지지만 실시예에서 제안된 모델은 상대적으로 작은 variance를 가지는 것을 확인할 수 있다. 이는 어떠한 라벨이 선택 되더라도 견고한 결과를 가진다고 말할 수 있다.

표 5는 실시예에서 제안된 기법과 가장 관련성이 높은 그래프 기반 접근법과의 모델 파라미터 수, running time, error rate를 비교한 표이다. 이때, MNIST 100개의 라벨이 주어진 경우를 고려하기로 한다.

표 5: Comparison to the other graph-based SSLs on MNIST with 100 labels without augmentation.

구현은 Xeon E5-2650 v4 CPU 및 TITAN V GPU에서 TensorFlow를 통해 수행될 수 있다. 실시예에서 매트릭스 완성 결과를 이용하여 설계한 그래프는 소프트맥스 값만 이용하는 SNTG보다 높은 정확도를 가지는 것을 확인할 수 있다. 적은 수의 증가된 모델 파라미터(

)를 필요로 하고, 이에 약간의 running time이 증가하지만, 더욱 정확한 유사 그래프를 획득할 수 있음을 확인할 수 있다. 또 다른 매트릭스 완성 방식인 GSCNN과 비교하여, 실시예에서 제안된 매트릭스 완성 방식은 우수한 에러 비율과 더불어 훨씬 더 빠른 학습 시간(예를 들면, 약 3.1배)을 제공할 수 있다. 이때, GSCNN의 경우 실시예와 공정한 비교를 위해 비특허문헌 1< Fariborz Taherkhani, Hadi Kazemi, and Nasser M. Nasrabadi. Matrix completion for graph-based deep semi-supervised learning. In Proceedings of the 33rd AAAI Conference on Artificial Intelligence, pages 8896-8905, Jan. 2019.>에 제시된 알고리즘에 consistency loss가 추가되어 구현될 수 있다. 이는 판별기 f와 오토인코더

를 동시에 학습하여 사용하기 때문에 매 iteration마다 그래프 설계 과정과 특징 추출 과정(판별기 업데이트)이 분리되어서 이뤄지는 종래의 기술보다 큰 시간을 단축시킬 수 있다. 실시예에서는 파라미터화된 오토인코더를 도입하여 더 많은 모델 파라미터 변수가 요구되지만 이 추가된 양은 CNN 분류기 모델 파라미터 수에 비해 훨씬 작기 때문에 차이는 무시된다. 반면,

-모델은 모델 파라미터 수가 제일 적지만 error rate 성능은 다른 기법에 비해 좋지 않음을 확인할 수 있다.

도 3은 일 실시예에 따른 그래프 설계 시스템의 구성을 설명하기 위한 블록도이고, 도 4는 일 실시예에 따른 그래프 설계 시스템에서 그래프 설계 방법을 설명하기 위한 흐름도이다.

그래프 설계 시스템(100)에 포함된 프로세서는 입력부(310), 학습부(320) 및 설계부(330)를 포함할 수 있다. 이러한 프로세서 및 프로세서의 구성요소들은 도 4의 그래프 설계 방법이 포함하는 단계들(410 내지 430)을 수행하도록 그래프 설계 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서의 구성요소들은 그래프 설계 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다.

프로세서는 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 그래프 설계 시스템(100)에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 그래프 설계 시스템을 제어할 수 있다.

단계(410)에서 입력부(310)는 특징 벡터와 라벨(label)을 병합하여 입력 벡터를 생성할 수 있다.

단계(420)에서 학습부(320)는 생성된 입력 벡터를 이용하여 특징 벡터를 획득하기 위하여 구성된 판별기와 그래프를 설계하기 위하여 구성된 오토인코더를 동시에 학습할 수 있다. 학습부(320)는 특징 벡터와 라벨을 병합함에 따라 생성된 입력 행렬을 오토인코더에 입력하여 손실 함수를 최소화하도록 오차 역전파로 오토인코더를 훈련시킬 수 있다. 학습부(320)는 특징 벡터와 라벨을 병합함에 따라 생성된 입력 행렬을 오토인코더에 입력하여 드롭 아웃을 적용한 손실 함수를 최소화하도록 오차 역전파로 오토인코더를 훈련시킬 수 있다. 이때, 오토인코더는 비선형 인코더와 선형 디코더를 포함하는 복수 개의 종류의 신경망으로 구성된 기저학습 오토인코더이고, 비선형 인코더의 마지막 레이어의 노드 수인 유효 계수가 클래스의 수보다 같거나 크게 설정될 수 있다. 학습부(320)는 특징 벡터를 획득하는 제1 모델 및 제2 모델을 포함하는 판별기와 그래프를 설계하는 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습할 수 있다. 이때, 판별기는, 준지도 학습 기반의 일관성(consistency) 모델로 구성되고, 제1 모델은 교사 모델, 제2 모델은 학생 모델일 수 있다. 학습부(320)는 판별기와 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습하기 위하여 통합된 손실 함수를 구성할 수 있다.

단계(430)에서 설계부(330)는 학습을 수행한 학습 결과로서 획득된 라벨이 없는 데이터의 예측 결과에 기초하여 그래프를 설계할 수 있다. 설계부(330)는 오토인코더를 통과함에 따라 예측한 라벨 쌍을 비교하여 유사 그래프를 설계하고, 설계된 유사 그래프에 대한 그래프 정보를 특징 매칭 손실(feature matching loss)에 적용하여 판별기의 학생 모델을 학습할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

삭제
삭제
삭제
삭제
그래프 설계 시스템에 의해 수행되는 그래프 설계 방법에 있어서,
특징 벡터와 라벨(label)을 병합하여 입력 벡터를 생성하는 단계;
상기 생성된 입력 벡터를 이용하여 특징 벡터를 획득하기 위하여 구성된 판별기와 그래프를 설계하기 위하여 구성된 오토인코더를 동시에 학습하는 단계; 및
상기 학습을 수행한 학습 결과로서 획득된 라벨이 없는 데이터의 예측 결과에 기초하여 그래프를 설계하는 단계
를 포함하고,
상기 학습하는 단계는,
특징 벡터를 획득하는 제1 모델 및 제2 모델을 포함하는 판별기와 그래프를 설계하는 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습하는 단계
를 포함하고,
상기 판별기는, 준지도 학습 기반의 일관성(consistency) 모델로 구성되고, 상기 제1 모델은 교사 모델, 상기 제2 모델은 학생 모델인, 것을 특징으로 하는 그래프 설계 방법.
제5항에 있어서,
상기 학습하는 단계는,
상기 판별기와 상기 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습하기 위하여 통합된 손실 함수를 구성하는 단계
를 포함하는 그래프 설계 방법.
그래프 설계 시스템에 의해 수행되는 그래프 설계 방법에 있어서,
특징 벡터와 라벨(label)을 병합하여 입력 벡터를 생성하는 단계;
상기 생성된 입력 벡터를 이용하여 특징 벡터를 획득하기 위하여 구성된 판별기와 그래프를 설계하기 위하여 구성된 오토인코더를 동시에 학습하는 단계; 및
상기 학습을 수행한 학습 결과로서 획득된 라벨이 없는 데이터의 예측 결과에 기초하여 그래프를 설계하는 단계
를 포함하고,
상기 그래프를 설계하는 단계는,
상기 오토인코더를 통과함에 따라 예측한 라벨 쌍을 비교하여 유사 그래프를 설계하고, 상기 설계된 유사 그래프에 대한 그래프 정보를 특징 매칭 손실(feature matching loss)에 적용하여 상기 판별기의 학생 모델을 학습하는 단계
를 포함하는 그래프 설계 방법.
삭제
삭제
삭제
삭제
그래프 설계 시스템에 있어서,
특징 벡터와 라벨(label)을 병합하여 입력 벡터를 생성하는 입력부;
상기 생성된 입력 벡터를 이용하여 특징 벡터를 획득하기 위하여 구성된 판별기와 그래프를 설계하기 위하여 구성된 오토인코더를 동시에 학습하는 학습부; 및
상기 학습을 수행한 학습 결과로서 획득된 라벨이 없는 데이터의 예측 결과에 기초하여 그래프를 설계하는 설계부
를 포함하고,
상기 학습부는,
특징 벡터를 획득하는 제1 모델 및 제2 모델을 포함하는 판별기와 그래프를 설계하는 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습하는 것을 포함하고,
상기 판별기는, 준지도 학습 기반의 일관성(consistency) 모델로 구성되고, 상기 제1 모델은 교사 모델, 상기 제2 모델은 학생 모델인, 것을 특징으로 하는 그래프 설계 시스템.
제12항에 있어서,
상기 학습부는,
상기 판별기와 상기 오토인코더를 결합하여 복수 개의 심층 신경망을 동시에 학습하기 위하여 통합된 손실 함수를 구성하는
것을 특징으로 하는 그래프 설계 시스템.
그래프 설계 시스템에 있어서,
특징 벡터와 라벨(label)을 병합하여 입력 벡터를 생성하는 입력부;
상기 생성된 입력 벡터를 이용하여 특징 벡터를 획득하기 위하여 구성된 판별기와 그래프를 설계하기 위하여 구성된 오토인코더를 동시에 학습하는 학습부; 및
상기 학습을 수행한 학습 결과로서 획득된 라벨이 없는 데이터의 예측 결과에 기초하여 그래프를 설계하는 설계부
를 포함하고,
상기 설계부는,
상기 오토인코더를 통과함에 따라 예측한 라벨 쌍을 비교하여 유사 그래프를 설계하고, 상기 설계된 유사 그래프에 대한 그래프 정보를 특징 매칭 손실(feature matching loss)에 적용하여 상기 판별기의 학생 모델을 학습하는
것을 특징으로 하는 그래프 설계 시스템.