KR102185855B1

KR102185855B1 - 데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법

Info

Publication number: KR102185855B1
Application number: KR1020190048205A
Authority: KR
Inventors: 변혜란; 김호성; 이제욱
Original assignee: 연세대학교 산학협력단
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-12-02
Also published as: KR20200130759A

Abstract

본 실시예들은 처음 보는 클래스의 특징 정보를 생성하고, 특징 정보로부터 사용자에 의해 정의되지 않은 처음 보는 클래스의 슈도 특성 정보를 생성하여, 처음 보는 클래스의 이미지 또는 비디오에 대하여 서로 다른 클래스를 인식할 수 있는 제로샷 인식 방법 및 장치를 제공한다.

Description

데이터 세트에 정의되지 않은 특성 정보를 자동으로 생성하는 제로샷 인식 장치 및 방법 {Zero Shot Recognition Apparatus for Automatically Generating Undefined Attribute Information in Data Set and Method Thereof}

본 실시예가 속하는 기술 분야는 제로샷 인식 장치 및 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

제로샷 학습(Zero Shot Learning)은 학습 데이터에 포함되지 않은 처음 보는(Unseen) 클래스를 인식할 수 있는 기술이다. 제로샷 학습 기술의 원리는 학습에 사용된(Seen) 클래스의 데이터로부터 해당 클래스와 관련된 특성 정보(Attribute)를 올바르게 추론할 수 있도록 모델을 학습하면, 처음 보는 클래스의 데이터에 대해서도 해당 클래스의 특성 정보를 추론하여 처음 보는 클래스를 인식할 수 있다.

사용자가 정의한 특성 정보는 제로샷 학습에서 서로 다른 카테고리를 구분함에 있어서 필수 요소 중 하나이다. 특성 정보를 다양한 카테고리에 대해 새롭게 정의하는 것은 사용자의 노동력과 전문적 지식이 필요하고 많은 시간과 비용이 필요하므로, 사용자가 특성 정보를 전부 설정하는 것은 현실적으로 불가능하다.

기존의 제로샷 학습 모델은 사용자에 의해 정의되어 있지 않은 개념을 전혀 이해를 할 수 없는 문제가 있다. 예를 들어, 말과 얼룩말을 구분하기 위해서 필요한 "줄무늬"라는 특성 정보가 사용자에 의해 정의되어 있지 않은 경우, 기존의 제로샷 학습 모델은 말과 얼룩말을 구분하지 못하는 실정이다.

논문 Y. Xian. et. al., Feature generating networks for zero-shot learning, CVPR (2018.06.19.) 논문 R. Felix et. al., Multi-modal cycle-consistent generalized zero-shot learning, ECCV (2018.09.08.)

본 발명의 실시예들은 제로샷 데이터 학습 과정에서 필요한 특성 정보를 사용자에 의하지 않고 자동으로 생성하는 모델로서, 적대적 생성 신경망을 이용하여 사용자에 의해 정의되지 않은 처음 보는 클래스의 슈도 특성 정보를 생성하여, 처음 보는 클래스의 이미지 또는 비디오에 대하여 서로 다른 클래스를 인식하는 데 주된 목적이 있다.

본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.

본 실시예의 일 측면에 의하면, 컴퓨팅 디바이스에 의한 제로샷 인식 방법에 있어서, 특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성하는 단계, 상기 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성하는 단계, 및 상기 슈도 특성 정보를 제로샷 학습 모델에 전송하는 단계를 포함하는 제로샷 인식 방법을 제공한다.

본 실시예의 다른 측면에 의하면, 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 제로샷 인식 장치에 있어서, 상기 프로세서는 특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성하고, 상기 프로세서는 상기 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성하고, 상기 프로세서는 상기 슈도 특성 정보를 제로샷 학습 모델에 전송하는 것을 특징으로 하는 제로샷 인식 장치를 제공한다.

이상에서 설명한 바와 같이 본 발명의 실시예들에 의하면, 적대적 생성 신경망을 이용하여 사용자에 의해 정의되지 않은 처음 보는 클래스의 슈도 특성 정보를 생성하여, 제로샷 데이터 학습 과정에서 필요한 특성 정보를 사용자에 의하지 않고 자동으로 생성할 수 있고, 처음 보는 클래스의 이미지 또는 비디오에 대하여 서로 다른 클래스를 인식할 수 있는 효과가 있다.

여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급된다.

도 1은 기존의 제로샷 학습 모델을 예시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 제로샷 인식 장치를 예시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 제로샷 인식 장치의 특성 정보 생성 모델을 예시한 블록도이다.
도 4는 본 발명의 다른 실시예에 따른 제로샷 인식 방법을 예시한 흐름도이다.
도 5는 본 발명의 실시예들에 따른 시뮬레이션 결과를 예시한 도면이다.

이하, 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하고, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다.

기존의 딥러닝이 학습 데이터로 학습하지 않은 새로운 레이블을 인식할 수 없는 문제를 해결하기 위해 개발된 제로샷 학습은 다른 형식의 데이터를 이용하여 새로운 데이터를 인식할 수 있으나, 기존의 제로샷 학습 역시 특성 정보가 정의되지 않으면 새로운 클래스를 인식할 수 없는 문제가 있다.

기존의 제로샷 학습은 특성 정보가 정의된 데이터 세트에서만 학습이 가능하다. 하나의 카테고리로 학습된 모델은 다른 카테고리에 사용할 수 없는 한계를 갖는다. 예를 들어, 새 종류들로 학습된 제로샷 모델은 꽃 종류들의 데이터 세트에 사용할 수 없다. 정의된 특성 정보의 체계가 다르고, 서로 다른 카테고리를 인식할 수 있는 제로샷 학습 기술이 없기 때문이다.

이를 해결하기 위하여 본 실시예들은 데이터 세트에 미리 정의된 특성 정보를 요구하지 않고, 특성 정보를 자동으로 생성한다.

기존의 제로샷 학습 모델을 예시한 도 1을 참조하면, 기존의 제로샷 학습은 학습에 사용한 클래스(seen class)의 데이터로부터 해당 클래스와 관련된 특성 정보(attribute)를 올바르게 추론할 수 있도록 모델을 학습하면, 처음 보는 클래스(Unseen Class)의 데이터에 대해서도 해당 클래스의 특성 정보를 추론한 후 처음 보는 클래스를 인식한다.

학습에 사용한 클래스(Seen Class)는 특성 정보를 학습하는데 활용되는 학습용 클래스이고, 처음 보는 클래스(Unseen Class)는 학습에서 전혀 사용되지 않은 테스트용 제로샷 클래스이다. 단일 카테고리 데이터 세트는 하나의 카테고리(클래스의 집합)에 한정된 클래스로만 이루어진 데이터 세트이다. 예를 들면, 꽃 종류들만 포함된 데이터 세트, 새 종류들만 포함된 데이터 세트 등이 있다.

데이터 세트에 정의된 특성 정보(Given Attribute)는 클래스를 대표하는 주요 특성을 의미하다. 예를 들어, 새의 부리 길이, 날개 색상, 몸 크기 등이 있다. 또는 말의 다리 길이, 머리 모양, 꼬리 모양 등이 있다. 제로샷 학습 모델은 특성 정보를 핵심 단서로 사용한다. 데이터 세트에 학습용으로 미리 정의되어 있는 경우 제로샷 학습시 정확도가 낮아지는 문제가 있다.

데이터 세트에 정의되지 않은 특성 정보(Not Given Attribute)는 기존 데이터 세트에 정의되어 있지 않은 특성 정보를 의미한다. 본 실시예에서는 특성 정보를 자동으로 생성하여 기존 제로샷 학습 방식의 한계를 극복한다.

슈도 특성 정보는 기존 데이터 세트의 특성 정보에는 정의되어 있지 않은 새로운 특성 정보를 자동으로 생성된 특성 정보를 의미한다. 예를 들어, 기존에 사용자에 의해 정의된 "말"을 구분하기 위한 특성 정보와 달리 말과 얼룩말의 구분을 위한 새로운 "줄무늬" 개념을 표현하는 특성 정보를 추가로 생성한다.

도 2는 본 발명의 일 실시예에 따른 제로샷 인식 장치를 예시한 블록도이다.

제로샷 인식 장치(110)는 적어도 하나의 프로세서(120), 컴퓨터 판독 가능한 저장매체(130) 및 통신 버스(170)를 포함한다.

프로세서(120)는 제로샷 인식 장치(110)로 동작하도록 제어할 수 있다. 예컨대, 프로세서(120)는 컴퓨터 판독 가능한 저장 매체(130)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(120)에 의해 실행되는 경우 제로샷 인식 장치(110)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능한 저장 매체(130)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능한 저장 매체(130)에 저장된 프로그램(140)은 프로세서(120)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독한 가능 저장 매체(130)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 제로샷 인식 장치(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(170)는 프로세서(120), 컴퓨터 판독 가능한 저장 매체(140)를 포함하여 제로샷 인식 장치(110)의 다른 다양한 컴포넌트들을 상호 연결한다.

제로샷 인식 장치(110)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(150) 및 하나 이상의 통신 인터페이스(160)를 포함할 수 있다. 입출력 인터페이스(150) 및 통신 인터페이스(160)는 통신 버스(170)에 연결된다. 입출력 장치(미도시)는 입출력 인터페이스(150)를 통해 제로샷 인식 장치(110)의 다른 컴포넌트들에 연결될 수 있다.

제로샷 인식 장치(110)는 제로샷 데이터 학습 과정에서 필요한 특성 정보를 사용자에 의하지 않고 자동으로 생성하는 모델로서, 적대적 생성 신경망에서 새롭게 정의된 (i) 조건부 생성 손실 함수, (ii) 분류 손실 함수, (iii) 트리플릿 손실 함수, 및 (iv) 내부 독립성 손실 함수를 최적화하여 사용자에 의해 정의되지 않은 처음 보는 클래스의 슈도 특성 정보를 생성함으로써, 처음 보는 클래스의 이미지 또는 비디오에 대하여 서로 다른 클래스를 인식한다.

도 3은 본 발명의 일 실시예에 따른 제로샷 인식 장치의 특성 정보 생성 모델을 예시한 블록도이다.

제로샷 인식 장치는 특징 추출 모델, 특징 생성 모델, 슈도 특성 생성 모델을 포함할 수 있다. 슈도 특성 생성 모델은 특징 추출 모델의 출력과 특징 생성 모델의 출력을 입력받는다.

특징 추출 모델은 이미지 또는 비디오 등을 입력으로 하고, 시각적 특징 정보를 출력으로 한다. 예컨대, 특징 추출 모델은 CNN(Convolutional Neural Network)으로 구현될 수 있다. 특징 추출 모델은 다수의 레이어가 네트워크로 연결되며 히든 레이어를 포함한다. 레이어는 파라미터를 포함할 수 있고, 레이어의 파라미터는 학습가능한 필터 집합을 포함한다. 필터는 컨볼루션 필터를 적용할 수 있다. 파라미터는 노드 간의 가중치 및/또는 바이어스를 포함한다.

특징 생성 모델 및 슈도 특성 생성 모델은 적대적 생성 신경망을 이용한다.

적대적 생성 신경망 및 슈도 특성 생성 모델에서 사용되는 용어를 먼저 정의한다.

는 사용된 클래스의 학습 데이터 세트이다.

는 CNN 특징 정보이다. y는

내의 클래스 레이블이다. C_s는 사용된 클래스의 개수이다.

는 사용자에 의해 정의된 특성 정보이다.

는 사용자에 의해 정의된 특성 정보 공간이다.

는 처음 보는 클래스의 테스트 데이터 세트이다. X는

내의 CNN 특징 정보이다. y는

내의 클래스 레이블이다. Cu는 처음 보는 클래스의 개수이다.

는 사용자에 의해 정의된 특성 정보이다. GZSL(Generalized Zero-Shot Learning)은

및

조건에서 분류 모델

을 학습한다. 학습 데이터와 평가 데이터의 클래스 간의 교집합이 공집합으로 서로 독립 집합인 경우, 학습되지 않은 데이터라도 클래스에 맞게 해당하는 처리를 수행한다.

는 처음 보는 클래스의 슈도 특성 공간이다.

는 클래스 레이블 y와 관련된 슈도 특성 정보이다. 슈도 특성 정보는 사용된 클래스 y의 전체 CNN 특징 정보의 평균으로 표현될 수 있다. 예컨대, 전체 CNN 특징 정보의 평균으로 정의된 슈도 특성 정보는

으로 표현될 수 있다. N은 사용된 클래스 y의 CNN 특징 정보의 개수이다. 처음 보는 클래스의 CNN 특징 정보를 알 수 없기 때문에, 처음 보는 클래스의 슈도 특성 공간

을 획득하기 위해 처음 보는 특징을 생성한다. 전체 클래스의 슈도 특성 공간

을 획득할 수 있다.

적대적 생성신경망(Generative Adversarial Network)의 손실 함수는 수학식 1과 같이 정의된다.

x는 실재 데이터의 분산

으로부터 추출되는 사용된 클래스 y의 CNN 특징 정보이다.

는 사용된 클래스 y의 생성된 CNN 특징 정보이다. Z는 가우시안 분산

으로부터 추출된 노이즈 벡터이다. a^y는 사용자의 의해 정의된 특성 정보 벡터이다.

판별 모델 D는 다수의 레이어를 갖고 마지막 레이어는 시그모이드 함수를 갖는 퍼셉트론(Perceptron)으로 구현될 수 있다. 생성 모델 G의 목적은 손실을 최소화하고 판별 모델 D의 목적은 손실을 최대화한다.

특징 생성 모델은 랜덤 노이즈 분포와 클래스 임베딩을 입력받고 처음 보는 클래스의 특징 정보를 출력한다. 예컨대, 특징 생성 모델은 f-CLSWGAN으로 구현될 수 있다.

특징 생성 모델은 생성 모델과 판별 모델이 상호 작용하는 적대적 생성 신경망에서 (i) 사용자에 의해 정의된 특성 정보에 바서스타인 거리(Wasserstein Distance)가 적용된 조건부 생성 손실 함수 및 (ii) 사용된 클래스(Seen Class)의 데이터를 이용하여 학습된 파라미터가 적용된 분류 손실 함수를 최적화하여, 시각적 특징 정보를 합성할 수 있다.

특징 생성 모델의 조건부 생성 손실 함수는 수학식 2와 같이 표현된다.

는

조건에 따른 처음 보는 클래스의 CNN 특징 정보이다. λ는 페널티 가중치 파라미터이다. 수학식 2는 수학식 1의 로그 우드(Log Likelihood) 대신에 바서스타인 거리를 적용하고, 경사 페널티를 추가로 포함한다. 바서스타인 거리는 두 확률분포의 연관성을 측정하여 그 거리의 기대값이 가장 작을 때의 거리를 의미한다. 결합 확률분포는 두 분포가 동시에 일어날 때의 사건에 대한 확률분포를 의미한다.

특징 생성 모델의 분류 손실 함수는 수학식 3과 같이 표현된다.

는 처음 보는 클래스 y의 생성된 CNN 특징 정보이다.

는 파라미터

을 이용한 선형 분류기로 산출된 확률로, 클래스 레이블 y의 예측 점수의 소프트맥스 값이다.

는 사용된 클래스의 실재 CNN 특징 정보이다.

특징 생성 모델의 손실 함수는 조건부 생성 손실 함수와 계수가 적용된 분류 손실 함수로 수학식 4와 같이 표현된다.

슈도 특성 생성 모델은 랜덤 노이즈 분포와 전체 학습 데이터를 입력받고 슈도 특성 정보를 출력한다.

슈도 특성 생성 모델은 생성 모델과 판별 모델이 상호 작용하는 적대적 생성 신경망에서 (i) 조건부 생성 손실 함수, (ii) 분류 손실 함수, (iii) 트리플릿 손실 함수, 및 (iv) 내부 독립성 손실 함수를 최적화하여 슈도 특성 정보를 교정한다.

는 전체 클래스의 슈도 특성 공간이다.

는 사용된 클래스의 슈도 특성 공간이고,

는 처음 보는 클래스의 슈도 특성 공간이다. 슈도 특성 공간은 데이터가 매핑된 특정 차원의 임베딩 공간을 의미할 수 있다.

는 전체 학습 데이터 세트이다.

는 생성된 처음 보는 학습 데이터 세트이고,

는 실재 사용된 학습 데이터 세트이다.

는 생성된 처음 보는 특징 정보이고, x는 실재 사용된 특징 정보이다.

조건부 생성 손실 함수는 수학식 5와 같이 표현된다.

는

조건에 따른 생성된 슈도 특성 정보이다. λ는 페널티 가중치 파라미터이다.

p^y는 슈도 특성 데이터 분산

에서 추출된 슈도 특성이고,

는 생성 모델 분산

에서 추출된 생성된 슈도 특성이다.

분류 손실 함수는 수학식 6과 같이 표현된다.

분류 손실 함수는 생성 모델이 차별된 특징 정보를 생성하게 한다.

는 클래스 y에 대한 생성된 슈도 특성 정보이다.

는 클래스 레이블 y에 대해 예측되는 x의 확률이다. 확률은 양립 가능성 점수를 기반으로 산출된다. 양립 가능성 점수는 수학식 7과 같이 표현된다.

는 생성된 슈도 특성 정보이고,

는 생성 모델로부터 획득된 클래스 y에 대한 잠재 특징 벡터이다.

는 풀리 커넥티드 레이어(Fully Connected Layer)를 갖는 가중치 매트릭스이다. 가중치 매트릭스는

를 슈도 특성 공간에 매핑한다. 주어진 이미지 x에 대해서 확률

은 전체 클래스

의 양립 가능성 점수의 소프트맥스 값이다. 확률은 수학식 8과 같이 표현된다.

트리플릿 손실 함수는 수학식 9와 같이 표현된다.

는 CNN 특징 정보 x_i로부터 생성된 슈도 특성 정보이다.

와

는 동일한 클래스에 해당하고,

와

는 상이한 클래스에 해당한다. 마진 m은 1로 설정될 수 있다. d(x, y)는 x와 y 간의 유클리드 거리이다.

내부 독립성 손실 함수는 수학식 10과 같이 표현된다.

슈도 특성 정보의 중복을 감소시키는 슈도 특성 정보의 중복을 감소시킨다.

는 전체 클래스의 생성된 슈도 특성 정보 매트릭스이다. C_s+C_u는 전체 클래스의 개수이다.

슈도 특성 생성 모델의 손실 합수는 조건부 생성 손실 함수, 분류 손실 함수, 트리플릿 손실 함수, 및 내부 독립성 손실 함수가 결합되며, 수학식 11과 같이 표현된다.

슈도 특성 생성 모델의 손실 함수의 계수는 제1 계수 α는 0.01, 제2 계수 β는 0.02, 제3 계수 γ는 0.0001로 설정될 수 있다.

는 전체 학습 데이터 세트이고, 실재 사용된 특징 정보 세트와 생성된 처음 보는 특징 정보를 포함한다.

슈도 특성 생성 모델은 생성 모델 G와 CNN 특징 정보

를 이용하여 전체 클래스의 슈도 특성 정보

를 생성한다.

슈도 특성 생성 모델은 생성된 슈도 특성 공간

을 임베딩 공간으로 활용하고 클래스 y의 양립 가능성 점수 s(y)는 내적으로 정의된다.

는 CNN 특징 정보이고,

는 클래스 y에 대해 생성된 슈도 특성 벡터이고,

는 슈도 특성 공간에 x가 매핑된 가중치 매트릭스이다.

주어진 특징 정보 x의 클래스 레이블을 추론하기 위해서, 특징 정보는

특성 표현에 투영된다. 양립 가능성 점수 s(y)는 최선의 매칭된 클래스를 선택하도록 사용될 수 있다.

로 GZSL를 설정할 수 있다. 가장 높은 양립 가능성 점수를 갖는 y^*는 예측된 클래스이다. 생성된 슈도 특성 정보 대신에 사용자의 의한 특성 정보를 이용할 수 있다. 사용자에 의해 정의된 특성 공간으로 대체된 양립 가능성 점수는 수학식 14와 같이 표현된다.

는 CNN 특징 정보이고,

는 존재하는 사용자에 의해 정의된 특성 벡터이고,

는 가중치 매트릭스이다. 주어진 특징 정보 x의 클래스 레이블을 추론하기 위해서, 특징 정보는

특성 표현에 투영된다. 양립 가능성 점수 s_a(y)는 최선의 매칭된 클래스를 선택하도록 사용될 수 있다.

조건에서, 가장 높은 양립 가능성 점수를 가는 y^*는 예측된 클래스이다.

두 개의 양립 가능성 점수 s(y) 및 s_a(y)는 출력 레이어에서 결합되는 레이트 퓨전(Late Fusion)이 적용될 수 있다.

생성된 슈도 특성 벡터 및 사용자에 의해 정의된 특성 벡터에 의한 양립 가능성 점수 s(y) 및 s_a(y)를 결합시켜 제로샷 학습의 성능을 향상시킬 수 있다.

도 4는 본 발명의 다른 실시예에 따른 제로샷 인식 방법을 예시한 흐름도이다. 제로샷 인식 방법은 컴퓨팅 디바이스에 의하여 수행될 수 있으며, 제로샷 인식 장치와 동일한 방식으로 동작한다.

단계 S210에서 프로세서는 특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성한다.

특징 생성 모델은 랜덤 노이즈 분포와 클래스 임베딩을 입력받고 상기 처음 보는 클래스의 특징 정보를 출력하며, 생성 모델과 판별 모델이 상호 작용하는 적대적 생성 신경망에서 (i) 사용자에 의해 정의된 특성 정보에 바서스타인 거리(Wasserstein Distance)가 적용된 조건부 생성 손실 함수 및 (ii) 사용된 클래스(Seen Class)의 데이터를 이용하여 학습된 파라미터가 적용된 분류 손실 함수를 최적화하여, 시각적 특징 정보를 합성한다.

단계 S220에서 프로세서는 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성한다.

슈도 특성 정보를 생성하는 단계(S220)는 사용된 클래스의 슈도 특성 공간 및 처음 보는 클래스의 슈도 특성 공간을 획득하고, 사용된 클래스에 관한 실재의 데이터 및 처음 보는 클래스에 관한 생성된 데이터를 포함하는 전체 학습 데이터를 획득한다.

슈도 특성 생성 모델은 랜덤 노이즈 분포와 전체 학습 데이터를 입력받고 슈도 특성 정보를 출력하며, 생성 모델과 판별 모델이 상호 작용하는 적대적 생성 신경망에서 (i) 조건부 생성 손실 함수, (ii) 분류 손실 함수, (iii) 트리플릿 손실 함수, 및 (iv) 내부 독립성 손실 함수를 최적화하여 슈도 특성 정보를 교정한다.

조건부 생성 손실 함수는 페널티 가중치를 조건부로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보에 바서스타인 거리(Wasserstein Distance)를 적용한다.

분류 손실 함수는 생성된 슈도 특성 정보에 대하여 클래스 레이블을 사용하여 예측된 특성 정보의 양립 가능성 점수를 갖는 확률을 적용한다. 생성된 슈도 특성 정보는 생성 모델에 의해 획득한 상기 클래스 레이블에 대한 잠재적 특징 벡터에 가중치 매트릭스가 적용되며, 가중치 매트릭스는 임베딩 공간에서 선택된 슈도 특성 공간에 잠재적 특징 벡터가 매핑된다.

트리플릿 손실 함수는 (i) 동일한 클래스로부터 생성된 슈도 특성 정보 간에 거리 및 (ii) 상이한 클래스로부터 생성된 슈도 특성 정보 간에 거리의 차이로 정의된다.

내부 독립성 손실 함수는 전체 클래스에 대하여 생성된 슈도 특성 정보의 매트릭스를 검사하여 슈도 특성 정보의 중복을 감소시킨다.

단계 S230에서 프로세서는 슈도 특성 정보를 제로샷 학습 모델에 전송한다.

단계 S240에서 프로세서는 슈도 특성 정보를 상기 제로샷 학습 모델에 전송하면, 제로샷 학습 모델은 슈도 특성 정보를 적용하여 처음 보는 클래스의 데이터를 인식하며, 제로샷 학습 모델은 (i) 사용자에 의해 정의된 특성 정보와 (ii) 상기 슈도 특성 정보를 기준으로 인식한다.

도 5는 본 발명의 실시예들에 따른 시뮬레이션 결과를 예시한 도면이다.

도 5의 이미지들은 기존 데이터 세트에 존재하는 특성 정보(user-defined attribute)와 본 실시예에 따라 생성된 특성 정보(pseudo-attribute)를 비교한 결과이다.

기존 데이터셋에 존재하는 특성 정보는 실제 특성 정보와 관련이 없는 이미지들이 가장 높은 활성(Activation) 값을 갖는 반면에, 본 실시예에 따라 생성된 특성 정보는 실제 특성 정보와 관련이 있는 이미지들로만 형성되는 것을 확인할 수 있다.

제로샷 인식 장치는 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합에 의해 로직회로 내에서 구현될 수 있고, 범용 또는 특정 목적 컴퓨터를 이용하여 구현될 수도 있다. 장치는 고정배선형(Hardwired) 기기, 필드 프로그램 가능한 게이트 어레이(Field Programmable Gate Array, FPGA), 주문형 반도체(Application Specific Integrated Circuit, ASIC) 등을 이용하여 구현될 수 있다. 또한, 장치는 하나 이상의 프로세서 및 컨트롤러를 포함한 시스템온칩(System on Chip, SoC)으로 구현될 수 있다.

제로샷 인식 장치는 하드웨어적 요소가 마련된 컴퓨팅 디바이스 또는 서버에 소프트웨어, 하드웨어, 또는 이들의 조합하는 형태로 탑재될 수 있다. 컴퓨팅 디바이스 또는 서버는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신장치, 프로그램을 실행하기 위한 데이터를 저장하는 메모리, 프로그램을 실행하여 연산 및 명령하기 위한 마이크로프로세서 등을 전부 또는 일부 포함한 다양한 장치를 의미할 수 있다.

도 5 및 도 6에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나 이는 예시적으로 설명한 것에 불과하고, 이 분야의 기술자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 5 및 도 6에 기재된 순서를 변경하여 실행하거나 또는 하나 이상의 과정을 병렬적으로 실행하거나 다른 과정을 추가하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이다.

본 실시예들에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있다. 컴퓨터 판독 가능한 매체는 실행을 위해 프로세서에 명령어를 제공하는 데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예를 들면, 자기 매체, 광기록 매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.

본 실시예들은 본 실시예의 기술 사상을 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 디바이스에 의한 제로샷 인식 방법에 있어서,
특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성하는 단계;
상기 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성하는 단계; 및
상기 슈도 특성 정보를 제로샷 학습 모델에 전송하는 단계를 포함하며,
상기 슈도 특성 정보를 생성하는 단계는 사용된 클래스의 슈도 특성 공간 및 처음 보는 클래스의 슈도 특성 공간을 획득하고, 상기 사용된 클래스에 관한 실재의 데이터 및 처음 보는 클래스에 관한 생성된 데이터를 포함하는 전체 학습 데이터를 획득하고,
상기 슈도 특성 생성 모델은 랜덤 노이즈 분포와 상기 전체 학습 데이터를 입력받고 상기 슈도 특성 정보를 출력하며, 제1 생성 모델과 제1 판별 모델이 상호 작용하는 제1 적대적 생성 신경망에서 (i) 상기 제1 생성 모델은 조건부 생성 손실 함수, 분류 손실 함수, 트리플릿 손실 함수, 및 내부 독립성 손실 함수가 결합된 제1 손실 함수를 최소화하고, (ii) 상기 제1 판별 모델은 상기 조건부 생성 손실 함수, 상기 분류 손실 함수, 상기 트리플릿 손실 함수, 및 상기 내부 독립성 손실 함수가 결합된 상기 제1 손실 함수를 최대화하는 최적화 과정을 통해 상기 슈도 특성 정보를 교정하는 것을 특징으로 하는 제로샷 인식 방법.
제1항에 있어서,
상기 특징 생성 모델은 랜덤 노이즈 분포와 클래스 임베딩을 입력받고 상기 처음 보는 클래스의 특징 정보를 출력하며, 제2 생성 모델과 제2 판별 모델이 상호 작용하는 제2 적대적 생성 신경망에서 (i) 상기 제2 생성 모델은 사용자에 의해 정의된 특성 정보에 바서스타인 거리(Wasserstein Distance)가 적용된 조건부 생성 손실 함수 및 사용된 클래스(Seen Class)의 데이터를 이용하여 학습된 파라미터가 적용된 분류 손실 함수가 결합된 제2 손실 함수를 최소화하고, (ii) 상기 제2 판별 모델은 상기 사용자에 의해 정의된 특성 정보에 상기 바서스타인 거리(Wasserstein Distance)가 적용된 상기 조건부 생성 손실 함수 및 상기 사용된 클래스(Seen Class)의 데이터를 이용하여 학습된 파라미터가 적용된 상기 분류 손실 함수가 결합된 상기 제2 손실 함수를 최대화하는 최적화 과정을 통해 시각적 특징 정보를 합성하는 것을 특징으로 하는 제로샷 인식 방법.
삭제
삭제
제1항에 있어서,
상기 조건부 생성 손실 함수는 페널티 가중치를 조건부로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보에 바서스타인 거리(Wasserstein Distance)를 적용하는 것을 특징으로 하는 제로샷 인식 방법.
제1항에 있어서,
상기 분류 손실 함수는 생성된 슈도 특성 정보에 대하여 클래스 레이블을 사용하여 예측된 특성 정보의 양립 가능성 점수를 갖는 확률을 적용하는 것을 특징으로 하는 제로샷 인식 방법.
제6항에 있어서,
상기 생성된 슈도 특성 정보는 상기 생성 모델에 의해 획득한 상기 클래스 레이블에 대한 잠재적 특징 벡터에 가중치 매트릭스가 적용되며, 상기 가중치 매트릭스는 임베딩 공간에서 선택된 슈도 특성 공간에 잠재적 특징 벡터가 매핑된 것을 특징으로 하는 제로샷 인식 방법.
제1항에 있어서,
상기 트리플릿 손실 함수는 (i) 동일한 클래스로부터 생성된 슈도 특성 정보 간에 거리 및 (ii) 상이한 클래스로부터 생성된 슈도 특성 정보 간에 거리의 차이로 정의되는 것을 특징으로 하는 제로샷 인식 방법.
제1항에 있어서,
상기 내부 독립성 손실 함수는 전체 클래스에 대하여 생성된 슈도 특성 정보의 매트릭스를 검사하여 슈도 특성 정보의 중복을 감소시키는 것을 특징으로 하는 제로샷 인식 방법.
제1항에 있어서,
상기 슈도 특성 정보를 상기 제로샷 학습 모델에 전송하면,
상기 제로샷 학습 모델은 상기 슈도 특성 정보를 적용하여 처음 보는 클래스의 데이터를 인식하며, 상기 제로샷 학습 모델은 (i) 사용자에 의해 정의된 특성 정보와 (ii) 상기 슈도 특성 정보를 기준으로 인식하는 것을 특징으로 하는 제로샷 인식 방법.
하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 제로샷 인식 장치에 있어서,
상기 프로세서는 특징 생성 모델을 이용하여 처음 보는 클래스(Unseen Class)의 특징 정보를 생성하고,
상기 프로세서는 상기 처음 보는 클래스의 특징 정보를 이용하여 슈도 특성 생성 모델에서 정의된 손실 함수를 기반으로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보를 생성하고,
상기 프로세서는 상기 슈도 특성 정보를 제로샷 학습 모델에 전송하며,
상기 프로세서는 사용된 클래스의 슈도 특성 공간 및 처음 보는 클래스의 슈도 특성 공간을 획득하고, 상기 사용된 클래스에 관한 실재의 데이터 및 처음 보는 클래스에 관한 생성된 데이터를 포함하는 전체 학습 데이터를 획득하여, 상기 슈도 특성 정보를 생성하고,
상기 슈도 특성 생성 모델은 랜덤 노이즈 분포와 상기 전체 학습 데이터를 입력받고 상기 슈도 특성 정보를 출력하며, 제1 생성 모델과 제1 판별 모델이 상호 작용하는 제1 적대적 생성 신경망에서 (i) 상기 제1 생성 모델은 조건부 생성 손실 함수, 분류 손실 함수, 트리플릿 손실 함수, 및 내부 독립성 손실 함수가 결합된 제1 손실 함수를 최소화하고, (ii) 상기 제1 판별 모델은 상기 조건부 생성 손실 함수, 상기 분류 손실 함수, 상기 트리플릿 손실 함수, 및 상기 내부 독립성 손실 함수가 결합된 상기 제1 손실 함수를 최대화하는 최적화 과정을 통해 상기 슈도 특성 정보를 교정하는 것을 특징으로 하는 제로샷 인식 장치.
삭제
삭제
제11항에 있어서,
상기 조건부 생성 손실 함수는 페널티 가중치를 조건부로 사용자에 의해 정의되지 않은 특성 정보인 슈도 특성 정보에 바서스타인 거리(Wasserstein Distance)를 적용하며,
상기 분류 손실 함수는 생성된 슈도 특성 정보에 대하여 클래스 레이블을 사용하여 예측된 특성 정보의 양립 가능성 점수를 갖는 확률을 적용하는 것을 특징으로 하는 제로샷 인식 장치.
제11항에 있어서,
상기 트리플릿 손실 함수는 (i) 동일한 클래스로부터 생성된 슈도 특성 정보 간에 거리 및 (ii) 상이한 클래스로부터 생성된 슈도 특성 정보 간에 거리의 차이로 정의되며,
상기 내부 독립성 손실 함수는 전체 클래스에 대하여 생성된 슈도 특성 정보의 매트릭스를 검사하여 슈도 특성 정보의 중복을 감소시키는 것을 특징으로 하는 제로샷 인식 장치.