KR20210112547A

KR20210112547A - 자기수렴 생성망 학습 방법 및 시스템

Info

Publication number: KR20210112547A
Application number: KR1020200027659A
Authority: KR
Inventors: 정성훈; 김호중
Original assignee: 한성대학교 산학협력단
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2021-09-15
Also published as: KR102580159B1; WO2021177500A1; US20230297829A1

Abstract

자기수렴 생성망 학습 방법 및 시스템이 개시된다. 본 발명의 일 실시예에 따른 자기수렴 생성망 학습 방법은 학습 데이터 세트를 구성하는 학습 이미지와 잠재 공간(latent space) 벡터를 쌍으로 매핑하는 단계; 자기수렴 생성망의 생성자에 대한 손실 함수와 잠재 공간에 대한 손실 함수를 정의하는 단계; 및 상기 생성자에 대한 손실 함수와 상기 잠재 공간에 대한 손실 함수를 이용하여 상기 자기수렴 생성망의 가중치와 잠재 벡터를 학습하는 단계를 포함한다.

Description

자기수렴 생성망 학습 방법 및 시스템{METHOD AND SYSTEM FOR LEARNING SELF-CONVERGING GENERATIVE NETWORKS}

본 발명은 자기수렴 생성망 학습 방법 및 시스템에 관한 것으로, 보다 상세하게는 하나의 네트워크를 활용하여 잠재 공간과 이미지 공간이 서서히 수렴하는 자기수렴 생성망에 관한 것이다.

최근 DNN(Deep Neural Network) 특히, CNN(Convolution Neural Network)을 이용한 연구를 통해 이미지 인식이나 분류문제에서 많은 발전이 있었다. 이러한 발전에서 더 나아가 이미지를 단순히 인식하거나 분류하는 것뿐만 아니라 이미지를 생성하는 생성모델(Generative Model)에 대한 연구도 활발히 진행 중이다. 분류모델과 다르게 생성모델은 잠재 공간(latent space)으로부터 데이터를 생성하는 모델로서 그 중요성과 활용성이 증대되고 있다. 일반적으로 생성모델은 데이터를 만들어낼 수 있는 모델이지만 그 응용이 데이터를 만드는 것에 국한되지 않는다. 왜냐하면 데이터를 생성할 수 있다는 것은 데이터에 대한 정보를 모두 가지고 있으므로 그 데이터에 관련된 많은 문제를 해결할 수 있다는 것이기 때문이다.

최근 활발하게 연구되는 대표적인 생성모델은 VAE(Variational Auto-Encoder)와 GAN(Generative Adversarial Networks)이 있다. 이 두 모델은 이미지를 픽셀단위로 직접 학습하는 방법과 이미지를 간접적으로 학습하는 방법을 대표한다. VAE는 대체로 이미지의 픽셀값을 직접 비교해 이미지를 학습하는 픽셀단위 손실(Pixel-wise loss)을 사용한다. GAN은 생성자(Generator)와 판별자(Discriminator)의 적대 손실(Adversarial loss)로 경쟁적인 학습을 통해 학습하는 방법으로, 픽셀단위 손실과 다르게 판별자를 통해 이미지를 간접적으로 학습하는 방법이라고 볼 수 있다. 이 둘은 이미지를 만들어내는 측면에서는 같은 생성모델이지만 이미지를 학습하는 방법이 달라 결과 이미지 측면에서 서로 다른 특성을 보이고 있다.

픽셀단위 손실의 경우 이미지 매니폴드(manifold) 공간에 있는 데이터를 학습하기 보다 학습 이미지를 픽셀공간에서 직접 학습하기 때문에 학습 이미지들의 평균효과가 적용된 이미지를 생성하는데, 이는 대체로 GAN에 비해 흐린 이미지를 내는 경향이 있다. 특히 VAE의 경우 잠재벡터를 샘플링하여 학습해서 한 잠재공간에 대해 여러 이미지를 학습할 수 있기 때문에 더욱 그런한 경향이 두드러진다. 적대적 손실의 경우 픽셀단위로 손실을 계산하지 않기 때문에 이미지 매니폴드에 있는 데이터에 근접하도록 학습하여 대체로 블러(blur)한 효과가 적다. 이러한 특성 때문에 현재 적대적 손실이 이미지 생성 시에 픽셀단위 손실보다 더 사실적인 이미지를 결과로 내고 있다. 하지만 GAN이 결과 이미지 측면에서 좋은 결과를 보여줌에도 많은 단점을 가지고 있다.

GAN의 단점은 여러 가지를 꼽을 수 있는데, 이는 생성자가 직접 픽셀의 차이 통해 학습하는 것이 아니고 판별자를 통해 학습하는 것 때문에 나오는 문제점이다. 첫 번째는 생성자와 판별자의 균형을 맞추기 어렵다. 생성자와 판별자가 잘 학습되기 위해 여러 가지 방법들이 존재하지만 그럼에도 불구하고 파라미터가 조금 안 맞거나, 구조적 설계가 조금이라도 맞지 않으면 잘 학습되지 않는다. 두 번째는 GAN 모델을 통해 샘플을 생성할 때 몇 개의 학습데이터만 출력하는 현상을 의미하는 Mode Collapsing이다. 현재 균형을 맞추기 위한 연구들이 진행되고 있지만 여전히 Mode Collapsing은 GAN구조에서 자주 발생하는 문제이다. 그러나 이러한 문제들은 모델의 구조적인 문제로 발생하는 현상으로 근본적으로 해결하기가 쉽지 않다. 결국 Mode Collapsing 이 발생하지 않으며 VAE 보다 선명한 이미지를 만드는 새로운 Generative Model 의 개발이 필요하다. 새로운 Generative Model 에서는 선명한 이미지를 만들기 위하여 가능한한 샘플링없이 학습하는 방법이 좋다. 이를 위해서는 잠재공간을 학습하는 새로운 방법이 필요하다. 또한 가능한 필요한 네트워크의 개수나 크기를 줄여서 계산량이 적을수록 좋다.

본 발명의 실시예들은, 하나의 네트워크로 잠재 공간과 이미지 공간을 서서히 수렴시키는 자기수렴 생성망(SCGN; Self-Converging Generative Network)을 제공한다.

본 발명의 일 실시예에 따른 자기수렴 생성망 학습 방법은 학습 데이터 세트를 구성하는 학습 이미지와 잠재 공간(latent space) 벡터를 쌍으로 매핑하는 단계; 자기수렴 생성망의 생성자에 대한 손실 함수와 잠재 공간에 대한 손실 함수를 정의하는 단계; 및 상기 생성자에 대한 손실 함수와 상기 잠재 공간에 대한 손실 함수를 이용하여 상기 자기수렴 생성망의 가중치와 잠재 벡터를 학습하는 단계를 포함한다.

상기 학습하는 단계는 KL(Kullback-Leibler) 발산 및 픽셀 단위 손실에서 파생된 손실 함수를 사용하여 상기 잠재 벡터가 정규 분포를 따르도록 학습할 수 있다.

상기 학습하는 단계는 학습 과정에서, 상기 잠재 공간이 자가 수렴하여 정규 분포를 따르도록 상기 자기수렴 생성망을 학습할 수 있다.

상기 매핑하는 단계는 미리 설정된 표준 편차의 정규 분포를 사용하여 무작위로 상기 잠재 공간을 초기화하고, 상기 잠재 공간과 이미지 공간이 쌍을 이룸으로써, 상기 잠재 공간과 상기 이미지 공간을 일대일로 매핑할 수 있다.

상기 정의하는 단계는 상기 잠재 공간과 이미지 공간 사이의 관계를 획득하고, KL 발산을 사용하여 상기 잠재 공간을 미리 설정된 타겟 공간 내에 제한함으로써, 상기 자기수렴 생성망의 손실 함수를 정의할 수 있다.

상기 학습하는 단계는 상기 자기수렴 생성망의 가중치와 잠재 벡터를 교대로 학습할 수 있다.

본 발명의 일 실시예에 따른 자기수렴 생성망 학습 시스템은 학습 데이터 세트를 구성하는 학습 이미지와 잠재 공간(latent space) 벡터를 쌍으로 매핑하는 매핑부; 자기수렴 생성망의 생성자에 대한 손실 함수와 잠재 공간에 대한 손실 함수를 정의하는 정의부; 및 상기 생성자에 대한 손실 함수와 상기 잠재 공간에 대한 손실 함수를 이용하여 상기 자기수렴 생성망의 가중치와 잠재 벡터를 학습하는 학습부를 포함한다.

상기 학습부는 KL(Kullback-Leibler) 발산 및 픽셀 단위 손실에서 파생된 손실 함수를 사용하여 상기 잠재 벡터가 정규 분포를 따르도록 학습할 수 있다.

상기 학습부는 학습 과정에서, 상기 잠재 공간이 자가 수렴하여 정규 분포를 따르도록 상기 자기수렴 생성망을 학습할 수 있다.

상기 매핑부는 미리 설정된 표준 편차의 정규 분포를 사용하여 무작위로 상기 잠재 공간을 초기화하고, 상기 잠재 공간과 이미지 공간이 쌍을 이룸으로써, 상기 잠재 공간과 상기 이미지 공간을 일대일로 매핑할 수 있다.

상기 정의부는 상기 잠재 공간과 이미지 공간 사이의 관계를 획득하고, KL 발산을 사용하여 상기 잠재 공간을 미리 설정된 타겟 공간 내에 제한함으로써, 상기 자기수렴 생성망의 손실 함수를 정의할 수 있다.

상기 학습부는 상기 자기수렴 생성망의 가중치와 잠재 벡터를 교대로 학습할 수 있다.

본 발명의 실시예들에 따르면, 하나의 네트워크를 포함하는 자기수렴 생성망(SCGN)을 제공하여 구조적으로 단순하고 잠재 공간과 이미지 공간이 서서히 수렴하도록 함으로써, VAE처럼 잠재 공간을 샘플링할 필요가 없어서 생성 이미지가 흐려지는 문제를 완화할 수 있고, GAN과는 다르게 수렴된 잠재 공간과 출력이미지의 매핑을 알 수 있으므로 이미지 생성 시 원하는 이미지를 쉽게 생성할 수 있으며, 잠재공간과 학습 이미지가 일대일로 매핑되어 학습되므로 mode collapsing 이 발생하지 않아 학습이 수월하다.

도 1은 본 발명의 일 실시예에 따른 자가수렴 생성망 학습 방법에 대한 동작 흐름도를 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 자기수렴 생성망의 구조를 나타낸 것이다.
도 3은 SCGN 모델의 생성자 네트워크에 대한 일 실시예 구조를 나타낸 것이다.
도 4는 손실 함수의 구성 요소들을 나타낸 것이다.
도 5와 도 6은 DFC-VAE(b)와 BEGAN(boundary equilibrium generative adversarial networks)(c) 모델들의 결과와 비교한 SCGN(a)의 생성 이미지와 공간 연속성에 대한 예시도를 나타낸 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형 태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 카테고리를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 카테고리에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상 의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사 전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 발명의 실시예들은, 하나의 네트워크를 활용하여 잠재 공간과 이미지 공간이 서서히 수렴하는 자기수렴 생성망(SCGN; Self-Converging Generative Network)을 제공하는 것을 그 요지로 한다.

여기서, SCGN은 다른 생성 모델과 다르게 모델뿐만 아니라 잠재 공간도 학습하여 스스로 학습데이터에 맞는 잠재 공간으로 수렴하는 것으로, 학습과정에서 잠재 공간과 모델 사이의 균형을 맞추어가는 모델이라고 할 수 있다. 즉, SCGN은 VAE처럼 잠재 공간을 샘플링할 필요가 없어서 구조적으로 단순하면서 생성 이미지가 흐려지는 문제를 완화할 수 있고, GAN과는 다르게 수렴된 잠재 공간과 출력이미지의 매핑을 알 수 있으므로 이미지 생성 시 원하는 이미지를 쉽게 생성할 수 있으며, 잠재공간과 학습 이미지가 일대일로 매핑되어 학습되므로 mode collapsing 이 발생하지 않아 학습이 수월하다.

SCGN은 무작위로 형성되어있는 잠재 공간과 모델을 이용하여 잠재 공간과 학습데이터와의 관계를 스스로 찾아가는 모델이다. 또한 SCGN은 무작위로 형성되어있는 잠재 공간을 특정 확률분포공간으로 수렴할 수 있게 하여 실제 데이터를 생성할 때 사용할 수 있는 모델이다.

도 1은 본 발명의 일 실시예에 따른 자가수렴 생성망 학습 방법에 대한 동작 흐름도를 나타낸 것이다.

도 1을 참조하면, 본 발명의 SCGN 학습 방법은 학습 데이터 세트를 구성하는 학습 이미지와 잠재 공간을 쌍으로 매핑하는 단계(S110), SCGN의 생성자에 대한 손실 함수와 잠재 공간에 대한 손실 함수를 정의하는 단계(S120)와 생성자에 대한 손실 함수와 잠재 공간에 대한 손실 함수를 이용하여 SCGN의 가중치와 잠재 벡터를 교대로 학습하는 단계(S130)를 포함한다.

단계 S110은 미리 설정된 표준 편차의 정규 분포를 사용하여 무작위로 잠재 공간을 초기화하고, 잠재 공간과 이미지 공간이 쌍을 이룸으로써, 잠재 공간과 이미지 공간을 일대일로 매핑할 수 있다. 이러한 잠재 공간과 이미지 공간의 일대일 관계는 매핑되고 유지될 수 있다.

단계 S120은 잠재 공간과 이미지 공간 사이의 관계를 획득하고, KL 발산을 사용하여 잠재 공간을 미리 설정된 타겟 공간 내에 제한함으로써, SCGN의 손실 함수를 정의할 수 있다.

단계 S130은 KL(Kullback-Leibler) 발산 및 픽셀 단위 손실에서 파생된 손실 함수를 사용하여 잠재 벡터가 정규 분포를 따르도록 학습할 수 있다.

나아가, 단계 S130은 학습 과정에서, 잠재 공간이 자가 수렴하여 정규 분포를 따르도록 SCGN을 학습할 수 있다.

이러한 본 발명의 방법에 대해 도 2 내지 도 6을 참조하여 상세히 설명하면 다음과 같다.

가장 간단한 생성 모델을 만든다고 가정하면, 이 때 모델은 범용 함수 근사화기(universal function approximator)의 역할을 할 수 있는 신경망을 사용하고, 신경망을 통해 입력인 Z를 이미지인 X로 매핑하는 문제이다. 즉, 잠재 공간을 이미지 공간으로 바꾸는 모델의 θ를 찾는 것이라고 볼 수 있다.

간단하게 Z는 정규분포 이미지 MNIST의 예를 들어 설명하면, 이 모델은 Z 하나에 대해서 이미지를 추론할 때 f_θ(Z)를 이용하여 추론할 수 있다. 그리고 이것을 확률적인 표현으로 바꾸면 확률 변수 Z에 대한 분포 p(Z)가 모델의 입력이 된다. 그리고 출력으로 Z 즉, 잠재 공간의 분포가 주어졌을 때 X는 이미지 분포가 될 수 있다. 그렇다면 모델은 정규분포가 주어지면 이미지에 대한 우도(likelihood)를 최대화 하는 방향으로 θ를 학습할 수 있다.

이러한 방법으로는 주변확률분포를 이용하여 간단하게 본 발명이 가진 분포들로만 이루어진 적분식을 만들 수 있다. 이는 이미지의 분포인 X에 대한 분포를 추론하는 것과 같다고 볼 수 있다. 하지만 이 적분식을 이용하여 실제로 계산을 하는 것은 매우 어려운 일이다. 이 경우 사후확률분포를 활용하는 EM 알고리즘이 해법이 될 수 있다. 그러나 현재 신경망을 모델로 사용하여 사후확률분포를 추론하기 어렵고, EM 알고리즘은 비교적 간단한 데이터에 대해 적용할 수 있는 모델이기 때문에 적용하기 어려운 방법이다. 그래서 모델이 하나인 경우 풀기 위해 새로운 방법이 필요하다.

상술한 주변확률분포가 적분식을 포함하여 그대로 사용하기는 어렵지만, 젠슨의 부등식을 이용하여 근사치를 구하는 방법을 사용할 수 있다. 해당 방법은 이미지 하나를 파라미터 θ가 주어졌을 때 로그 우도(log likelihood)를 구할 수 있다. 해당 방법을 통해 모델을 최적화한다면 이미지 하나에 대해 n개의 샘플 Z로 모델을 학습하게 된다.

이렇게 정규분포에 이미지가 다양하게 학습되는 것이 이상적인 결과지만, 실제로 학습하면 결과 이미지는 MNIST 모든 데이터의 평균적 픽셀 값이라고 추론할 수 있다. 이는 모든 이미지를 같은 공간, 현재는 정규분포 상에 학습하기 때문에 일어나는 일이다. 이러한 학습 방법이 가능 하려면 이미지별로 어떤 분포가 적합한지 알면 가능할 수 있다.

예를 들어, 이미지가 잠재 공간 어디에 위치하고 그 분포가 어떻게 형성되면 이상적인지 둘의 관계를 알면 최적의 θ를 구할 수 있다. 그리고 그 분포가 섬세하게 쪼개져 있을 수록 더 사실적인 이미지를 만드는 생성모델이 될 수 있다. 예를 들어, 이미지를 표현하는 분포가 매우 작아져 이미지 하나가 Z의 점 하나를 가진다고 가정한다. 하지만 이 관계는 실제로 아는 것이 아니기 때문에 Z가 어디에 위치해야 할지 알 수 없다. 그렇다면 우선 초기에는 랜덤으로 Z를 초기화 한 뒤 무작위로 X와 쌍을 지어주는 경우 Z가 주어지면 학습할 X 이미지가 명확해진다.

그렇다면 θ 뿐만 아니라 Z도 학습을 통해 구할 수 있다. 이미지의 차이를 통해 손실을 구할 수 있으므로 θ 뿐만 아니라 Z도 역전파(backpropagation)로 학습하는 것이 가능하다. 이 때, 생성자와 Z를 번갈아가며 학습하게 되면 서서히 자리를 잡아가며 수렴하게 된다.

구체적으로 설명하면 다음과 같다. 본 발명의 SCGN은 확률 모델로 설명된다. P는 모델의 분포이고, Q는 타겟 분포이며, Z 잠재 공간의 변수이며, X는 학습 데이터의 변수이다. 본 발명의 생성 모델에서, P(Z)에서 P(X)로의 매핑이 요구된다. P(Z)와 P(X) 간 관계를 식별하기 위하여, P(X|Z)가 학습된다. P(Z)는 P(Z)와 P(X)가 학습의 초기 단계에서 무작위로 매핑된다는 가정에서 매니폴드를 학습하기 위하여 학습될 수 있다.

그러나, Z가 학습으로 바뀌면 P(Z)를 알 수 없다. 이를 생성 모델로 사용하기 위하여, 타겟 분포 Q(Z)를 따르도록 P(Z)를 만들어야 한다. SCGN의 손실 함수를 정의하기 위해 두 가지 사항을 고려한다. 먼저, 잠재 공간과 이미지 공간 사이의 관계를 얻는다. 이는 logP(X|Z)로 표시될 수 있다. logP(X|Z)를 계산하면 아래 <수학식 1>과 같이 logP(X)을 얻을 수 있다.

[수학식 1]

상기 수학식 1에 기초하여, 본 발명은 SCGN의 하나의 손실 함수에서 픽셀단위 손실로 사용한다. 둘째, KL 발산을 사용하여 잠재 공간 Z를 타겟 공간 내에 제한한다. 이 때, KL 발산은 아래 <수학식 2>와 같이 나타낼 수 있다.

[수학식 2]

상기 KL 발산은 타겟 분포 Q(Z)를 따를 수 있도록 P(Z)에 대한 SCGN의 다른 손실 함수에서 사용될 수 있다. 상기 두 가지 사항 중에서 본 발명의 손실 함수를 지정할 수 있다. 여기서, P분포는 학습시점의 분포를 의미하고, Q분포는 Z가 수렴하기 원하는 분포를 의미할 수 있다. 먼저 제일 위를 보면 학습할 때 현재 가지고 있는 분포 P(Z)와 타겟 분포 Q(Z)와의 KL 발산을 볼 수 있는데 이 둘의 KL 발산을 최소화하면 X에 영향받지 않고 Z의 분포가 타겟 분포와 가까워지도록 할 수 있다. 본 발명은 KL 발산을 변형하여 세 개의 항으로 분리함으로써, 상기 수학식 2와 같이 KL 발산을 계산할 수 있다.

상기 수학식 2의 KL 발산에 대하여, 세 개의 항은 크게 X와 관련된 부분과 Z와 관련된 부분으로 나눌 수 있다. 여기서, X는 이미지를 의미하고, Z는 잠재 공간을 의미하므로 이미지 부분과 잠재 공간 부분으로 나눈 것으로 볼 수 있다. 상기 수학식 2의 오른쪽 항들 중 앞의 두 항은 이미지에 대한 부분으로, 현재 Z가 Q분포를 따른다고 가정하고 이미지를 데이터 세트와 가깝게 하는 부분이며, 오른쪽 항들의 모든 항들 즉, 세 개의 항들은 Z에 대한 부분으로, 현재 이미지와 Z의 분포를 고려하여 Z 상에서 KL 발산과 이미지의 차이가 최소화 하는 부분이다.

도 2는 본 발명의 일 실시예에 따른 자기수렴 생성망의 구조를 나타낸 것으로, 하나의 생성자 G_θ만으로 구성된 자기수렴 생성망에 대한 전체 구조를 나타낸 것이다. 본 발명은 SCGN을 학습하기 위하여, 생성자에 대한 손실 함수 L_Gθ와 잠재 공간 Z에 대한 손실 함수 L_Z의 두 손실 함수를 사용할 수 있다. 여기서, 두 손실 함수는 아래 <수학식 3>과 같이 나타낼 수 있다.

[수학식 3]

여기서, λ는 KL 발산을 이용하여 픽셀단위 손실과 해당 손실 사이의 밸런스를 조절하기 위한 파라미터를 의미하는데, λ 값은 에포크에 따라 고정되거나 동적으로 변할 수 있다. 예를 들어, λ 값은 에포크에 따라 점진적으로 증가시킬 수 있다. 학습 과정에서, 두 손실 함수는 교대로 적용되어 Z와 X 사이의 일대일 관계를 얻고 잠재 공간 Z가 자가 수렴하여 Z가 정균 분포를 따르도록 한다. 잠재 공간은 점차 매니폴드를 학습하고 학습 이미지 X의 공간 연속성을 유지한다.

나아가, 본 발명은 이미지 간의 차이를 줄이기 위해 픽셀 단위 손실로 L1 손실을 사용할 수 있다. 픽셀 단위 손실을 사용할 때 MSE를 사용하는 경우보다 이상치에 민감하지 않아 흐릿한 이미지를 덜 만드는 특징이 있다. 그리고 본 발명은 이미지가 흐릿한 것을 더 해결하기 위해L1 손실을 사용한 것 뿐만 아니라 지각 손실(Perceptual loss)를 사용하여 이미지가 더 사실적으로 표현될 수 있도록 할 수도 있다. 이는 VGG모델의 특징들의 차이를 이용하여 학습하는 방법이다. 그리고 KL 발산을 계산하기 쉽도록 Z의 분포가 정규분포라 가정하여, 정규분포 사이의 KL 발산을 계산할 수 있다. 즉, 손실 함수를 정의하면 생성자의 손실 함수와 잠재 공간의 손실 함수로 각각 정의되는데, 이미지 손실, 지각 손실과 정규화 손실 이렇게 크게 세 부분이며, 아래 <수학식 4>와 같이 나타낼 수 있다.

[수학식 4]

여기서, λ는 정규화 손실의 힘이 너무 클 경우 수렴하는데 방해하는 역할이 있기 때문에 정규화 손실의 가중치를 조절하는 파라미터를 의미할 수 있다.

아래 알고리즘 1은 SCGN의 전체 학습 과정을 나타낸 것으로, 잠재 공간 Z은 표준 편차가 작은 정규 분포를 사용하여 무작위로 초기화된다. 여기서, 작은 표준 편차는 SCGN이 학습 데이터를 안정적으로 학습 시키는데 도움이 된다. 이는 Z의 잠재 벡터의 짧은 거리가 수렴하기 쉽기 때문이다. 잠재 공간 Z는 이미지 공간 X와 쌍을 이룬다. 두 변수가 일대일로 매핑되면 각 학습 데이터 X에 대해 Z의 각 변수를 학습할 수 있다. 여기서, Z와 G_θ는 교대로 학습될 수 있는데, 이는 잠재 공간 Z가 학습 이미지 X와 쌍을 이루어는 동안 잠재 공간이 특정 분포에 매핑되도록 하기 위한 것이다.

도 3은 SCGN 모델의 생성자 네트워크에 대한 일 실시예 구조를 나타낸 것으로, 도 3에 도시된 바와 같이 생성자 네트워크는 잠재 벡터가 학습될 때 그래디언트 소실 문제를 피하기 위하여 여러 개의 잔여 연결(residual connections)을 사용한다. 또한, 본 발명은 출력 이미지의 해상도를 향상시키기 위하여 업 샘플링을 수행한다. 본 발명의 모델의 나머지 부분은 일반적으로 사용되는 모듈로 구성될 수 있다. 즉, 본 발명의 SCGN의 생성자 네트워크는 잔연 연결 블록 구조를 사용하여 네트워크가 깊어져도 학습이 원활하게 될 수 있도록 하였으며, 모든 컨볼루션은 3×3 커널(kernel)을 사용하고, 패딩(padding)과 스트라이드(stride)를 1로 주며, 마지막을 제외하고 하나의 블록을 지날 때마다 업샘플링하는데, 컨볼루션을 사용하지 않고 단순히 BiLinear연산을 통해 이미지 크기를 2배로 업샘플링할 수 있다.

도 4는 손실 함수의 구성 요소들을 나타낸 것으로, 도 4a는 SCGN의 학습 동안 픽셀단위 손실, 발산 손실과 λ 값을 나타낸 것이고, 도 4b는 픽셀단위 손실과 정규화 손실의 실제 값을 나타낸 것이다. 도 4a에 도시된 바와 같이 픽셀단위 손실 값과 KL 발산 값은 로그를 취한 다음 λ 값과 비교하기 위화 정규화된다. 도 4b에 도시된 바와 같이, 정규화 손실 값의 경우 KL 발산과 λ 값이 곱해진 값으로, λ 값이 너무 작으면 학습이 잠재 벡터와 이미지 간 일대일 매핑에 맞춰지기 때문에 생성된 이미지는 덜 흐려지지만, 공간 연속성을 유지하기 어려울 수 있다. 반면, λ 값이 너무 높으면 잠재 벡터에 대한 정규화 강도가 너무 강해지기 때문에 잠재 벡터가 잠재 공간에서 적절한 위치를 찾기 어렵다. 따라서, 본 발명은 학습 과정에서 λ를 천천히 증가시켜 상술한 두 가지를 모두 활용할 수 있다.

본 발명은 SCGN을 CelebA 데이터세트로 실험하기 위하여, 배치 크기를 1024로 설정하여 생성자와 잠재 벡터를 학습할 수 있다. 이는 샘플 수가 많을수록 학습에서 타겟 분포의 근사치가 더 우수하기 때문이다.

도 5와 도 6은 DFC-VAE(b)와 BEGAN(boundary equilibrium generative adversarial networks)(c) 모델들의 결과와 비교한 SCGN(a)의 생성 이미지와 공간 연속성에 대한 예시도를 나타낸 것이다. 여기서, DFC-VAE와 BEGAN은 SCGN과 유사한 네트워크 구조를 가지고 있으나, SCGN보다 약 2배와 3배 더 복잡하다.

도 5와 도 6을 통해 알 수 있듯이, SCGN은 VAE보다 덜 흐린 이미지를 생성하고, BEGAN에서 생성된 이미지와 비슷한 이미지를 생성하는 것을 알 수 있다. 생성 모델은 픽셀 공간에서 이미지를 성공적으로 생성할 뿐만 아니라 매니폴드 공간에서 연속성을 가지는 것이 매우 중요하다. 본 발명의 SCGN은 잠재 벡터가 분포 샘플링으로 주어진 값이 아닌 특정 값으로 구성되어 있기 때문에 다른 모델보다 공간 연속성이 형성하기 어렵지만, 도 6에 도시된 바와 같이 SCGN의 공간 연속성이 잘 구성된 것을 알 수 있다. 또한, SCGN이 BEGAN보다 덜 명확한 결과를 보여주지만 Mode Collapsing없이 전체 데이터를 학습할 수 있다는 점에서 유리하다.

이와 같이, 본 발명은 하나의 네트워크를 포함하는 자기수렴 생성망(SCGN)을 제공하여 잠재 공간과 이미지 공간이 서서히 수렴하도록 함으로써, VAE처럼 잠재 공간을 샘플링할 필요가 없어서 구조적으로 단순하면서 생성 이미지가 흐려지는 문제를 완화할 수 있고, GAN과는 다르게 수렴된 잠재 공간과 출력이미지의 매핑을 알 수 있으므로 이미지 생성 시 원하는 이미지를 쉽게 생성할 수 있으며, 잠재공간과 학습 이미지가 일대일로 매핑되어 학습되므로 mode collapsing 이 발생하지 않아 학습이 수월하다.

또한, 본 발명의 실시예에 따른 SCGN은 기존 모델에 비해 여러 가지 장점이 있다. 첫 번째로 재구성 결과 GAN에서 많이 일어나는 Mode Collapsing이 없이 학습하기 쉬운 모델이다. 두 번째로 VAE 방법보다 덜 흐릿하고 사실적인 이미지를 만들 수 있는 모델이다. 세 번째로 Z와 X의 관계를 통해 잠재 공간에 대한 추론이 상대적으로 쉽다. 네 번째로 GAN 같은 모델에 비해 파라미터에 덜 민감하게 학습할 수 있다.

이러한 본 발명의 실시예에 따른 방법은 시스템으로 구현될 수 있으며, 시스템은 방법의 각 단계를 수행하는 개념적인 구성 수단을 포함할 수 있다. 예컨대, 본 발명의 일 실시예에 따른 자가수렴 생성망 학습 시스템은 학습 데이터 세트를 구성하는 학습 이미지와 잠재 공간을 쌍으로 매핑하는 매핑부, SCGN의 생성자에 대한 손실 함수와 잠재 공간에 대한 손실 함수를 정의하는 정의부와 생성자에 대한 손실 함수와 잠재 공간에 대한 손실 함수를 이용하여 SCGN의 가중치와 잠재 벡터를 교대로 학습하는 학습부를 포함할 수 있다.

매핑부는 미리 설정된 표준 편차의 정규 분포를 사용하여 무작위로 잠재 공간을 초기화하고, 잠재 공간과 이미지 공간이 쌍을 이룸으로써, 잠재 공간과 이미지 공간을 일대일로 매핑할 수 있다.

정의부는 잠재 공간과 이미지 공간 사이의 관계를 획득하고, KL 발산을 사용하여 잠재 공간을 미리 설정된 타겟 공간 내에 제한함으로써, SCGN의 손실 함수를 정의할 수 있다.

학습부는 KL(Kullback-Leibler) 발산 및 픽셀 단위 손실에서 파생된 손실 함수를 사용하여 잠재 벡터가 정규 분포를 따르도록 학습할 수 있다.

나아가, 학습부는 학습 과정에서, 잠재 공간이 자가 수렴하여 정규 분포를 따르도록 SCGN을 학습할 수 있다.

물론, 본 발명의 실시예들에 따른 시스템은 상기 도 1 내지 도 6에서 설명한 모든 내용을 포함할 수 있으며, 이는 본 발명의 기술 분야에 종사하는 당업자에게 있어서 자명하다.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

학습 데이터 세트를 구성하는 학습 이미지와 잠재 공간(latent space) 벡터를 쌍으로 매핑하는 단계;
자기수렴 생성망의 생성자에 대한 손실 함수와 잠재 공간에 대한 손실 함수를 정의하는 단계; 및
상기 생성자에 대한 손실 함수와 상기 잠재 공간에 대한 손실 함수를 이용하여 상기 자기수렴 생성망의 가중치와 잠재 벡터를 학습하는 단계
를 포함하는 자기수렴 생성망 학습 방법.
제1항에 있어서,
상기 학습하는 단계는
KL(Kullback-Leibler) 발산 및 픽셀 단위 손실에서 파생된 손실 함수를 사용하여 상기 잠재 벡터가 정규 분포를 따르도록 학습하는 것을 특징으로 하는 자기수렴 생성망 학습 방법.
제1항에 있어서,
상기 학습하는 단계는
학습 과정에서, 상기 잠재 공간이 자가 수렴하여 정규 분포를 따르도록 상기 자기수렴 생성망을 학습하는 것을 특징으로 하는 자가수렴 생성망 학습 방법.
제1항에 있어서,
상기 매핑하는 단계는
미리 설정된 표준 편차의 정규 분포를 사용하여 무작위로 상기 잠재 공간을 초기화하고, 상기 잠재 공간과 이미지 공간이 쌍을 이룸으로써, 상기 잠재 공간과 상기 이미지 공간을 일대일로 매핑하는 것을 특징으로 하는 자가수렴 생성망 학습 방법.
제1항에 있어서,
상기 정의하는 단계는
상기 잠재 공간과 이미지 공간 사이의 관계를 획득하고, KL 발산을 사용하여 상기 잠재 공간을 미리 설정된 타겟 공간 내에 제한함으로써, 상기 자기수렴 생성망의 손실 함수를 정의하는 것을 특징으로 하는 자기수렴 생성망 학습 방법.
제1항에 있어서,
상기 학습하는 단계는
상기 자기수렴 생성망의 가중치와 잠재 벡터를 교대로 학습하는 것을 특징으로 하는 자기수렴 생성망 학습 방법.
학습 데이터 세트를 구성하는 학습 이미지와 잠재 공간(latent space) 벡터를 쌍으로 매핑하는 매핑부;
자기수렴 생성망의 생성자에 대한 손실 함수와 잠재 공간에 대한 손실 함수를 정의하는 정의부; 및
상기 생성자에 대한 손실 함수와 상기 잠재 공간에 대한 손실 함수를 이용하여 상기 자기수렴 생성망의 가중치와 잠재 벡터를 학습하는 학습부
를 포함하는 자기수렴 생성망 학습 시스템.
제7에 있어서,
상기 학습부는
KL(Kullback-Leibler) 발산 및 픽셀 단위 손실에서 파생된 손실 함수를 사용하여 상기 잠재 벡터가 정규 분포를 따르도록 학습하는 것을 특징으로 하는 자기수렴 생성망 학습 시스템.
제7항에 있어서,
상기 학습부는
학습 과정에서, 상기 잠재 공간이 자가 수렴하여 정규 분포를 따르도록 상기 자기수렴 생성망을 학습하는 것을 특징으로 하는 자가수렴 생성망 학습 시스템.
제7항에 있어서,
상기 매핑부는
미리 설정된 표준 편차의 정규 분포를 사용하여 무작위로 상기 잠재 공간을 초기화하고, 상기 잠재 공간과 이미지 공간이 쌍을 이룸으로써, 상기 잠재 공간과 상기 이미지 공간을 일대일로 매핑하는 것을 특징으로 하는 자가수렴 생성망 학습 시스템.
제7항에 있어서,
상기 정의부는
상기 잠재 공간과 이미지 공간 사이의 관계를 획득하고, KL 발산을 사용하여 상기 잠재 공간을 미리 설정된 타겟 공간 내에 제한함으로써, 상기 자기수렴 생성망의 손실 함수를 정의하는 것을 특징으로 하는 자기수렴 생성망 학습 시스템.
제7항에 있어서,
상기 학습부는
상기 자기수렴 생성망의 가중치와 잠재 벡터를 교대로 학습하는 것을 특징으로 하는 자기수렴 생성망 학습 시스템.