KR102288759B1 - 적대적 생성신경망에서의 조절 가능한 데이터셋 생성 방법 및 장치 - Google Patents

적대적 생성신경망에서의 조절 가능한 데이터셋 생성 방법 및 장치 Download PDF

Info

Publication number
KR102288759B1
KR102288759B1 KR1020210039530A KR20210039530A KR102288759B1 KR 102288759 B1 KR102288759 B1 KR 102288759B1 KR 1020210039530 A KR1020210039530 A KR 1020210039530A KR 20210039530 A KR20210039530 A KR 20210039530A KR 102288759 B1 KR102288759 B1 KR 102288759B1
Authority
KR
South Korea
Prior art keywords
input
conditional
feature space
image
condition
Prior art date
Application number
KR1020210039530A
Other languages
English (en)
Inventor
박인규
파르호드
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020210039530A priority Critical patent/KR102288759B1/ko
Application granted granted Critical
Publication of KR102288759B1 publication Critical patent/KR102288759B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • G06N3/0481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

적대적 생성신경망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 방법 및 장치가 제시된다. 본 발명에서 제안하는 적대적 생성신경망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 방법은 특징 공간 학습부를 통해 입력 레이어에서 조건부 특징 공간의 매개 변수를 기준으로 입력을 매핑하기 위해 입력에 대하여 조건부 특징 공간을 학습하는 단계, 학습된 특징 공간의 매개 변수를 기준으로 조건부 변환부를 통해 입력에 대한 조건부 변환을 수행하는 단계 및 최적화부를 통해 목적 함수를 사용하여 조건부 변환을 최적화하고, 최적화된 조건부 정보에 따라 입력을 매핑하여 합성 영상을 생성하는 단계를 포함한다.

Description

적대적 생성신경망에서의 조절 가능한 데이터셋 생성 방법 및 장치{Method and Apparatus for Construction of Controllable Image Dataset in Generative Adversarial Networks}
본 발명은 적대적 생성신경망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 방법 및 장치에 관한 것이다.
데이터셋은 실제 시나리오를 이해하는 학습 기반 방법을 가르치는 데 있어 핵심 요소이다. 그러나 데이터셋은 종종 훈련 단계에 필요한 충분한 수의 샘플이 부족한 반면, 고도로 효율적인 딥 러닝 알고리즘을 훈련하려면 광범위한 변형을 포괄하는 대규모 데이터셋이 필요하다. 이러한 상황에서 데이터셋 생성은 이러한 문제를 극복할 수 있는 확실한 방법이다. 그러나 구성 자체가 시간뿐 아니라 재원 마련을 요구하는 지루한 과정이다. 최근, 적대적 생성망(Generative Adversarial Networks; GAN)[1]은 영상 합성 [2], [3], [5], [6], [7], 초고해상도 [8], [9], [11], 영상 간 변환 [12], [13], [15], 영상 스타일 전송 [16], [17], [18] 및 손실 압축에서 두드러진 결과를 낳았다. 실제로 이러한 연속적인 애플리케이션은 GAN을 영상 생성 및 추가 데이터셋 생성을 위한 강력한 기반으로 사용할 가능성을 보여준다. GAN[1]은 생성자와 판별기 모듈 사이의 제로섬 비협조 게임(zero-sum non-cooperative game)을 사용하여 훈련된다. 이러한 경쟁 프로세스는 학습된 분포와 실제 분포 간의 불일치를 최소화하여 저차원 또는 고차원 입력(노이즈 또는 영상)에서 사실적이고 선명한 영상을 생성할 수 있다. 여러 연구[20], [21], [22], [23], [12], [24]는 생성을 제어하고 기존 컨텍스트와 일관성을 유지하기 위해 GAN을 보강할 수 있는 가능성을 보여주었다. 또한, 측면 정보를 조건화 요소로 도입하면 GAN 성능이 향상되는 것으로 나타났다 [22], [25].
최근 GAN의 영상 생성 프로세스를 제어하기 위한 여러 시도가 있었다. 생성자 모듈의 초기 단계에서 입력과 조건을 연결하는 것이 가장 초기 접근 방식이며, 바닐라(vanilla) GAN을 조건부 GAN(conditional GAN; cGAN) 설정[20]으로 확장한다. 이러한 접근 방식은 입력과 출력 사이에 결정론적 관계를 형성하여 생성을 제어하는 데 도움이 된다. cGAN의 전략은 영상 기반 조건을 고려하여 소스 영상을 다른 도메인으로 변환하려는 영상 간 변환 작업[12], [26], [27], [28], [29]에도 성공적으로 사용되었다. 일부 연구[30], [31]은 선형 레이어를 통해 얻은 조건의 학습된 표현과 초기 레벨 정보를 연결하여 생성자를 조건화했다.
대조적으로, 여러 다른 방법[3], [25], [32], [33], [34], [16], [35]는 비적응 매개변수(즉, 스케일 및 이동)를 입력 의존 매개변수로 대체하여 정규화 기법[36]을 통해 생성자의 히든 레이어(hidden layers)에 조건부 정보(가끔 노이즈와 함께)를 도입한다. 특히 이러한 매개변수는 임베딩 기능을 활용하여 조건을 기반으로 학습된다. 생성 프로세스에 조건부 컨텍스트를 삽입하기 위한 대안 정규화 기법[37], [38]이 이러한 대표 연구에서 활용된다[5], [7], [13], [39].
기존 연구에서 사용된 또 다른 실용적인 접근법[40], [41]은 주어진 조건의 의미를 포착하는 통계 정보(즉, 평균과 분산)에 의존한다. 또한 이 정보는 임의로 샘플링된 노이즈와 연결되어 생성자 입력으로 공급된다. 유사한 방식으로 [42]는 노이즈 및 조건의 관련 입력을 기반으로 그러한 통계 정보를 얻었으며, 영상 생성의 잠재 변수를 샘플링하는 데 사용되었다.
앞에서 언급한 방법은 연결된 표현을 기반으로 영상을 생성하며, 이는 영상 생성 프로세스에 대한 두 가지 중요한 정보가 간단하고 직접적으로 함께 활용된다는 것을 의미한다. 직관적으로, 조건은 컨텍스트를 정의하는 제어 요소로 간주될 수 있는 반면, 입력(노이즈 또는 영상)은 생성된 영상의 다양성과 정확도를 책임진다. 이 경우 매핑 작업을 수행하는 생성자는 입력과 조건 사이의 고차 상호작용을 학습해야 하는 전체 의무를 지우고 후속 레이어에 대해 신뢰할 수 있는 기능을 제공해야 한다. 주어진 상황에 따라 조절된 생성자는 랜덤 노이즈 정보를 무시한다고 보고되었다 [43], [26], [27]. 또한 조건이 단일 클래스 레이블이 아니라 다중 클래스 레이블의 형태로 되어 학습 과정의 복잡성을 증가시킬 수 있는 경우가 있을 수 있다. 예를 들어 다양한 성별, 나이, 표현 클래스에 해당하는 여러 속성을 가진 얼굴 영상의 생성이다.
이러한 경우를 고려하여, 조건부 정보를 자체적으로 활용할 수 있는 다른 관점에서 생성자를 조건화하는 방안을 필요로 한다.
본 발명이 이루고자 하는 기술적 과제는 조건부 변환(Conditional Transformation; CT) 프레임워크를 GAN에 적용하여 조건이 생성 과정을 제어하도록 주어진 조건부 정보만 사용하는 방법 및 장치를 제공하는데 있다. 제안하는 프레임워크의 새로운 점은 조건 간의 관계를 학습하여 조건부 특징 공간을 결정하고 이 정보를 사용하여 특정 조건의 함수로 지정된 입력을 변환하고자 한다.
일 측면에 있어서, 본 발명에서 제안하는 적대적 생성신경망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 방법은 특징 공간 학습부를 통해 입력 레이어에서 조건부 특징 공간의 매개 변수를 기준으로 입력을 매핑하기 위해 입력에 대하여 조건부 특징 공간을 학습하는 단계, 학습된 특징 공간의 매개 변수를 기준으로 조건부 변환부를 통해 입력에 대한 조건부 변환을 수행하는 단계 및 최적화부를 통해 목적 함수를 사용하여 조건부 변환을 최적화하고, 최적화된 조건부 정보에 따라 입력을 매핑하여 합성 영상을 생성하는 단계를 포함한다.
특징 공간 학습부를 통해 입력 레이어에서 조건부 특징 공간의 매개 변수를 기준으로 입력을 매핑하기 위해 입력에 대하여 조건부 특징 공간을 학습하는 단계는 비선형 활성 함수를 갖는 완전 연결 레이어 형태의 MLP(Multi Layer Perceptron)를 포함하는 특징 공간 학습부에서 특정 조건에만 해당하는 차별적 공간을 정의하고, 각 조건에 대한 특징 공간을 찾으며, 다중 조건을 포함하는 영상을 생성하는 경우, 다중 조건 기반의 다중 클래스 레이블을 단일 클래스 레이블의 원 핫 표현의 연결로 나타내도록 제어한다.
학습된 특징 공간의 매개 변수를 기준으로 조건부 변환부를 통해 입력에 대한 조건부 변환을 수행하는 단계는 적대적 생성 신경망의 생성자에 대한 입력이 영상을 생성하기 위한 원하는 조건과 정렬되도록 학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하고, 사용 가능한 모든 조건에 대해 두 개의 독립 선형 함수를 이용하여 생성자에 대한 입력의 변환이 해당 조건에 대해서만 수행되도록 매핑한다.
본 발명의 실시예에 따르면, 학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하기 위해 생성자에 대한 입력을 매개 변수를 기준으로 크기 조정 및 이동하여 영상을 생성하기 위한 해당 조건의 함수로 매핑하고, 생성 과정의 입력 레이블에서 매핑을 수행하기 위해 해당 조건을 대상 도메인의 내용을 정의하는 매개 변수로 나타낸다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 적대적 생성신경망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 장치는 입력 레이어에서 조건부 특징 공간의 매개 변수를 기준으로 입력을 매핑하기 위해 입력에 대하여 조건부 특징 공간을 학습하는 특징 공간 학습부, 학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하는 조건부 변환부 및 목적 함수를 사용하여 조건부 변환을 최적화하고, 최적화된 조건부 정보에 따라 입력을 매핑하여 합성 영상을 생성하는 최적화부를 포함한다.
본 발명의 실시예들에 따르면 조건부 변환(Conditional Transformation; CT) 프레임워크를 GAN에 적용하여 조건이 생성 과정을 제어하도록 주어진 조건부 정보만 사용할 수 있다. 제안하는 프레임워크의 새로운 점은 조건 간의 관계를 학습하여 조건부 특징 공간을 결정하고 이 정보를 사용하여 특정 조건의 함수로 지정된 입력을 변환하며, 조건부 변환은 입력 레이어에서 작동하므로, 가장 많은 생성자 네트워크에 쉽게 대비함으로써 다양한 GAN과 함께 사용될 수 있다. 본 발명의 실시예들에 따르면 영상 합성 및 영상 간 변환 작업을 위한 생성 프로세스를 신뢰할 수 있는 제어 기능을 제공하는 간단하면서도 효율적인 프레임워크를 제안하고, 이를 통해 생성자 입력의 변환이 조건(예를 들어, 단일/다중 클래스)에 한정되도록 하여 원하는 영상의 생성을 용이하게 한다.
도 1은 본 발명의 일 실시예에 따른 생성자 네트워크 G를 조절하는 방법의 개념적 비교를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 적대적 생성망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 이미지 변환 작업을 위해 제안하는 프레임워크를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 적대적 생성망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 장치의 구성을 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 조건부 변환된 노이즈와 FACES 데이터셋에서 생성된 해당 이미지의 2D 산점도를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 1D 및 2D 합성 MOG 데이터셋의 샘플 품질을 비교하는 도면이다.
도 7은 본 발명의 일 실시예에 따른 1 차원 원본 및 생성된 분포에서 평가된 MMD 거리를 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 RaFD 데이터셋의 얼굴 표정 변환에 대한 StarGAN과 제안하는 접근 방식을 비교하는 도면이다.
도 9는 본 발명의 일 실시예에 따른 접근 방식의 CelebA 데이터셋 안면 속성 변환 결과를 나타내는 도면이다.
본 발명에서는 조건부 변환(Conditional Transformation; CT) 프레임워크라는 GAN에 새로운 아키텍처 추가를 제안한다. 종래기술과는 달리, 제안하는 프레임워크는 조건이 생성 과정을 제어하도록 주어진 조건부 정보만 사용하는 데 초점을 맞춘다. 제안하는 프레임워크의 새로운 점은 조건 간의 관계를 학습하여 조건부 특징 공간을 결정하고 이 정보를 사용하여 특정 조건의 함수로 지정된 입력을 변환한다는 것이다. 조건부 변환은 입력 레이어에서 작동하므로, 가장 많은 생성자 네트워크에 쉽게 대비함으로써 다양한 GAN과 함께 사용될 수 있다.
본 발명의 실시예에 따르면, 영상 합성 및 영상 간 변환 작업을 위한 생성 프로세스를 신뢰할 수 있는 제어 기능을 제공하는 간단하면서도 효율적인 프레임워크를 제시한다. 제안하는 프레임워크는 생성자 입력의 변환이 조건(예를 들어, 단일/다중 클래스)에 한정되도록 하여 원하는 영상의 생성을 용이하게 한다.
본 발명의 실시예에 따르면, 제안하는 프레임워크는 조건 별 영상 생성을 효과적으로 제어하므로 영상 데이터셋 생성에서 대규모 데이터 증대를 위한 대안이 될 수 있다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 생성자 네트워크 G를 조절하는 방법의 개념적 비교를 나타내는 도면이다.
도 1(a)는 이미지 합성 작업을 위한 조건 c와 입력 노이즈 z의 연결을 사용하는 종래의 접근 방식을 나타내는 도면이고, 도 1(b)는 이미지-대-이미지 변환 작업에 대한 조건 c와 입력 이미지 I의 연결을 사용하는 종래기술의 접근 방식을 나타내는 도면이고, 도 1(c)는 랜덤 또는 이미지 분포 Ω에서 샘플링된 입력 p를 조건부로 변환하는 제안하는 방법을 나타내는 도면이다. 여기서,
Figure 112021035811128-pat00001
기호는 연결을 나타낸다.
조건부 GAN(cGAN)[20]은 추가 정보가 있는 조건화 생성자를 위한 접근법이다. 조건화 프로세스는 공통 은닉 표현(joint hidden representation)에서 노이즈 z와 결합되는 추가 입력으로 측면 정보를 단순히 공급함으로써 수행된다(도 1a). 그 후, 여러 연구[3], [31], [33], [25]는 생성자의 조건을 충족하기 위해 선형 및/또는 임베딩 레이어를 사용하는 것과 같은 고급 전략을 채택하기 시작했다. LSGAN [31]은 선형 레이어를 사용하여 입력 노이즈와 연결하기 위해 많은 수의 클래스 벡터의 컴팩트한 표현을 얻는다. 임베딩 레이어는 광범위하게 적용되는 또 다른 전략이다 [3], [33], [25]. [3]과 [33]에서 임베딩 레이어는 조건부 배치 정규화 레이어(Conditional Batch Normalization layers; CBN) [16], [35]를 사용하여 생성자에 주입하기 위한 레이블 정보의 스케일링 및 이동 매개변수(즉, 각
Figure 112021035811128-pat00002
Figure 112021035811128-pat00003
)를 얻는 데 활용되었다. 마찬가지로, sBN [25]는 동일한 것을 사용하여 배치 정규화[36]를 통해 생성자의 중간 특징 맵을 변조하고 클래스 레이블의 z와 두 훈련 가능한 임베딩 함수 사이의 이선형 상호 작용(bi-linear interaction)을 고려하여 얻었다. 일반적으로 적용되는 또 다른 접근 방식은 적응형 인스턴스 정규화(Adaptive Instance Normalization; AdaIN)[37] 및 공간 적응 정규화(Spatially Adaptive Normalization; SPADE)[38]이다. 이러한 정규화 기법이 styleGAN [5], StarGAN v2 [13], AMGAN [39] 등에 성공적으로 적용되었다. 실질적인 해결책으로 StackGAN [40]과 향상된 버전 [41]은 생성자에 대한 입력을 샘플링하기 위해 주어진 조건의 평균 및 분산 매개변수를 학습하려고 시도한다. 조건이 별도로 활용되고 있지만 입력 수준의 노이즈와 연결된다. 마찬가지로 VCGAN[42]은 노이즈와 함께 조건이 주어진 생성자에 대한 입력으로 잠재 변수를 샘플링하기 위해 선형 레이어를 사용하여 평균
Figure 112021035811128-pat00004
와 공분산
Figure 112021035811128-pat00005
을 추정하는 방법을 적용한다.
영상 간 변환 도메인에서는 생성자의 조건화를 위한 다음과 같은 전략이 적용되었다. 종래기술[23], Invertible cGAN에는 두 개의 독립적인 인코더가 장착되어 주어진 입력 영상을 잠재 표현 및 조건부 정보로 반전시키고 cGANs [20] 설정에서 연결을 추가로 사용했다. 한편, 속성 정보의 변화는 수정된 영상을 생성하기 위해 적용되었다. 이러한 조건부 포지셔닝을 이용하여 [24]에서는 영상 변환 작업을 안내하기 위해 CycleGAN[44]을 조건화했다. 특히 G의 입력 레이어에서 입력 영상은 영상 차원에 맞게 크기가 조정된 조건부 벡터와 연결되었다. StarGAN[12]은 조건을 가진 영상의 채널별 연결에서 이 전략을 채택하지만 단일 생성자와 판별기를 훈련시키는 것을 목표로 한다(도 1b).
본 발명에서 제안하는 적대적 생성망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 방법에 있어서, 조건부 영상 생성의 문제 공식에 관하여 설명한다.
생성자 G의 조건별 영상 생성 프로세스를 제어하기 위해 제안된 프레임워크 CT(conditional transformation)는 각 분포에서 도출된 노이즈/영상 p ∈ P 및 조건 c ∈ A를 고려한다. 특히 p는 속성 공간 A의 조건 c에 의해 지정된 도메인에 매핑되는 작업 의존적 입력이다. 제안하는 프레임워크는 p'로 표시된 변환된 p를 제공하는 것을 목표로 하며, 이는 주어진 조건부 정보의 특징을 가질 것으로 예상된다. 제어 달성을 위해 이러한 입력을 합성된 형태로 사용하는 접근 방식과 달리, 본 발명에서 제안하는 프레임워크는 조건만 기반으로 입력을 변환한다(도 1(c)).
도 2는 본 발명의 일 실시예에 따른 적대적 생성망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 방법을 설명하기 위한 흐름도이다.
적대적 생성 신경망을 기반으로 하는 종래기술들은 입력과 조건을 단순히 연결하여 생성 과정을 진행한다. 하지만, 이 때 입력과 함께 고려되는 조건들은 신뢰성 있는 생성을 위해 충분히 활용되지 않는 문제점이 있다.
본 발명에서는 생성자 입력 시 조건부 매핑을 수행하여 생성적 모델을 제어하는 새로운 접근 방식을 제시한다. 본 발명의 실시예에 따르면, 영상 간 전환 작업에서 다양한 얼굴 속성을 조건으로 입력할 때 제안하는 접근 방식이 종래기술들에 비해 보다 효율적이다. 제안하는 적대적 생성망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 방법은 입력과 조건을 단순히 연결하는 대신에 입력을 주어진 조건의 함수로 매핑한다. 생성 과정의 입력 레이어에서 이러한 매핑 단계를 수행하기 위해 조건을 대상 도메인의 내용을 정의하는 명시적 제어 매개 변수로 간주한다.
제안하는 적대적 생성망에서 조건부 변환 입력을 이용한 제어 가능한 영상 데이터셋 생성 방법은 특징 공간 학습부를 통해 입력 레이어에서 조건부 특징 공간의 매개 변수를 기준으로 입력을 매핑하기 위해 입력에 대하여 조건부 특징 공간을 학습하는 단계(210), 학습된 특징 공간의 매개 변수를 기준으로 조건부 변환부를 통해 입력에 대한 조건부 변환을 수행하는 단계(220) 및 최적화부를 통해 목적 함수를 사용하여 조건부 변환을 최적화하고, 최적화된 조건부 정보에 따라 입력을 매핑하여 합성 영상을 생성하는 단계(230)를 포함한다.
단계(210)에서, 특징 공간 학습부를 통해 입력 레이어에서 조건부 특징 공간의 매개 변수를 기준으로 입력을 매핑하기 위해 입력에 대하여 조건부 특징 공간을 학습한다.
비선형 활성 함수를 갖는 완전 연결 레이어 형태의 MLP(Multi Layer Perceptron)를 포함하는 특징 공간 학습부에서 특정 조건에만 해당하는 차별적 공간을 정의하고, 각 조건에 대한 특징 공간을 찾는다. 다중 조건을 포함하는 영상을 생성하는 경우, 다중 조건 기반의 다중 클래스 레이블을 단일 클래스 레이블의 원 핫 표현의 연결로 나타내도록 제어한다.
클래스 레이블을 조건 인자로 지정하면, 각 조건 c 의 학습된 매개 변수를 기준으로 입력을 매핑한다. 이를 위해, 조건들의 기반 특징을 학습하고, 오직 특정 조건에만 대응하는 판별 매개 변수를 정의하는 네트워크를 고려한다. 네트워크는 c 의 원-핫(one-hot) 표현인 벡터를 취하여 조건 관련 정보만을 학습하는 것을 보장한다. 네트워크는 출력 분기 두 개가 있는 MLP(Linear→ReLU세트)로 구성되어 사용 가능한 모든 조건에 대해 조건 매개 변수를 제공하고, 학습된 매개 변수를 기반으로 크기 조정 및 이동하여 입력을 조건부로 매핑한다.
단계(220)에서, 학습된 특징 공간의 매개 변수를 기준으로 조건부 변환부를 통해 입력에 대한 조건부 변환을 수행한다.
적대적 생성 신경망의 생성자에 대한 입력이 영상을 생성하기 위한 원하는 조건과 정렬되도록 학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하고, 사용 가능한 모든 조건에 대해 두 개의 독립 선형 함수를 이용하여 생성자에 대한 입력의 변환이 해당 조건에 대해서만 수행되도록 매핑한다.
학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하기 위해 생성자에 대한 입력을 매개 변수를 기준으로 크기 조정 및 이동하여 영상을 생성하기 위한 해당 조건의 함수로 매핑하고, 생성 과정의 입력 레이블에서 매핑을 수행하기 위해 해당 조건을 대상 도메인의 내용을 정의하는 매개 변수로 나타낸다.
제안하는 접근 방식은 다양한 기존 GAN 아키텍처들에 사용될 수 있다. 따라서, 다양한 작업에서 활용하기 위한 다양한 네트워크 구조에 제안하는 조건부 매핑 단계를 사용할 수 있다. 본 발명에서는 영상 간 변환 작업에 적용된 StarGAN을 이용하는데 이 방법은 조건부 영상 생성을 목표로 하고, 입력과 클래스 레이블의 연결에 의존하지만 제안하는 방법을 통해 연결 연산의 수행 대신, 매핑된 입력이 클래스 레이블을 나타내도록 입력에 적용하고, 변환된 영상을 생성하기 위해 매핑된 입력을 생성자에 공급한다.
본 발명의 실시예에 따른 프레임워크는 조건부 특징 공간 학습과 입력에서 학습된 특징의 조건부 변환의 두 단계로 구성된다. 이것은 조건부 벡터를 가장 잘 나타내는 특징을 학습하고 이 정보를 입력에 적용하기 위한 것이다. 이러한 변환을 통해 각 입력은 특정 조건에 해당하는 특정 차별적 공간에 속하며, 원하는 영상을 생성한다.
조건부 특징 공간 학습 단계에서는, 조건 c의 주어진 레이블에서 조건부 특징 공간을 학습한다. 특히 이 단계는 특정 조건에만 해당하는 차별적 공간을 정의한다. 주어진 각 조건에 대한 특징 공간을 찾기 위해, 본 발명에서는 비선형 활성 함수(non-linear activation functions)를 갖는 있는 완전 연결 레이어(fully connected layers)의 형태로 MLP로 구성된 네트워크를 제안한다.
먼저, 입력 레이어의 단위 수를 조건부 클래스 수에 가깝게 설정하고 p의 차원을 고려하면서 마지막 레이어까지 모든 후속 레이어에서 이 수를 2배 증가시킨다. 특히, 고차 상호작용을 사용하면 특징 간의 복잡한 관계를 학습하고 각 c에 대한 조건부 공간의 표현력을 향상시킬 수 있기 때문에 이 옵션을 선택한다. 더욱이, 본 발명의 실시예에 따른 목표는 조건부 벡터가 주어진 특징 공간 인코딩을 학습하는 것이기 때문에 이러한 구성은 인코더를 위한 것으로 간주될 수 있다. 학습된 조건부 특징 공간 정보는 다음과 같이 표현할 수 있다:
Figure 112021035811128-pat00006
(1)
여기서
Figure 112021035811128-pat00007
는 비선형 활성화 함수(예를 들어, ReLU, Leaky ReLU)이고, W는 완전히 연결된 레이어의 학습된 가중치이며, b는 바이어스 항(term)이고, c는 명령 함수
Figure 112021035811128-pat00008
를 통해 원 핫 벡터로 표현되는 클래스 레이블이다:
Figure 112021035811128-pat00009
(2)
다시 말해, 이 함수는 레이블을 요소 c의 1과 다른 요소 0을 포함하는 1차원 벡터에 재구성한다. 따라서 c는 단일 조건 기반 레이블을 인코딩하는 원 핫 벡터이다. 그러나 데이터셋 생성에서는 다중 속성을 포함하는 영상을 생성해야 할 수 있다. 제안하는 프레임워크 구조는 이러한 프로세스를 간단히 제어할 수 있도록 한다.
제안하는 프레임워크에서는 다중 조건 기반 레이블을 단일 클래스 레이블의 원 핫 표현의 연결로 나타낼 수 있다. 예를 들어, 성별 cg, 나이 ca, 표현 ce와 같은 조건을 가진 얼굴 영상을 생성하기 위해, 본 발명에서는 식(2)를 사용하여 이러한 조건들을 별도로 재구성한 다음, 연결 연산을 나타내는
Figure 112021035811128-pat00010
로 입력을 형성하고 식(1)를 적용하여
Figure 112021035811128-pat00011
를 얻을 수 있다. 이 간단한 방법을 통해 제안하는 프레임워크는 다양한 영상 속성의 관계를 학습하고 주어진 레이블 집합에 대해 신뢰할 수 있는 조건부 공간
Figure 112021035811128-pat00012
를 효과적으로 추정할 수 있다.
다음으로, 입력에서 학습된 특징의 조건부 변환을 수행한다.
제안하는 프레임워크의 두 번째 단계는 조건부 공간
Figure 112021035811128-pat00013
의 학습된 특징을 입력 p에 직접 연결하는 대신, 입력을 조건부 특징 공간 정보로 변환하여 생성자에 대한 입력이 원하는 조건과 정렬되도록 한다.
본 발명에서는 아핀(affine) 매개변수를 학습하기 위해 두 개의 독립적인 선형 함수
Figure 112021035811128-pat00014
Figure 112021035811128-pat00015
를 고려하는데, 이 매개변수는 해당하는 단일/다중 조건에서만 영상을 생성하기 위한 조건부 공간 특징에 따른 각각 스케일링 및 시프트 p이다. 곱셈 및 가산 변조가 일반적으로 적용되는 연산[5], [16], [35]이므로, 이러한 변조를 선택한다. 이러한 변환은 다음과 같이 표현할 수 있다:
Figure 112021035811128-pat00016
(3)
여기서
Figure 112021035811128-pat00017
는 요소별 곱을 나타낸다. 여기서 채널별 스케일링 계수 및 가산 이동 항은 다음에 따라
Figure 112021035811128-pat00018
에 직접적으로 의존한다:
Figure 112021035811128-pat00019
(4)
여기서 Wg와 Wb는 완전 연결 레이어의 학습된 가중치이다.
이후 G는 조건부로 변환된 p' 를 기반으로 영상을 생성하기 위해
Figure 112021035811128-pat00020
의 함수를 학습한다.
도 3은 본 발명의 일 실시예에 따른 이미지 변환 작업을 위해 제안하는 프레임워크를 나타내는 도면이다.
도 3을 참조하면, 주어진 입력(다시 말해, 중립 표현) 이미지를 제안하는 프레임워크를 사용하여 분노 표현으로 변환하는 조건부 변환 과정을 나타낸다. 기존 작업과 비교하여, 제안하는 프레임워크는 단일 클래스 레이블뿐만 아니라 다중 클래스 기반 레이블에 따른 입력의 조절을 처리할 수 있으므로 고차 상호작용의 학습을 용이하게 하고 제어 가능하고 복잡한 영상 생성을 가능하게 한다.
다시 도 2를 참조하면, 단계(230)에서 최적화부를 통해 목적 함수를 사용하여 조건부 변환을 최적화하고, 최적화된 조건부 정보에 따라 입력을 매핑하여 합성 영상을 생성한다.
본 발명에서 제안하는 프레임워크는 생성자 네트워크에 대한 입력을 조건부로 변환하여 영상 생성 프로세스를 제어하는 것을 목표로 한다. 조건은 제어 요소로 간주되기 때문에, 제안하는 프레임워크가 목표 분포의 적절한 조건별 정보를 학습하고 있는지 확인할 필요가 있다. 이를 위해서는 프레임워크를 감독하기 위한 특정 정보를 제공하는 목표를 결정해야 한다. 프레임워크는 생성자와 연계되어 작동하므로 생성자를 통해 정보를 수신할 수 있다. 간단한 방법은 클래스 조건부 분류를 사용하여 신호를 제공하는 것이다. 교차 엔트로피 손실 함수는 다음과 같이 도메인 분포 특성을 학습하는 생성자뿐만 아니라 제안하는 프레임워크를 훈련시키기 위해 적용될 수 있다:
Figure 112021035811128-pat00021
(5)
여기서
Figure 112021035811128-pat00022
Figure 112021035811128-pat00023
는 각각 실제 레이블 및 예측 레이블 분포를 나타낸다.
종래기술[3], [13]는 내적을 통한 레이블 정보를 고려하거나 판별기 구조를 변경하여 각 도메인에 대해 여러 선형 출력 분기를 갖도록 변경함으로써 Hinge[3] 및 WGAN-GP[13]와 같은 적대적 조건을 조건부와 결합한 손실 함수를 채택하기 시작했다. 이러한 종래기술 모두가 조건부 요인을 고려함에 따라, 제안하는 프레임워크는 이러한 목표를 사용하여 쉽게 훈련될 수 있다.
본 발명의 일 실시예에 따르면, StarGAN 으로 구현된 접근 방식을 다음과 같은 목적 함수를 사용하여 최적화할 수 있다:
Figure 112021035811128-pat00024
(6)
Figure 112021035811128-pat00025
(7)
여기서
Figure 112021035811128-pat00026
Figure 112021035811128-pat00027
은 각각 적대적
Figure 112021035811128-pat00028
, 재구성
Figure 112021035811128-pat00029
및 도메인 분류 손실
Figure 112021035811128-pat00030
의 영향을 균형 게 조정하기 위한 가중치이다. 재구성 및 교차 엔트로 피에 대한
Figure 112021035811128-pat00031
을 도메인 분류 손실로 사용한다.
본 발명의 일 실시예에 따르면, 다음처럼 적대적으로 경사도 패널티(gradient penalty)를 가지는 Wasserstein GAN 을 사용할 수 있다:
Figure 112021035811128-pat00032
(7)
여기서
Figure 112021035811128-pat00033
는 실제 영상과 생성된 영상에서 나란히 균일하게 샘플링되며
Figure 112021035811128-pat00034
는 10으로 설정될 수 있다.
시각화(visualization)에 있어서, 조건별 영상을 생성하는 조건부 생성 모델은 이러한 영상이 자신의 차별적 공간에만 포함되도록 해야 한다. 예를 들어, "여성" 조건이 주어지면 영상은 해당 클래스에만 속해야 한다. 입력의 조건별 변환을 위해 두 단계로 구성된 본 발명의 실시예에 따른 프레임워크는 생성 프로세스에 필요한 측면을 유지한다. 조건별 공간을 결정함으로써, 프레임워크는 주어진 조건 벡터를 가장 잘 나타내는 아핀 매개변수를 얻고 따라서 입력을 해당 공간에만 대응하도록 변환한다.
도 5는 본 발명의 일 실시예에 따른 조건부 변환된 노이즈와 FACES 데이터셋에서 생성된 해당 이미지의 2D 산점도를 나타내는 도면이다.
도 5를 참조하면, 각 클러스터는 다양한 조건의 조합에 속하며 고유 색상으로 표시된다.
본 발명의 실시예에 따르면, t-SNE 접근 방식을 사용하여 2D 산점도를 생성한다[45]. 이를 위해, 36개의 주어진 고유 클래스(예를 들어, 클래스당 100개의 샘플)에 따라 3600개의 노이즈 샘플을 조건부로 변환하는 방법을 사용했다. 각 클래스는 여러 속성(예를 들어, 성별, 나이, 표현)의 조합을 나타낸다.
본 발명의 일 실시예에서는, 두 가지 성별(예를 들어, 남성, 여성), 세 가지 연령대(예를 들어, 젊은, 중간, 노인), 여섯 가지 표현(예를 들어, 분노, 혐오, 두려움, 행복, 중립, 놀라움)의 조합을 독특한 클래스를 만들기 위해 고려한다. 조건부로 변환된 3600개의 특징 벡터는 모두 t-SNE를 통해 저차원 표현으로 매핑된다. 2D 공간의 각 클러스터는 36개의 고유 클래스 중 하나를 나타낸다. 특히, 모든 변환된 노이즈는 고유한 조건부 공간에 해당하며 서로 겹치지 않는다. 이러한 분석은 제안하는 프레임워크에 의해 유지되는 견고하고 차별적인 제어를 확인한다.
MoG 합성 데이터에 있어서, 서로 다른 판별기 설정에서 제안하는 프레임워크의 성능을 분석한다. 이를 위해, 본 발명의 일 실시예에서는 Pc-GAN[3] 및 TAC-GAN[34]의 가우스 합성 데이터(Mixture of Gaussian; MoG) 및 판별기 접근법의 혼합을 사용한 실험을 고려한다. 구체적으로, 생성자 부분에서 제안하는 프레임워크를 사용하여 이러한 판별기의 분포 일치 능력을 비교한다. [34]의 경우, 입력과 임베딩 레이어의 출력을 연결함으로써 조건화 프로세스가 달성되었다. 여기서는 이러한 프로세스를 CT 기반 접근 방식으로 대체한다. [34]와 유사하게 본 발명의 일 실시예에서는 3개의 가우스 성분을 가진 1차원 및 2차원 MoG 분포에서 추출한 샘플을 활용한다. 실험이 조건 기반이기 때문에, 샘플이 [0 ~ 2] 범위의 클래스 중 하나로 분류되도록 보장한다. 성분의 표준 편차는
Figure 112021035811128-pat00035
,
Figure 112021035811128-pat00036
,
Figure 112021035811128-pat00037
으로 고정한다.
도 6은 본 발명의 일 실시예에 따른 1D 및 2D 합성 MOG 데이터셋의 샘플 품질을 비교하는 도면이다.
도 6에서는
Figure 112021035811128-pat00038
,
Figure 112021035811128-pat00039
,
Figure 112021035811128-pat00040
일 때 원래의 1D 및 2D 가우스 분포와 PCGAN[3], TAC-GAN[34] 및 CT-PcGAN[34]에서 생성된 추정 분포를 제시한다. 본 발명의 일 실시예에서는 커널 데이터 밀도를 추정하여 이러한 결과를 얻는다. 도 6을 참조하면, PcGAN과 TACGAN 모두 제안하는 프레임워크를 사용하여 원래의 분포를 정확하게 학습할 수 있다.
도 7은 본 발명의 일 실시예에 따른 1 차원 원본 및 생성된 분포에서 평가된 MMD 거리를 나타내는 도면이다.
여기서, dm은 인접한 가우스 성분의 평균 사이의 거리를 나타낸다.
도 7의 최대 평균 불일치(Maximum Mean Discrepancy; MMD)[46]를 보고하여 원래 분포와 생성된 분포 사이의 거리를 보여준다. 이 평가를 위해, 본 발명의 일 실시예에서는 [34]를 따르는 교차 엔트로피 로그 손실을 사용하여 모델을 훈련시킨다. 1D 및 2D 평가 모두에서 CT 기반 모델은 0에 가까운 거리를 달성하며 이는 생성된 분포가 원래 분포에 가깝다는 것을 의미한다. 이러한 분석을 통해 서로 다른 판별기 설정에 대한 제안하는 프레임워크의 직교성(orthogonality)을 확인할 수 있다.
도 8은 본 발명의 일 실시예에 따른 RaFD 데이터셋의 얼굴 표정 변환에 대한 StarGAN과 제안하는 접근 방식을 비교하는 도면이다.
본 발명의 실시예에서는 RaFD 및 CelebA 데이터셋의 레이블링된 얼굴 영상을 사용한다. StarGAN 은 연결 기반 조건화 과정을 수행하므로, 이 방법과 비교하여 제안하는 접근 방식의 성능을 정성적, 정량적으로 평가한다.
도 8은 정성적 평가를 보여준다. 제안하는 접근 방식의 변환된 결과는 표정에 대한 더욱 정확한 묘사를 보여준다. 특히, 역겨움, 행복, 놀라움의 표정은 StarGAN 과 비교하여 분명한 차이를 보여주는데, 제안하는 접근 방식은 입가에 세부적인 변화를 표현하고 있다.
도 9는 본 발명의 일 실시예에 따른 접근 방식의 CelebA 데이터셋 안면 속성 변환 결과를 나타내는 도면이다.
제안하는 접근 방식은, 표정 변환 외에 안면 속성 변환도 수행할 수 있다. 도 9는 검은색 머리, 금발, 남성, 창백한 피부 등 다양한 속성으로 생성된 영상을 보여준다. 주어진 입력 영상으로 변환된 영상은 해당 속성 종류에서 일관성을 보여준다. 종합적으로, 제시된 결과에서 제안하는 조건부 매핑 단계가 영상 변환에서 더 효율적 임을 확인할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
<참고자료>
[1] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, "Generative adversarial nets," in Proc. of Advances in Neural Information Processing Systems, 2014, pp.
2672-2680. 1
[2] T. Karras, T. Aila, S. Laine, and J. Lehtinen, "Progressive growing of GANs for improved quality, stability, and variation," in Proc. Of International Conference on Learning Representations, 2018. 1, 5
[3] T. Miyato and M. Koyama, "cGANs with projection discriminator," in Proc. of International Conference on Learning Representations, 2018.1, 2, 4, 5, 6
[4] A. Brock, J. Donahue, and K. Simonyan, "Large scale GAN training for high fidelity natural image synthesis," in Proc. of International Conference on Learning Representations, 2019. 1
[5] T. Karras, S. Laine, and T. Aila, "A style-based generator architecture for generative adversarial networks," in Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 4401-4410. 1, 2, 4
[6] Y. Guo, Q. Chen, J. Chen, Q. Wu, Q. Shi, and M. Tan, "Auto-embedding generative adversarial networks for high resolution image synthesis," IEEE Transactions on Multimedia, vol. 21, no. 11, pp. 2726-2737, 2019.1
[7] T. Karras, S. Laine, M. Aittala, J. Hellsten, J. Lehtinen, and T. Aila,"Analyzing and improving the image quality of StyleGAN," in Proc. Of IEEE Conference on Computer Vision and Pattern Recognition, 2020,pp. 8110-8119. 1
[8] S. Bell-Kligler, A. Shocher, and M. Irani, "Blind super-resolution kernel estimation using an Internal-GAN," in Proc. of Advances in Neural Information Processing Systems, 2019, pp. 284-293. 1
[9] T. R. Shaham, T. Dekel, and T. Michaeli, "SinGAN: Learning a generative model from a single natural image," in Proc. of IEEE International Conference on Computer Vision, 2019, pp. 4570-4580. 1
[10] J. Cai, Z. Meng, and C. M. Ho, "Residual channel attention generative adversarial network for image super-resolution and noise reduction," in Proc. of IEEE Conference on Computer Vision and Pattern Recognition Workshops, June 2020. 1
[11] C. Ma, Y. Rao, Y. Cheng, C. Chen, J. Lu, and J. Zhou, "Structurepreserving super resolution with gradient guidance," in Proc. of IEEE Conference on Computer Vision and Pattern Recognition, June 2020. 1
[12] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo, "StarGAN: Unified generative adversarial networks for multi-domain image-toimage translation," in Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8789-8797. 1, 3, 5, 8, 9, 10, 11
[13] Y. Choi, Y. Uh, J. Yoo, and J.-W. Ha, "StarGAN v2: Diverse image synthesis for multiple domains," in Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2020, pp. 8188-8197. 1, 2, 4, 5, 10, 11
[14] R. Or-El, S. Sengupta, O. Fried, E. Shechtman, and I. KemelmacherShlizerman, "Lifespan age transformation synthesis," in Proc. of European Conference on Computer Vision, 2020. 1
[15] Q. Wang, H. Fan, G. Sun, W. Ren, and Y. Tang, "Recurrent generative adversarial network for face completion," IEEE Transactions on Multimedia, vol. 23, pp. 429-442, 2020. 1
[16] M. K. Vincent Dumoulin, Jonathon Shlens, "A learned representation for artistic style," in Proc. of International Conference on Learning Representations, 2017. 1, 2, 4
[17] H. Wang, Y. Li, Y. Wang, H. Hu, and M.-H. Yang, "Collaborative distillation for ultra-resolution universal style transfer," in Proc. of IEEE Conference on Computer Vision and Pattern Recognition, June 2020. 1
[18] S. Qiu, Y. Zhao, J. Jiao, Y. Wei, and S. Wei, "Referring image segmentation by generative adversarial learning," IEEE Transactions on Multimedia, vol. 22, no. 5, pp. 1333-1344, 2019. 1
[19] M. Tschannen, E. Agustsson, and M. Lucic, "Deep generative models for distribution-preserving lossy compression," in Proc. of Advances in Neural Information Processing Systems, 2018, pp. 5929-5940. 1
[20] M. Mirza and S. Osindero, "Conditional generative adversarial nets," arXiv preprint arXiv:1411.1784, 2014. 1, 2, 3, 6
[21] A. Odena, C. Olah, and J. Shlens, "Conditional image synthesis with auxiliary classifier GANs," in Proc. of International Conference on Machine Learning, 2017, pp. 2642-2651. 1
[22] A. Van den Oord, N. Kalchbrenner, L. Espeholt, O. Vinyals, A. Graves et al., "Conditional image generation with PixelCNN decoders," in Proc. of Advances in Neural Information Processing Systems, 2016, pp. 4790- 4798. 1
[23] G. Perarnau, J. Van De Weijer, B. Raducanu, and J. M. Alvarez, ' "Invertible conditional GANs for image editing," arXiv preprint arXiv:1611.06355, 2016. 1, 3
[24] Y. Lu, Y.-W. Tai, and C.-K. Tang, "Attribute-guided face generation using conditional cycleGAN," in Proc. of European Conference on Computer Vision, 2018, pp. 282-297. 1, 3
[25] T. Chen, M. Lucic, N. Houlsby, and S. Gelly, "On self-modulation for ' generative adversarial networks," in Proc. of International Conference on Learning Representations, 2019. 1, 2
[26] J.-Y. Zhu, R. Zhang, D. Pathak, T. Darrell, A. A. Efros, O. Wang, and E. Shechtman, "Toward multimodal image-to-image translation," in Proc. of Advances in Neural Information Processing Systems, 2017, pp. 465-476. 1, 2
[27] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, "Image-to-image translation with conditional adversarial networks," in Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 1125-1134. 1, 2
[28] P. Sangkloy, J. Lu, C. Fang, F. Yu, and J. Hays, "Scribbler: Controlling deep image synthesis with sketch and color," in Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5400-5409. 1
[29] S.-H. Sun, M. Huh, Y.-H. Liao, N. Zhang, and J. J. Lim, "Multi-view to novel view: Synthesizing novel views with self-learned confidence," in Proc. of European Conference on Computer Vision, 2018, pp. 155-171. 1, 5, 11
[30] E. L. Denton, S. Chintala, R. Fergus et al., "Deep generative image models using a Laplacian pyramid of adversarial networks," in Proc. Of Advances in Neural Information Processing Systems, 2015, pp. 1486- 1494. 1
[31] X. Mao, Q. Li, H. Xie, R. Y. Lau, Z. Wang, and S. Paul Smolley, "Least squares generative adversarial networks," in Proc. of IEEE International Conference on Computer Vision, 2017, pp. 2794-2802. 1, 2, 8
[32] A. Radford, L. Metz, and S. Chintala, "Unsupervised representation learning with deep convolutional generative adversarial networks," arXiv preprint arXiv:1511.06434, 2015. 1, 5, 6, 8
[33] T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida, "Spectral normalization for generative adversarial networks," in Proc. of International Conference on Learning Representations, 2018. 1, 2
[34] M. Gong, Y. Xu, C. Li, K. Zhang, and K. Batmanghelich, "Twin auxiliary classifiers GAN," in Proc. of Advances in Neural Information Processing Systems, 2019, pp. 1330-1339. 1, 5
[35] H. De Vries, F. Strub, J. Mary, H. Larochelle, O. Pietquin, and A. C. Courville, "Modulating early visual processing by language," in Proc. of Advances in Neural Information Processing Systems, 2017, pp. 6594-6604. 1, 2, 4
[36] S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," arXiv preprint arXiv:1502.03167, 2015. 1, 2
[37] X. Huang and S. Belongie, "Arbitrary style transfer in real-time with adaptive instance normalization," in Proc. of IEEE International Conference on Computer Vision, 2017, pp. 1501-1510. 1, 2
[38] T. Park, M.-Y. Liu, T.-C. Wang, and J.-Y. Zhu, "Semantic image synthesis with spatially-adaptive normalization," in Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2337-2346. 1,2
[39] J. Despois, F. Flament, and M. Perrot, "AgingmapGAN(AMGAN): High-resolution controllable face aging with spatially-aware conditional GANs," in Proc. of European Conference on Computer Vision Workshops, 2020. 1, 2
[40] H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and D. N. Metaxas, "StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks," in Proc. of IEEE International Conference on Computer Vision, 2017, pp. 5907-5915. 1, 2
[41] ――, "StackGAN++: Realistic image synthesis with stacked generative adversarial networks," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 8, pp. 1947-1962, 2018. 1, 2
[42] M. Hu, D. Zhou, and Y. He, "Variational conditional GAN for finegrained controllable image generation," in Proc. of Asian Conference on Machine Learning, 2019, pp. 109-124. 1, 2, 6
[43] M. Mathieu, C. Couprie, and Y. LeCun, "Deep multi-scale video prediction beyond mean square error," in International Conference on Learning Representations, 2016. 2
[44] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros, "Unpaired image-to-image translation using cycle-consistent adversarial networks," in Proc. of IEEE International Conference on Computer Vision, 2017, pp. 2223-2232. 3, 9
[45] L. v. d. Maaten and G. Hinton, "Visualizing data using t-sne," Journal of machine learning research, vol. 9, no. Nov, pp. 2579-2605, 2008. 4
[46] A. Gretton, K. M. Borgwardt, M. J. Rasch, B. Scholkopf, and A. Smola, "A kernel two-sample test," The Journal of Machine Learning Research, vol. 13, no. 1, pp. 723-773, 2012.

Claims (8)

  1. 특징 공간 학습부를 통해 입력 레이어에서 조건부 특징 공간의 매개 변수를 기준으로 입력을 매핑하기 위해 입력에 대하여 조건부 특징 공간을 학습하는 단계;
    학습된 특징 공간의 매개 변수를 기준으로 조건부 변환부를 통해 입력에 대한 조건부 변환을 수행하는 단계; 및
    최적화부를 통해 목적 함수를 사용하여 조건부 변환을 최적화하고, 최적화된 조건부 정보에 따라 입력을 매핑하여 합성 영상을 생성하는 단계
    를 포함하고,
    특징 공간 학습부를 통해 입력 레이어에서 조건부 특징 공간의 매개 변수를 기준으로 입력을 매핑하기 위해 입력에 대하여 조건부 특징 공간을 학습하는 단계는,
    비선형 활성 함수를 갖는 완전 연결 레이어 형태의 MLP(Multi Layer Perceptron)를 포함하는 특징 공간 학습부에서 특정 조건에만 해당하는 차별적 공간을 정의하고, 각 조건에 대한 특징 공간을 찾으며, 다중 조건을 포함하는 영상을 생성하는 경우, 다중 조건 기반의 다중 클래스 레이블을 조건 별로 재구성하고, 단일 클래스 레이블을 인코딩하는 원 핫 벡터의 연결로 나타내도록 제어하며, 조건 간의 관계를 학습하여 조건부 특징 공간을 결정하고,
    학습된 특징 공간의 매개 변수를 기준으로 조건부 변환부를 통해 입력에 대한 조건부 변환을 수행하는 단계는,
    조건이 생성 과정을 제어하도록 조건부 특징 공간 정보만을 사용하여 특정 조건의 함수로 지정된 입력을 변환하여 생성자에 대한 입력이 원하는 조건과 정렬되도록 하는
    적대적 생성 신경망의 영상 데이터셋 생성 방법.
  2. 삭제
  3. 제1항에 있어서,
    학습된 특징 공간의 매개 변수를 기준으로 조건부 변환부를 통해 입력에 대한 조건부 변환을 수행하는 단계는,
    적대적 생성 신경망의 생성자에 대한 입력이 영상을 생성하기 위한 원하는 조건과 정렬되도록 학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하고, 사용 가능한 모든 조건에 대해 두 개의 독립 선형 함수를 이용하여 생성자에 대한 입력의 변환이 해당 조건에 대해서만 수행되도록 매핑하는
    적대적 생성 신경망의 영상 데이터셋 생성 방법.
  4. 제3항에 있어서,
    학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하기 위해 생성자에 대한 입력을 매개 변수를 기준으로 크기 조정 및 이동하여 영상을 생성하기 위한 해당 조건의 함수로 매핑하고, 생성 과정의 입력 레이블에서 매핑을 수행하기 위해 해당 조건을 대상 도메인의 내용을 정의하는 매개 변수로 나타내는
    적대적 생성 신경망의 영상 데이터셋 생성 방법.
  5. 입력 레이어에서 조건부 특징 공간의 매개 변수를 기준으로 입력을 매핑하기 위해 입력에 대하여 조건부 특징 공간을 학습하는 특징 공간 학습부;
    학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하는 조건부 변환부; 및
    목적 함수를 사용하여 조건부 변환을 최적화하고, 최적화된 조건부 정보에 따라 입력을 매핑하여 합성 영상을 생성하는 최적화부
    를 포함하고,
    특징 공간 학습부는,
    비선형 활성 함수를 갖는 완전 연결 레이어 형태의 MLP(Multi Layer Perceptron)를 포함하는 특징 공간 학습부에서 특정 조건에만 해당하는 차별적 공간을 정의하고, 각 조건에 대한 특징 공간을 찾으며, 다중 조건을 포함하는 영상을 생성하는 경우, 다중 조건 기반의 다중 클래스 레이블을 조건 별로 재구성하고, 단일 클래스 레이블을 인코딩하는 원 핫 벡터의 연결로 나타내도록 제어하며, 조건 간의 관계를 학습하여 조건부 특징 공간을 결정하고,
    조건부 변환부는,
    조건이 생성 과정을 제어하도록 조건부 특징 공간 정보만을 사용하여 특정 조건의 함수로 지정된 입력을 변환하여 생성자에 대한 입력이 원하는 조건과 정렬되도록 하는
    적대적 생성 신경망의 영상 데이터셋 생성 장치.
  6. 삭제
  7. 제5항에 있어서,
    조건부 변환부는,
    적대적 생성 신경망의 생성자에 대한 입력이 영상을 생성하기 위한 원하는 조건과 정렬되도록 학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하고, 사용 가능한 모든 조건에 대해 두 개의 독립 선형 함수를 이용하여 생성자에 대한 입력의 변환이 해당 조건에 대해서만 수행되도록 매핑하는
    적대적 생성 신경망의 영상 데이터셋 생성 장치.
  8. 제7항에 있어서,
    학습된 특징 공간의 매개 변수를 기준으로 입력에 대한 조건부 변환을 수행하기 위해 생성자에 대한 입력을 매개 변수를 기준으로 크기 조정 및 이동하여 영상을 생성하기 위한 해당 조건의 함수로 매핑하고, 생성 과정의 입력 레이블에서 매핑을 수행하기 위해 해당 조건을 대상 도메인의 내용을 정의하는 매개 변수로 나타내는
    적대적 생성 신경망의 영상 데이터셋 생성 장치.
KR1020210039530A 2021-03-26 2021-03-26 적대적 생성신경망에서의 조절 가능한 데이터셋 생성 방법 및 장치 KR102288759B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210039530A KR102288759B1 (ko) 2021-03-26 2021-03-26 적대적 생성신경망에서의 조절 가능한 데이터셋 생성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210039530A KR102288759B1 (ko) 2021-03-26 2021-03-26 적대적 생성신경망에서의 조절 가능한 데이터셋 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102288759B1 true KR102288759B1 (ko) 2021-08-11

Family

ID=77313912

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210039530A KR102288759B1 (ko) 2021-03-26 2021-03-26 적대적 생성신경망에서의 조절 가능한 데이터셋 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102288759B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240810A (zh) * 2021-11-10 2022-03-25 合肥工业大学 一种基于渐进式生成网络的人脸素描-照片合成方法
CN114758035A (zh) * 2022-06-13 2022-07-15 之江实验室 一种针对未配对数据集的图像生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Stanislav Frolov et al., "Adversarial Text-to-Image Synthesis: A Review,"arXiv:2101.09983v1 [cs.CV] 25 Jan 2021(2021.01.25.)* *
Xun Huang et al., "Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization," arXiv:1703.06868v2 [cs.CV] 30 Jul 2017 (2017.07.30.)* *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240810A (zh) * 2021-11-10 2022-03-25 合肥工业大学 一种基于渐进式生成网络的人脸素描-照片合成方法
CN114240810B (zh) * 2021-11-10 2023-08-08 合肥工业大学 一种基于渐进式生成网络的人脸素描-照片合成方法
CN114758035A (zh) * 2022-06-13 2022-07-15 之江实验室 一种针对未配对数据集的图像生成方法及装置

Similar Documents

Publication Publication Date Title
Bar-Tal et al. Multidiffusion: Fusing diffusion paths for controlled image generation
Ling et al. Editgan: High-precision semantic image editing
Sun et al. Learning layout and style reconfigurable gans for controllable image synthesis
Almahairi et al. Augmented cyclegan: Learning many-to-many mappings from unpaired data
Nguyen et al. Plug & play generative networks: Conditional iterative generation of images in latent space
He et al. InSituNet: Deep image synthesis for parameter space exploration of ensemble simulations
Xu et al. Adversarially approximated autoencoder for image generation and manipulation
Pan et al. Loss functions of generative adversarial networks (GANs): Opportunities and challenges
Fan et al. Frido: Feature pyramid diffusion for complex scene image synthesis
CN110335193B (zh) 一种基于生成对抗网络的目标域导向的无监督图像转换方法
Wan et al. Crossing nets: Dual generative models with a shared latent space for hand pose estimation
KR102288759B1 (ko) 적대적 생성신경망에서의 조절 가능한 데이터셋 생성 방법 및 장치
Mutlu et al. Training bidirectional generative adversarial networks with hints
Davtyan et al. Efficient video prediction via sparsely conditioned flow matching
CN115526223A (zh) 潜在空间中的基于得分的生成建模
Wang et al. Dft-net: Disentanglement of face deformation and texture synthesis for expression editing
Huang et al. Attribute decomposition for flow-based domain mapping
Katzir et al. Cross-domain cascaded deep translation
Sun et al. Recent advances in implicit representation-based 3D shape generation
Karmali et al. Hierarchical semantic regularization of latent spaces in stylegans
Wang et al. Unsupervised scene sketch to photo synthesis
Yan et al. Optimized single-image super-resolution reconstruction: A multimodal approach based on reversible guidance and cyclical knowledge distillation
Seo et al. Generating 3d facial expressions with recurrent neural networks
Jam et al. Foreground-guided facial inpainting with fidelity preservation
Cardenas et al. Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant