KR102421376B1

KR102421376B1 - 재설정 가능한 이미지 변환을 통한 비지도된 시각적 속성 전달

Info

Publication number: KR102421376B1
Application number: KR1020170099141A
Authority: KR
Inventors: 김택수; 김병집; 김지원; 차문수
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2017-06-09
Filing date: 2017-08-04
Publication date: 2022-07-15
Also published as: KR20180134727A; US20190042882A1; US20200356808A1; US10769492B2; US11244201B2

Abstract

본 개시는 재구성 가능한 이미지 변환을 통한 비지도된 시각적 속성 전달(visual attribute transfer)에 관한 것이다.
본 개시의 일 측면에 의하면, 오리지날 소스 이미지를 인코딩하여 상기 오리지날 소스 이미지를 특정하는 복수의 속성 값들을 생성하고, 오리지날 레퍼런스 이미지를 인코딩하여 상기 오리지날 레퍼런스 이미지를 특정하는 복수의 속성 값들을 생성하는 인코더; 상기 오리지날 소스 이미지의 속성들 중 적어도 하나(즉, 타겟 속성)의 값을 상기 오리지날 레퍼런스 이미지의 대응되는 적어도 하나의 속성 값으로 바꾸어, 원하는 타겟 이미지를 특정하는 복수의 속성 값들을 생성하는 컨버터; 및 상기 원하는 타겟 이미지의 속성 값들을 기초로, 타겟 이미지를 생성하는 생성기를 포함하는, 시각적 속성 전달을 학습하는 시스템을 제공한다.

Description

재설정 가능한 이미지 변환을 통한 비지도된 시각적 속성 전달{Unsupervised Visual Attribute Transfer through Reconfigurable Image Translation}

본 개시는 심층 신경망(deep neural networks)의 트레이닝과 관련되어 있다.

이 부분에 기술된 내용은 단순히 본 개시에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

이미지 스타일 전달, 텍스쳐 전달, 및 컬러 전달을 포함하는 이미지 스타일링 분야에서 상당한 발전과 관심이 증가해왔다. 알려진 연구들은 모두 한 이미지의 시각적 속성이 다른 이미지의 시각적 속성으로 변경되는 시각적 속성 전달 문제(visual attribute transfer problem)를 다룬다.

이들의 주목할만한 결과에도 불구하고, 이들 연구들의 대부분은 총체적인 속성 전달(holistic attribute transfer)에 국한되었다. 즉, 제안된 작업들은, 미소(smile) 또는 머리 색깔과 같은 이미지의 특정 부분이 아니라, 이미지 전체를 커버하는 텍스처, 색상, 또는 스타일을 전송한다.

본 개시는 재설정 가능한 이미지 변환 네트워크(image translation network)를 사용하는 비-지도된(unsupervised) 시각적 속성 전달 메커니즘을 제공하는 데 주된 목적이 있다. 특히, 본 개시는 쌍을 이룬 데이터-셋(paired dataset) 없이 이미지 예시 수준(image instance-level)의 특정 부분을 전달할 수 있는 시각적 속성 전송 메커니즘을 제공하고자 한다.

본 개시의 일 측면에 의하면, 오리지날 소스 이미지를 인코딩하여 상기 오리지날 소스 이미지를 특정하는 복수의 속성 값들을 생성하고, 오리지날 레퍼런스 이미지를 인코딩하여 상기 오리지날 레퍼런스 이미지를 특정하는 복수의 속성 값들을 생성하는 인코더; 상기 오리지날 소스 이미지의 속성들 중 적어도 하나(이하 '타겟 속성'이라 칭함)의 값을 상기 오리지날 레퍼런스 이미지의 대응되는 적어도 하나의 속성 값으로 바꾸어, 원하는 타겟 이미지를 특정하는 복수의 속성 값들을 생성하는 컨버터; 상기 원하는 타겟 이미지의 속성 값들을 기초로, 타겟 이미지를 생성하는 생성기; 및 상기 생성된 타겟 이미지와 상기 오리지날 소스 이미지를 구별하기 위한 구별 모델을 학습하는 구별기를 포함하는, 시각적 속성 전달을 학습하는 시스템을 제공한다.

상기 시스템의 트레이닝 동안에, 상기 인코더는 상기 생성된 타겟 이미지를 인코딩하여 상기 생성된 타겟 이미지를 특정하는 복수의 속성 값들을 생성하고, 상기 컨버터는 상기 생성된 타겟 이미지의 속성 값들 중 상기 타겟 속성에 해당하는 적어도 하나의 속성 값을 상기 오리지날 소스 이미지의 상기 타겟 속성에 해당하는 적어도 하나의 속성 값으로 대체하여, 재구성 소스 이미지를 특정하는 복수의 속성 값을 생성하고, 상기 생성기는 상기 재구성 소스 이미지의 속성 값들을 기초로 재구성 소스 이미지를 생성한다.

또한, 상기 시스템의 트레이닝 동안에, 상기 컨버터는 상기 오리지날 레퍼런스 이미지의 속성 값들 중 상기 타겟 속성에 해당하는 적어도 하나의 속성 값을 상기 생성된 타겟 이미지의 상기 타겟 속성에 해당하는 적어도 하나의 속성 값으로 대체하여, 재구성 레퍼런스 이미지를 특정하는 복수의 속성 값을 생성하고, 상기 생성기는 상기 재구성 레퍼런스 이미지의 속성 값들을 기초로 재구성 레퍼런스 이미지를 생성하게 한다.

또한, 상기 시스템의 트레이닝 동안에, 상기 신경망의 파라미터들을 업데이트하기 위해, 상기 재구성 소스 이미지와 상기 오리지날 소스 이미지 간의 차이를 나타내는 재구성 손실(reconstruction loss)과, 상기 재구성 레퍼런스 이미지와 상기 오리지날 레퍼런스 이미지 간의 차이를 나타내는 재구성 손실과, 상기 생성된 타겟 이미지에 대한 생성적 대립 손실(generative adversarial loss)을 이용한다.

본 개시의 다른 측면에 의하면, 시각적 속성 전달을 학습하도록 인공 신경망들을 트레이닝하는, 컴퓨터로 구현되는 방법에 있어서, 상기 인공 신경망들로 하여금, 오리지날 레퍼런스 이미지의 타겟 속성을 오리지날 소스 이미지에 전달하여 타겟 이미지를 생성하는 단계; 상기 오리지날 소스 이미지의 타겟 속성을 상기 타겟 이미지에 전달하여 재구성 소스 이미지를 생성하는 단계; 상기 타겟 이미지의 타겟 속성을 상기 오리지날 레퍼런스 이미지에 전달하여 재구성 레퍼런스 이미지를 생성하는 단계; 및 상기 재구성 소스 이미지와 상기 오리지날 소스 이미지 간의 차이를 나타내는 재구성 손실과, 상기 재구성 레퍼런스 이미지와 상기 오리지날 레퍼런스 이미지 간의 차이를 나타내는 재구성 손실과, 상기 생성된 타겟 이미지에 대한 생성적 대립 손실을 이용하여, 상기 신경망들의 파라미터들을 업데이트하는 단계를 수행하도록 하는 방법을 제공한다.

본 발명이 제안하는 재설정 가능한 이미지 변환 프레임워크를 사용하면, 각기 다른 시각적 특성을 포함하는 다양한 변환 작업을 위해 단일 변환 모델을 쉽게 재설정할 수 있다.

도 1은 각각 두 개의 값 중 하나를 가지는 두 개의 속성들로 표현된 이미지들 간의 변환들을 도시한 도면이다.
도 2는 본 발명의 예시적인 신경망 트레이닝 시스템을 도시한 도면이다.
도 3은 본 발명이 제안하는 신경망 구조 및 트레이닝 프로세스를 도식화한 도면이다.
도 4는 본 발명의 측면에 따른 시각적 속성 전달을 학습하도록 신경망을 트레이닝하는 방법을 도시한 흐름도이다.
도 5는 이미지 속성 전달에 관한 실험 결과를 보인다.
도 6은 다중 얼굴 속성의 전달 결과를 보인다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 본 개시에서, 속성들(attributes)은 잘 정의된 특징 공간에서 구분(disentangled)될 수 있으며, 서로 독립적인, 데이터-셋의 상위 레벨 특징들(high-level features)을 지칭하는 것으로 이해될 수 있다. 또한, 속성 값들(attribute values)은, 쉽게 라벨링될 수 있는, 각 속성에 대한 가능한 값들의 세트로 이해될 수 있다. 또한, 도메인(domain)은 어떤 속성 값으로 라벨링된 데이터의 세트로 이해될 수 있다.

본 개시에서 제안하는 이미지 변환 네트워크는 생성적 적대 네트워크(generative adversarial networks; GANs) 프레임워크를 사용하여 이미지들을 시각적 속성들의 인코딩들로 표현하는 것을 학습한다. 이미지 변환 네트워크는 속성의 인코딩 값을 원하는 타겟 값으로 변경하여, 입력 이미지를 다른 도메인의 이미지로 선택적으로 변환할 수 있다. 또한, 이러한 변환 네트워크는 타겟 시각적 속성과 그 타겟 값을 변경하여 입력 이미지를 다른 출력 도메인들로 변환하도록 쉽게 재설정(reconfiguration) 될 수 있다. 즉, 상기 변환 네트워크를 트레이닝 후, 주어진 이미지의 인코딩된 속성 값을 다른 값으로 바꾸고 새로운 하이브리드 인코딩을 거쳐 생성기 네트워크를 통과시킴으로써, 주어진 이미지의 시각적 속성은 다른 이미지로 전달될 수 있다.

이하에서는, 먼저 본 개시에서 제안하는 학습 알고리즘에 대한 동기를 제시하고, 제안된 알고리즘의 기법을 설명하기로 한다. 특히, 본 개시는 재설정 가능한(reconfigurable) 단일 속성 이미지 변환기의 학습 알고리즘을 설명하고, 최종적으로 여러 변환이 동시에 수행되는 "다중 변환(multiple translation)"으로 제안된 알고리즘을 확장할 수 있음을 보인다.

이미지는 다양한 속성으로 묘사될 수 있으며, 각 속성은 여러 값 중 하나를 가질 수 있다. 예를 들어 성별, 머리 색깔, 및 표정과 같은 속성으로 사람의 이미지를 묘사할 수 있으며, 이들 속성들은 각각 남성, 갈색, 및 미소와 같은 값을 가질 수 있다. 그러면, 이미지 변환 작업은 하나 이상의 속성들의 값을 변경하는 것으로 볼 수 있다.

도 1의 (a)는 각각 두 개의 값 중 하나를 가지는 두 개의 속성을 사용하여 묘사된 이미지 간의 모든 가능한 변환을 보여준다. 첫 번째 속성의 값은 A 또는 B일 수 있으며, 두 번째 속성은 X 또는 Y일 수 있다. 가장 단순한 접근법에서, 4개의 이미지 도메인 사이에서 이미지를 변환하려면 6개의 별도로 훈련된 변환기(변환이 양방향이 아니라면, 12개의 변환기)가 필요하다.

좀 더 바람직한 접근법에서, 필요한 변환기의 수를 줄이기 위해, 속성별 전용 변환기(예를 들어, 도 1의 (b) 및 (c)에서 매핑 G; G' 및 F; F')가 학습 될 수 있다. 이 경우, 순차적인 응용 단일-속성 변환기들은 네 개의 모든 이미지 도메인들 간에 변환하기에 충분하다.

우리의 접근법은 여러 개의 단일-속성 변환기를 하나의 재구성 가능한 변환기 네트워크에 임베드하여 절차를 더 단순화한다. 필요에 따라 원하는 타겟 속성 값을 전환함으로써, 복수의 소스-타겟 도메인 쌍 간에 이미지를 변환하는 데 단일-변환기 네트워크를 사용할 수 있다.

본 개시에서, 이미지 도메인은 하나 이상의 속성 값을 공유하는 모든 이미지들의 집합으로 정의되고, 이미지 변환은 두 이미지 도메인 간의 매핑으로 정의된다. 가장 단순한 경우, 이미지 변환기 T 는 입력 이미지의 한 속성을 특정 값으로 변경하는 함수로 볼 수 있다. 전형적인 이미지 변환기 T 는 두 영역 사이에서만 이미지를 변환될 수 있으므로, 소스-타겟 도메인 쌍 마다 별도의 이미지 변환기가 학습되어야 한다. 그러나 본 개시에서 제안하는 이미지 변환기는 융통성이 있다. 즉, 추가적인 트레이닝 없이, 단일 이미지 변환기에 대해 타겟 속성 값을 전환함으로써 원하는 타겟 도메인을 선택할 수 있다.

도 2는 본 발명의 예시적인 신경망 트레이닝 시스템을 도시한 도면이다.

신경망 트레이닝 시스템(200)은 하나 이상의 컴퓨터 상의 컴퓨터 프로그램으로서 구현되는 시스템의 예이며, 이하에서 설명할 기법이 구현된다.

신경망 트레이닝 시스템의 트레이닝 엔진(230)은 트레이닝 데이터 저장소(150)의 트레이닝 데이터들을 기초로, 이하에서 설명할 시각적 속성 전달(visual attribute transfer)을 학습하도록 신경망들을 트레이닝한다. 제안된 트레이닝 알고리즘에 대한 구체적인 설명은 도 3을 참조하여 후술한다.

트레이닝 데이터 저장소(250) 내의 트레이닝 데이터는 트레이닝 세트들을 포함한다. 트레이닝 세트들은 소스 이미지들과 레퍼런스 이미지들을 포함한다. 각 레퍼런스 이미지들의 세트들은 하나 이상의 속성 값을 공유하는 모든 이미지들의 집합들로 볼 수 있다.

변환기(translator; 210)는 레퍼런스 이미지의 하나 이상의 타겟 속성을 소스 이미지에 전달하도록 구성될 수 있다. 변환기(210)는 인코더(encoder; 211), 컨버터(converter; 212), 및 생성기(generator; 213)를 포함할 수 있다. 인코더(211)는 컨벌루션 계층들(convolution layers)로 구성된 심층 신경망(deep neural network)일 수 있다. 생성기(213)는 디컨벌루션 계층들(deconvolution layers)로 구성된 심층 신경망, 즉 디코더(decoder)로 볼 수 있다.

인코더(211)는 입력 이미지를 인코딩하여 입력 이미지를 특정하는 복수의 속성 값들을 생성할 수 있다. 예컨대, 인코더(211)는 트레이닝 데이터 저장소(250) 로부터 입력되는 소스 이미지(즉, 오리지날 소스 이미지)를 인코딩하여 오리지날 소스 이미지를 특정하는 복수의 속성 값들을 생성하고, 트레이닝 데이터 저장소(250) 로부터 입력되는 레퍼런스 이미지(즉, 오리지날 레퍼런스 이미지)를 인코딩하여 오리지날 레퍼런스 이미지를 특정하는 복수의 속성 값들을 생성한다.

컨버터(212)는 오리지날 소스 이미지의 속성들 중 적어도 하나의 타겟 속성의 값을 오리지날 레퍼런스 이미지의 대응되는 속성 값으로 대체하여, 원하는 타겟 이미지를 특정하는 복수의 속성 값들을 생성할 수 있다. 컨버터(212)가 대체하는 타겟 속성과 그 타겟 값을 변경하는 것에 의해, 변환기(210)는 입력 이미지를 다른 출력 도메인들로 변환하도록 쉽게 재설정(reconfiguration) 될 수 있다.

생성기(213)는 컨버터로부터 출력되는 속성 값들을 기초로 이미지를 생성한다. 예컨대, 생성기(213)는 컨버터로부터 출력되는 원하는 타겟 이미지의 속성 값들을 기초로, 타겟 이미지를 생성할 수 있다.

신경망 트레이닝 시스템(200)은 복수의 구별기들(220_1~220n)을 더 포함할 수 있다. 신경망 트레이닝 시스템(200)은 각 속성 값에 대해 각기 별개의 구별기들을 제공할 수 있다. 각 구별기(220_1~220n)는 컨벌루션 계층들과 [0, 1] 사이의 스칼라 출력을 출력하는 시그모이드(sigmoid)를 포함하는 심층 신경망일 수 있다. 각 구별기(220_1~220n)는 생성기(213)에 의해 생성된 타겟 이미지와 소스 이미지를 구별하여 스코어링한다. 각 구별기(220_1~220n)는 생성기(213)와의 관계에서 생성적 적대 네트워크(Generative Adversarial Networks: GANs)를 형성한다고 볼 수 있다.

트레이닝 프로세스에서, 인코더(211)는 생성된 타겟 이미지를 인코딩하여 생성된 타겟 이미지를 특정하는 복수의 속성 값들을 생성할 수 있다. 컨버터(212)는 생성된 타겟 이미지의 속성 값들 중 타겟 속성에 해당하는 적어도 하나의 속성 값을 오리지날 소스 이미지의 타겟 속성에 해당하는 적어도 하나의 속성 값으로 대체하여, 재구성 소스 이미지를 특정하는 복수의 속성 값을 생성할 수 있다. 또한, 컨버터(212)는 오리지날 레퍼런스 이미지의 속성 값들 중 타겟 속성에 해당하는 적어도 하나의 속성 값을 상기 생성된 타겟 이미지의 상기 타겟 속성에 해당하는 적어도 하나의 속성 값으로 대체하여, 재구성 레퍼런스 이미지를 특정하는 복수의 속성 값을 생성할 수 있다. 생성기(213)는 컨버터(212)로부터 제공되는 재구성 소스 이미지의 속성 값들을 기초로 재구성 소스 이미지(reconstructed source image)를 생성하고, 컨버터(212)로부터 제공되는 재구성 레퍼런스 이미지의 속성 값들을 기초로 재구성 레퍼런스 이미지(reconstructed reference image)를 생성할 수 있다.

상기 신경망들(211, 213, 220)의 파라미터들을 업데이트하기 위해, 상기 재구성 소스 이미지와 상기 오리지날 소스 이미지 간의 차이를 나타내는 재구성 손실(reconstruction loss)과, 상기 재구성 레퍼런스 이미지와 상기 오리지날 레퍼런스 이미지 간의 차이를 나타내는 재구성 손실과, 상기 생성된 타겟 이미지에 대한 생성적 대립 손실(generative adversarial loss)을 이용될 수 있다. 상기 소스 이미지에 대한 재구성 손실은 재구성 소스 이미지가 얼마나 잘 재구성되었는지를 가리킨다. 상기 레퍼런스 이미지에 대한 재구성 손실은 재구성 레퍼런스 이미지가 얼마나 잘 재구성되었는지를 가리킨다. 생성된 대립 손실은 생성된 타겟 이미지가 얼마나 사실적인지를 가리킨다.

도 3은 본 발명이 제안하는 신경망 구조 및 트레이닝 프로세스를 도식화한 도면이다. 도 3에서, 머리 색깔 속성을 "흑발"로 변환하는 예시를 보여준다. 제안하는 모델은 인코더 E, 생성기 G, 및 속성 값 d에 대한 구별기 D _d 를 포함한다. 인코더 E는 입력으로써 이미지 x를 가지며, 이를 속성 특징들(attribute features) z로 인코딩한다(즉, z = E(x)). 우리는 속성들이 잘 정의된 특징 공간에서 분리(disentangle)될 수 있다고 가정한다. 따라서, z는 다중 슬롯(multiple slots)의 튜플(tuple)로 표현될 수 있다(즉, z = {z₁, z₂, …, z_n}, 여기서 n은 관심있는 속성들의 수이다). 생성기 G는 인코딩된 속성 특징들 z로부터 이미지를 생성한다(즉, y = G (z₁, z₂, …, z_n), 여기서 y는 생성된 이미지를 나타낸다).

오리지날 레퍼런스 이미지로부터 오리지날 소스 이미지로 타겟 속성을 전달하기 위해, 오리지날 소스 이미지 x ^src ~p _data (x)와 오리지날 레퍼런스 이미지 x ^ref ~p _d (x)가 먼저 인코딩된다: z ^src = E (x ^src ) 및 z ^ref = E (x ^ref ), 여기서 p _data (x)는 전체 데이터셋의 데이터 분포를 나타내고, p _d (x)는 속성 값 d의 속성 도메인의 분포를 나타낸다. 단순화를 위해, 속성 인덱스에 대한 표기는 생략되었다. z ^src 의 타겟 슬롯이 z ^ref 의 타겟 슬롯으로 대체된 후에, 생성기 G는 이 속성 특징들을 사용하여 타겟 이미지 x ^trans 를 생성한다. (즉,

)

생성된 타겟 이미지가 오리지날 레퍼런스 이미지의 타겟 속성을 갖도록 하기 위해, 우리는 세 개의 제약(constraints)을 부가한다. ⅰ) 먼저, 생성된 타겟 이미지가 오리지날 레퍼런스 이미지와 동일한 타겟 속성 도메인에 속해야 한다. ⅱ) 또한, 생성된 타겟 이미지가 속성 전달 후에 오리지날 소스 이미지의 나머지 다른 속성들을 그대로 유지해야 한다. ⅲ) 마지막으로, 생성된 타겟 이미지가 오리지날 레퍼런스 이미지의 타겟 속성에 대한 디테일을 정확히 가져야 한다. 이들 세 개의 제약을 만족하도록, 우리는 각 제약에 대한 목표를 부가한다. 이하에서 각 목표들을 좀더 상세히 설명한다.

(1) 전달(Transfer)

생성된 타겟 이미지가 해당 속성 도메인에 속하도록 타겟 속성을 전달하는 것은 GAN 프레임워크를 사용하여 구현될 수 있다. 여기서, 우리는 이 목표를 “전달 목표(transfer objective)”로 표시한다. 도 3의 예시와 같이, 타겟 속성이 머리 색깔에 해당하고 오리지날 레퍼런스 이미지가 그 속성 값으로 흑발(black hair)을 가지고 있다고 가정하면, 우리는 흑발 도메인의 이미지와 생성된 타겟 이미지 x ^trans 를 구별할 수 없도록 강제한다. 이러한 전달 목표는 다음과 같이 표현될 수 있다.

또한, GAN의 구별기 목표는 다음과 같이 표현될 수 있다.

(2) 역-전달(Back-transfer)

나머지 비-타겟 속성들 모두가 그대로 유지되는 것을 보장하기 위해, 우리는 역-전달 목표를 도입한다. 생성된 타겟 이미지 x ^trans 는 다시 인코딩되고(즉, z ^trans = E(x ^trans )), z ^src 의 오리지날 타겟 슬롯은 z ^trans 의 타겟 슬롯으로 대체된다(즉,

). 우리는 z ^back 으로부터 생성된 이미지(즉, 재구성된 소스 이미지) x ^back 가 오리지날 소스 이미지 x ^src 와 동일하도록 강제한다(즉,

). 이러한 목표는 수학적으로 다음과 같이 표현될 수 있으며, 타겟 이미지의 모든 비-타겟 속성들이 오리지날 소스 이미지의 속성들과 동일하도록 강제한다. 수학식 3에서 거리함수 d()의 계산에는 L1, L2, Huber와 같은 거리 메트릭(distance metric)이 사용될 수 있다.

(3) 속성 일관성(Attribute consistency)

전달 목표(transfer objective) 및 역-전달 목표(back-transfer objective)로 모델을 교육하면, 생성된 타겟 이미지가 타겟 속성 값을 가지며 나머지 비-타겟 속성들은 그대로 유지되는 것이 보장된다. 그러나 이러한 목표들은 생성된 타겟 이미지가 오리지날 레퍼런스 이미지의 정확한 속성 디테일을 갖도록 보장하지 않는다. 예를 들어, 생성된 타겟 이미지는 뱅-헤어(bang hair; 즉, 앞머리가 있는 헤어 타입) 도메인의 이미지들과 구별할 수 없는 한도 내에서 모든 유형의 뱅-헤어 타입을 가질 수 있다. 그러므로 우리는 디테일의 전달을 보장하기 위해, “속성 일관성” 목표를 도입한다. 이를 위해, z ^ref 의 타겟 슬롯이 z ^trans 의 타겟 슬롯으로 대체된 후에, 생성기 G는 이 속성 특징들을 사용하여 재구성 레퍼런스 이미지 x ^attr 를 생성한다. 우리는 재구성 레퍼런스 이미지 x ^attr 가 오리지날 레퍼런스 이미지 x ^ref 와 동일하도록 강제한다 (즉,

). 이러한 목표는 수학적으로 다음과 같이 표현될 수 있다. 수학식 4에서, 거리 dist()의 계산에는 L1, L2, Huber와 같은 거리 메트릭(distance metric)이 사용될 수 있다.

(4) 전체 목표(Full objective)

속성 값 d에 대한 전체 전달 목표 L _d 은 수학식 5과 같다. 여기서, λ1, λ2, 및 λ3는 각 손실의 가중치이다.

트레이닝 동안에, 모든 속성 값 d에 대해, 인코더 E 및 생성기 G의 파라미터들을 업데이트하기 위해 수학식 5의 L _d 가 사용되며, 구별기 D _d 의 파라미터들을 업데이트하기 위해 수학식 2의 L _dis,d 가 사용된다.

도 4는 본 발명의 일 측면에 따른 시각적 속성 전달을 학습하도록 인공 신경망을 트레이닝하는 방법을 도시한 흐름도이다. 상기 방법은 예컨대 컴퓨터 상의 컴퓨터 프로그램으로 구현될 수 있으며, 상기 인공 신경망(예컨대, 도 2 및 3에 예시된 인코더, 컨버터, 생성기, 구별기 등)으로 하여금 도 4에 도시된 각 단계들을 수행하도록 한다.

먼저, 신경망들은 오리지날 레퍼런스 이미지의 타겟 속성을 오리지날 소스 이미지에 전달하여 타겟 이미지를 생성한다(S410). 인코더, 컨버터, 및 생성기는 타겟 이미지를 생성하기 위해 다음과 같은 단계들을 수행한다. 인코더는 오리지날 소스 이미지 x ^src 를 인코딩하여 오리지날 소스 이미지를 특정하는 복수의 속성 값들을 생성하고, 오리지날 레퍼런스 이미지 x ^ref 를 인코딩하여 오리지날 레퍼런스 이미지를 특정하는 복수의 속성 값들을 생성한다. 컨버터는 오리지날 소스 이미지 x ^src 의 속성들 중 적어도 하나의 타겟 속성의 값을 오리지날 레퍼런스 이미지 x ^ref 의 대응되는 적어도 하나의 속성 값으로 바꾸어, 원하는 타겟 이미지를 특정하는 복수의 속성 값들을 생성한다. 생성기는 컨버터로부터 제공되는 원하는 타겟 이미지의 속성 값들을 기초로, 타겟 이미지 x ^trans 를 생성한다.

다음으로, 신경망들은 오리지날 소스 이미지의 타겟 속성을 타겟 이미지에 전달하여 재구성된 소스 이미지를 생성한다(S420). 인코더, 컨버터, 및 생성기는 재구성된 소스 이미지를 생성하기 위해 다음과 같은 단계들을 수행한다. 인코더는 생성된 타겟 이미지 x ^trans 를 인코딩하여 생성된 타겟 이미지를 특정하는 복수의 속성 값들을 생성한다. 컨버터는 인코더로부터 제공되는 생성된 타겟 이미지의 속성 값들 중 상기 타겟 속성에 해당하는 적어도 하나의 속성 값을 오리지날 소스 이미지의 상기 타겟 속성에 해당하는 적어도 하나의 속성 값으로 바꾸어, 재구성 소스 이미지를 특정하는 복수의 속성 값을 생성한다. 생성기는 컨버터로부터 제공되는 재구성 소스 이미지의 속성 값들을 기초로 재구성 소스 이미지 x ^back 를 생성한다.

다음으로, 신경망들은 타겟 이미지의 타겟 속성을 오리지날 레퍼런스 이미지에 전달하여 재구성 레퍼런스 이미지를 생성한다(S430). 컨버터, 및 생성기는 재구성된 오리지날 소스 이미지를 생성하기 위해 다음과 같은 단계들을 추가로 수행한다. 컨버터는 오리지날 레퍼런스 이미지 x ^ref 의 속성 값들 중 타겟 속성에 해당하는 적어도 하나의 속성 값을, 생성된 타겟 이미지의 타겟 속성에 해당하는 적어도 하나의 속성 값으로 바꾸어, 재구성 레퍼런스 이미지를 특정하는 복수의 속성 값을 생성한다. 생성기는 컨버터로부터 제공되는 재구성 레퍼런스 이미지의 속성 값들을 기초로 재구성 레퍼런스 이미지 x ^attrs 를 생성한다.

다음으로, 신경망들은 재구성 소스 이미지 x ^back 와 오리지날 소스 이미지 x ^ref 간의 차이를 나타내는 재구성 손실과, 재구성 레퍼런스 이미지 x ^attrs 와 오리지날 레퍼런스 이미지 x ^attrs 간의 차이를 나타내는 재구성 손실과, 생성된 타겟 이미지 x ^trans 에 대한 생성적 대립 손실을 이용하여, 파라미터들(즉, 각 계층별 가중치들)을 업데이트한다(S450). 이를 위해, 구별기는 생성된 타겟 이미지 x ^trans 와 소스 이미지 x ^ref 를 랜덤으로 입력받으며, 입력된 이미지들을 스코어링한다.

이하에서는, 본 개시에서 제안된 방법의 접근 방식이 시각적 속성 전달은 물론 재설정 가능한(reconfigurable) 이미지 변환에서도 잘 수행된다는 것을 실증적으로 보인다. 본 발명자들은 여러 가지의 시각적 속성(개체의 각도 속성, 개체의 정체성 속성, 얼굴 속성, 패션 속성 등)의 전송에 대해 제안된 방법의 성능을 테스트하였다. 각 작업에서 단일 모델은 입력 이미지의 모든 요소를 원하는 값으로 변환하는 것을 학습하고, 여러 소스-타겟 이미지 도메인 쌍 사이를 변환한다. 또한, 타겟 이미지가 주어지면, 본 개시에서 제안하는 트레이닝된 네트워크는 시각적 속성들을 입력 이미지로 전달할 수 있다. 우리는 복수의 속성이 동시에 전송되는 "multiplex" 케이스로 제안된 방법의 접근 방식을 확장하였다.

도 5는 이미지 속성 전달에 관한 실험 결과를 보이는 도면이다. (a)~(e)에서, 첫 번째 행은 소스 이미지를, 두 번째 행의 이미지는 레퍼런스 이미지를, 세 번째 행은 생성된 타겟 이미지를 나타낸다. (a)는 머리 색깔 속성을 흑발에서 금발로 바꾼 결과를 보여준다. 두 번째 행에서 왼쪽 이미지의 타겟 속성 값은 밝은 금발이며 오른쪽 이미지의 타겟 속성 값은 어두운 금발이다. 세 번째 행의 생성된 타겟 이미지들은 타겟 속성들이 잘 전달됨을 보여준다. (b)는 금발 머리와 갈색 머리의 전달 결과를 보여준다. (c)는 표정(웃음/웃지 않음) 속성의 전달 결과를, (d)와 (e)는 머리 길이 속성의 전달 결과를 보여준다.

도 6은 다중 얼굴 속성의 전달 결과를 보여준다. 아래로부터 3 개의 행들은 다양한 모발 색깔((b) 검은 머리 (c) 금발 머리 (d) 갈색 머리)과 미소 짓지 않은 여성의 속성들에 기반하여 미소 짓는 여성 이미지에 전달한 결과를 보여준다. 상위 5개의 행들은 반대 실험의 결과를 보여준다.

본 개시에서는 재설정 가능한(reconfigurable) 이미지 변환을 통해 비지도된(unsupervised) 시각적 속성 전달을 위한 프레임워크를 제안하였다. 이러한 프레임워크는 비시각적 속성에도 응용될 수 있다.

제안된 프레임 워크는 3 가지 구별되는 특징을 가진다. ⅰ) 이미지-이미지 변환과 같은 고정된 매핑 함수를 사용하여 소스 이미지의 속성을 변경하는 대신에, 제안된 모델은 인스턴스 레벨 속성을 전송할 수 있다. ⅱ) 제안된 모델은 쌍을 이룬 데이터셋이나 조밀하게 주석 된 속성 정보를 필요로 하지 않는다. 제안된 모델은 도메인 수준으로 라벨링된 데이터만 사용하여 레퍼런스 이미지의 디테일을 소스 이미지로 성공적으로 전송한다. ⅲ) 제안된 프레임워크는 단일 모델을 사용하여 원본 이미지의 여러 속성을 변경하는 데 사용할 수 있다. 반면 알려진 이미지-이미지 변환 방법들은 도메인 쌍들의 모든 조합에 대한 모델들이 필요하다.

본 개시의 실시예들 및 본 개시에 기술된 기능적인 동작들은 본 개시에 개시된 구조들과 그들의 구조적 균등물들을 포함하는 디지털 전자 회로, 유형적으로 구현된(tangibly-embodied) 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어 또는 그들 중 하나 이상의 조합들에서 구현된다. 본 개시에 기술된 실시예들은 하나 이상의 컴퓨터 프로그램들(데이터 프로세싱 장치들에 의한 실행을 위한 또는 데이터 프로세싱 장치의 동작을 제어하기 위한 유형적인 비일시적 프로그램 상에 인코딩된 컴퓨터 프로그램 명령들의 하나 이상의 모듈들)로서 구현된다.

본 개시에 기술된 프로세서들 및 논리 흐름들은 입력 데이터 및 생성 출력을 작동함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래머블 프로세서들에 의해 수행될 수 있다. 또한, 프로세스들 및 논리 흐름들은 전용 논리 회로(예를 들어, FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(응용 주문형 집적 회로))에 의해 수행되고, 장치들 또한 상기 전용 논리 회로로서 구현된다.

유사하게, 동작들이 도면에서 특정 순서로 도시되었지만, 이는 원하는 결과들을 달성하기 위해 상기 동작들이 도시된 특정 순서로 또는 순차적 순서로 수행되어야 한다거나 모든 도시된 동작들이 수행되어야 한다는 것 요구하는 것으로 이해되어서는 아니된다. 특정 환경들에서, 멀티태스팅 및 병렬 프로세싱은 이점이 있다. 게다가, 상기 기술된 구현예들에서 다양한 시스템 컴포넌트들의 분리는 상기 분리가 모든 구현예들에서 상기 분리가 요구되는 것으로서 이해되어서는 아니되며, 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일의 소프트웨어 제품에 통합되거나 하나 이상의 유형의 매체 상에 내장된 다수의 소프트웨어 제품들에 패키징 될 수 있음이 이해되어야 한다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명의 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

레퍼런스 이미지의 적어도 하나의 속성값을 소스 이미지에 전달하는 속성 전달을 학습하는 시스템에 있어서,
오리지날 소스 이미지를 인코딩하여 상기 오리지날 소스 이미지를 특정하는 복수의 속성 값들을 생성하고, 오리지날 레퍼런스 이미지를 인코딩하여 상기 오리지날 레퍼런스 이미지를 특정하는 복수의 속성 값들을 생성하는 인코더;
상기 오리지날 소스 이미지의 속성들 중 적어도 하나(이하 '타겟 속성'이라 칭함)의 값을 상기 오리지날 레퍼런스 이미지의 대응되는 적어도 하나의 속성 값으로 바꾸어, 원하는 타겟 이미지를 특정하는 복수의 속성 값들을 생성하는 컨버터; 및
상기 원하는 타겟 이미지의 속성 값들을 기초로, 타겟 이미지를 생성하는 생성기;
를 포함하는 시스템.
제1항에 있어서,
상기 생성된 타겟 이미지와 상기 오리지날 소스 이미지를 구별하기 위한 구별 모델을 학습하는 구별기를 더 포함하는, 시스템.
제2항에 있어서,
상기 시스템의 트레이닝 동안에,
상기 인코더는 상기 생성된 타겟 이미지를 인코딩하여 상기 생성된 타겟 이미지를 특정하는 복수의 속성 값들을 생성하게 하고,
상기 컨버터는 상기 생성된 타겟 이미지의 속성 값들 중 상기 타겟 속성에 해당하는 적어도 하나의 속성 값을 상기 오리지날 소스 이미지의 상기 타겟 속성에 해당하는 적어도 하나의 속성 값으로 대체하여, 재구성 소스 이미지를 특정하는 복수의 속성 값을 생성하고,
상기 생성기는 상기 재구성 소스 이미지의 속성 값들을 기초로 재구성 소스 이미지를 생성하는, 시스템.
제3항에 있어서,
상기 시스템의 트레이닝 동안에,
상기 컨버터는 상기 오리지날 레퍼런스 이미지의 속성 값들 중 상기 타겟 속성에 해당하는 적어도 하나의 속성 값을 상기 타겟 이미지의 상기 타겟 속성에 해당하는 적어도 하나의 속성 값으로 대체하여, 재구성 레퍼런스 이미지를 특정하는 복수의 속성 값을 생성하고,
상기 생성기는 상기 재구성 레퍼런스 이미지의 속성 값들을 기초로 재구성 레퍼런스 이미지를 생성하는, 시스템.
제3항에 있어서,
상기 시스템의 트레이닝 동안에,
상기 신경망의 파라미터들을 업데이트하기 위해, 상기 재구성 소스 이미지와 상기 오리지날 소스 이미지 간의 차이를 나타내는 재구성 손실(reconstruction loss)과, 상기 재구성 레퍼런스 이미지와 상기 오리지날 레퍼런스 이미지 간의 차이를 나타내는 재구성 손실과, 상기 생성된 타겟 이미지에 대한 생성적 대립 손실(generative adversarial loss)을 이용하는, 시스템.
시각적 속성 전달을 학습하도록 신경망들을 트레이닝하는, 컴퓨터로 구현되는 방법에 있어서, 상기 신경망들로 하여금,
오리지날 레퍼런스 이미지의 타겟 속성을 오리지날 소스 이미지에 전달하여 타겟 이미지를 생성하는 단계;
상기 오리지날 소스 이미지의 타겟 속성을 상기 타겟 이미지에 전달하여 재구성 소스 이미지를 생성하는 단계;
상기 타겟 이미지의 타겟 속성을 상기 오리지날 레퍼런스 이미지에 전달하여 재구성 레퍼런스 이미지를 생성하는 단계; 및
상기 재구성 소스 이미지와 상기 오리지날 소스 이미지 간의 차이를 나타내는 재구성 손실과, 상기 재구성 레퍼런스 이미지와 상기 오리지날 레퍼런스 이미지 간의 차이를 나타내는 재구성 손실과, 상기 생성된 타겟 이미지에 대한 생성적 대립 손실을 이용하여, 상기 신경망들의 파라미터들을 업데이트하는 단계;
를 수행하도록 하는 방법.
제6항에 있어서,
상기 타겟 이미지를 생성하는 단계는,
상기 오리지날 소스 이미지를 인코딩하여 상기 오리지날 소스 이미지를 특정하는 복수의 속성 값들을 생성하는 단계;
상기 오리지날 레퍼런스 이미지를 인코딩하여 상기 오리지날 레퍼런스 이미지를 특정하는 복수의 속성 값들을 생성하는 단계;
상기 오리지날 소스 이미지의 속성들 중 상기 타겟 속성의 값을 상기 오리지날 레퍼런스 이미지의 대응되는 속성 값으로 바꾸어, 상기 타겟 이미지를 특정하는 복수의 속성 값들을 생성하는 단계; 및
상기 타겟 이미지의 속성 값들을 기초로, 상기 타겟 이미지를 생성하는 단계;
를 포함하는 것을 특징으로 하는, 방법.
제7항에 있어서,
상기 재구성 소스 이미지를 생성하는 단계는,
상기 생성된 타겟 이미지를 인코딩하여 상기 생성된 타겟 이미지를 특정하는 복수의 속성 값들을 생성하는 단계;
상기 생성된 타겟 이미지의 속성 값들 중 상기 타겟 속성의 값을 상기 오리지날 소스 이미지의 대응되는 속성 값으로 바꾸어, 재구성 소스 이미지를 특정하는 복수의 속성 값을 생성하는 단계; 및
상기 재구성 소스 이미지를 특정하는 복수의 속성 값들로부터 상기 재구성 소스 이미지를 생성하는 단계;
를 포함하는 것을 특징으로 하는, 방법.
제7항에 있어서,
상기 재구성 레퍼런스 이미지를 생성하는 단계는,
상기 생성된 타겟 이미지를 인코딩하여 상기 생성된 타겟 이미지를 특정하는 복수의 속성 값들을 생성하는 단계;
상기 오리지날 레퍼런스 이미지의 속성 값들 중 상기 타겟 속성의 값을 상기 생성된 타겟 이미지의 대응되는 속성 값으로 바꾸어, 재구성 레퍼런스 이미지를 특정하는 복수의 속성 값을 생성하는 단계; 및
상기 재구성 레퍼런스 이미지를 특정하는 복수의 속성 값들로부터 상기 재구성 레퍼런스 이미지를 생성하는 단계;
를 포함하는 것을 특징으로 하는, 방법.
레퍼런스 이미지의 타겟 속성을 소스 이미지에 전달하는 시각적 속성 전달을 학습하도록 인공 신경망(artificial neural network)을 트레이닝하는, 컴퓨터로 구현되는 방법에 있어서, 상기 인공 신경망으로 하여금,
오리지날 소스 이미지를 인코딩하여 상기 오리지날 소스 이미지를 특정하는 복수의 속성 값들을 생성하고, 오리지날 레퍼런스 이미지를 인코딩하여 상기 오리지날 레퍼런스 이미지를 특정하는 복수의 속성 값들을 생성하는 단계;
상기 오리지날 소스 이미지의 속성들 중 적어도 하나의 타겟 속성의 값을 상기 오리지날 레퍼런스 이미지의 대응되는 적어도 하나의 속성 값으로 바꾸어, 원하는 타겟 이미지를 특정하는 복수의 속성 값들을 생성하는 단계;
상기 원하는 타겟 이미지의 속성 값들을 기초로, 타겟 이미지를 생성하는 단계;
상기 생성된 타겟 이미지를 인코딩하여 상기 생성된 타겟 이미지를 특정하는 복수의 속성 값들을 생성하는 단계;
상기 생성된 타겟 이미지의 속성 값들 중 상기 타겟 속성에 해당하는 적어도 하나의 속성 값을 상기 오리지날 소스 이미지의 상기 타겟 속성에 해당하는 적어도 하나의 속성 값으로 바꾸어, 재구성 소스 이미지를 특정하는 복수의 속성 값을 생성하는 단계;
상기 오리지날 레퍼런스 이미지의 속성 값들 중 상기 타겟 속성에 해당하는 적어도 하나의 속성 값을 상기 타겟 이미지의 상기 타겟 속성에 해당하는 적어도 하나의 속성 값으로 바꾸어, 재구성 레퍼런스 이미지를 특정하는 복수의 속성 값을 생성하는 단계;
상기 재구성 소스 이미지의 속성 값들을 기초로 재구성 소스 이미지를 생성하는 단계;
상기 재구성 레퍼런스 이미지의 속성 값들을 기초로 재구성 레퍼런스 이미지를 생성하는 단계; 및
상기 재구성 소스 이미지와 상기 오리지날 소스 이미지 간의 차이를 나타내는 재구성 손실과, 상기 재구성 레퍼런스 이미지와 상기 오리지날 레퍼런스 이미지 간의 차이를 나타내는 재구성 손실과, 상기 생성된 타겟 이미지에 대한 생성적 대립 손실을 이용하여, 상기 신경망들의 파라미터들을 업데이트하는 단계;
를 수행하도록 하는 방법.