KR102166016B1 - A domain-aware method for image-to-image translations - Google Patents

A domain-aware method for image-to-image translations Download PDF

Info

Publication number
KR102166016B1
KR102166016B1 KR1020190112094A KR20190112094A KR102166016B1 KR 102166016 B1 KR102166016 B1 KR 102166016B1 KR 1020190112094 A KR1020190112094 A KR 1020190112094A KR 20190112094 A KR20190112094 A KR 20190112094A KR 102166016 B1 KR102166016 B1 KR 102166016B1
Authority
KR
South Korea
Prior art keywords
image
instance
area
background
input image
Prior art date
Application number
KR1020190112094A
Other languages
Korean (ko)
Inventor
신병석
이연
윤욱
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020190112094A priority Critical patent/KR102166016B1/en
Application granted granted Critical
Publication of KR102166016B1 publication Critical patent/KR102166016B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

Disclosed is a domain recognition based conversion technique for image-to-image conversion. According to an embodiment of the present invention, a domain conversion method can comprise the following steps of: separating each of an input image and a target image into a background area and an instance area; inputting the background area and the instance area of each of the separated input image and target image to a conversion model generated for image conversion to train the same; and integrating the converted image obtained through the training by using a label generated based on the instance areas of the separated input image and target image.

Description

이미지 대 이미지의 변환을 위한 도메인 인식 기반의 변환 기법{A DOMAIN-AWARE METHOD FOR IMAGE-TO-IMAGE TRANSLATIONS}A domain-aware conversion technique for image-to-image conversion {A DOMAIN-AWARE METHOD FOR IMAGE-TO-IMAGE TRANSLATIONS}

아래의 설명은 이미지 변환 기술에 관한 것이다. The description below relates to the image conversion technology.

Generative adversarial networks (GANs)는 인공신경망(neural network)의 일종으로, 가짜(fake) 이미지를 생성하는 제너레이터(Generator)와 제너레이터(Generator)가 생성한 이미지와 실제 이미지를 구별하는 Discriminator 두 개의 네트워크를 동시에 훈련시킨다. GANs는 도메인 변환 (domain transfer)에서 좋은 효과를 내고 있으며, text-to-image synthesis, super-resolution, image-to-image translation 등 분야에서 state-of-art의 성능을 보이고 있다.Generative adversarial networks (GANs) are a kind of artificial neural network, a generator that generates a fake image and a discriminator that distinguishes the real image from the generated image. Train. GANs have a good effect in domain transfer and show state-of-art performance in fields such as text-to-image synthesis, super-resolution, and image-to-image translation.

의료 영상에 GANs를 활용한 연구는 다양하게 진행되고 있다. 대부분의 연구는 synthesis, segmentation, reconstruction 에 집중되어 있다. 또한 CT와 MR 데이터를 타겟으로 하는 연구가 대부분이며, 적은 비율이나 Retinal Fundus Imaging, histopathology, X-ray를 대상으로 한 연구도 진행되고 있다.Research using GANs for medical imaging is being conducted in various ways. Most of the research is focused on synthesis, segmentation, and reconstruction. In addition, most of the studies targeting CT and MR data are being conducted, and although a small percentage is being studied, studies are being conducted on Retinal Fundus Imaging, histopathology, and X-ray.

Image to Image(I2I)는 이미지 잡음제거(denoising), 이미지 합성(synthetics), 해상도 향상(resolution enhancement)과 같은 다양한 컴퓨터 비전(computer vision) 분야에 활용되고 있다.Image to Image (I2I) is used in various computer vision fields such as image denoising, image synthesis, and resolution enhancement.

단위 행렬(identity matrix)을 이용하여 원본 이미지의 인스턴스(instance)를 구역화(segregate) 하는 도메인 인식(domain-aware) 적대적 생성 신경망(Generative adversarial network, GAN) 프레임워크 (domain-aware GAN, DAGAN)를 제안한다.A domain-aware generative adversarial network (GAN) framework (domain-aware GAN, DAGAN) that segregates instances of the original image using an identity matrix Suggest.

도메인 변환 방법은, 입력 이미지와 목표 이미지 각각을 백그라운드 영역 및 인스턴스 영역으로 각각 분리하는 단계; 상기 분리된 입력 이미지와 목표 이미지 각각의 백그라운드 영역 및 인스턴스 영역을 이미지 변환을 위하여 생성된 변환 모델에 입력하여 학습시키는 단계; 및 상기 학습을 통하여 획득된 변환 이미지를 상기 분리된 입력 이미지와 목표 이미지 각각의 인스턴스 영역에 기초하여 생성된 라벨(label)을 사용하여 통합하는 단계를 포함할 수 있다. The domain conversion method includes: separating each of an input image and a target image into a background area and an instance area; Inputting and training a background area and an instance area of each of the separated input image and target image into a transformation model generated for image transformation; And integrating the transformed image obtained through the learning by using a label generated based on an instance area of each of the separated input image and target image.

상기 각각 분리하는 단계는, 상기 입력 이미지와 상기 목표 이미지 각각으로부터 분리된 인스턴스 영역을 획득하고, 상기 인스턴스 영역을 상기 획득된 인스턴스 영역 이외의 나머지 영역을 픽셀의 평균으로 패딩(padding)하여 백그라운드 영역을 획득하는 단계를 포함할 수 있다. The separating step includes obtaining an instance area separated from each of the input image and the target image, and padding the instance area with an average of pixels other than the acquired instance area to create a background area. It may include the step of obtaining.

상기 통합하는 단계는, 상기 입력 이미지와 목표 이미지 각각을 분리함에 따라 각각의 인스턴스 영역의 위치 값을 단위 행렬로 저장하여 라벨로 저장하고, 상기 저장된 라벨을 사용하여 상기 변환 이미지를 통합하여 이미지를 변환시키는 단계를 포함할 수 있다. In the integrating step, as the input image and the target image are separated, the position value of each instance area is stored as a unit matrix and stored as a label, and the converted image is integrated using the stored label to transform the image. It may include a step of.

상기 학습시키는 단계는, 상기 이미지 변환을 위하여 백그라운드 모델 및 인스턴스 모델을 포함하는 변환 모델을 생성하고, 상기 입력 이미지와 목표 이미지 각각의 백그라운드 영역을 상기 변환 모델에 구성된 공통의 잠재적 공간으로 맵핑시키고, 상기 입력 이미지와 목표 이미지 각각의 인스턴스 영역에 각각의 인스턴스 영역에 의해 공유되는 스타일 코드 및 컨텐츠 코드를 매핑하여 복수 개의 인스턴스 영역을 생성하는 단계를 포함할 수 있다. In the training step, a transformation model including a background model and an instance model is generated for the image transformation, and the background regions of the input image and the target image are mapped to a common potential space configured in the transformation model, and the The method may include generating a plurality of instance areas by mapping style codes and content codes shared by each instance area to each instance area of the input image and the target image.

상기 백그라운드 모델은, 상기 입력 이미지와 목표 이미지 각각의 백그라운드 영역을 백그라운드 네트워크에 입력하여 크로스 도메인 변환(cross-domain transformation)을 위한 학습을 수행하는 것을 포함하고, 상기 인스턴스 모델은, 복원(reconstruction) 모드 및 다중 출력(multi-output) 모드로 구성되는 것을 포함하고, 상기 복원 모드는, 상기 입력 이미지와 목표 이미지 각각의 백그라운드 영역이 변화될 때, 인스턴스 네트워크를 통하여 상기 입력 이미지와 목표 이미지 각각의 인스턴스 영역을 변화시키지 않으면서 통합 이미지가 기 설정된 기준 이상 일치하도록 학습을 수행하고, 상기 다중 출력 모드는, 상기 입력 이미지와 목표 이미지 각각의 인스턴스 영역을 인스턴스 네트워크에 학습시킴에 따라 각각의 인스턴스 영역에 임의의 코드를 추가하여 복수 개의 스타일을 변화시켜 다중 이미지의 출력을 획득하기 위하여 학습시킬 수 있다. The background model includes performing training for cross-domain transformation by inputting a background region of each of the input image and the target image into a background network, and the instance model is a reconstruction mode. And a multi-output mode, wherein the restoration mode includes an instance area of each of the input image and the target image through an instance network when the background area of each of the input image and the target image is changed. The training is performed so that the integrated image matches more than a preset criterion without changing the value, and the multi-output mode is a random pattern in each instance area as the instance area of each of the input image and the target image is learned by the instance network. By adding code, it is possible to learn to change a plurality of styles to obtain output of multiple images.

도메인 변환 시스템은, 입력 이미지와 목표 이미지 각각을 백그라운드 영역 및 인스턴스 영역으로 각각 분리하는 분리부; 상기 분리된 입력 이미지와 목표 이미지 각각의 백그라운드 영역 및 인스턴스 영역을 이미지 변환을 위하여 생성된 변환 모델에 입력하여 학습시키는 학습부; 및 상기 학습을 통하여 획득된 변환 이미지를 상기 분리된 입력 이미지와 목표 이미지 각각의 인스턴스 영역에 기초하여 생성된 라벨(label)을 사용하여 통합하는 통합부를 포함할 수 있다. The domain conversion system includes: a separation unit that separates each of an input image and a target image into a background area and an instance area; A learning unit that inputs and trains a background region and an instance region of each of the separated input image and target image into a transformation model generated for image transformation; And an integration unit for integrating the transformed image obtained through the learning by using a label generated based on an instance area of each of the separated input image and target image.

일 실시예에 따른 도메인 변환 시스템은 단위행렬을 이용하여 원본 이미지로부터 백그라운드 영역과 인스턴스 영역을 분리하고, 전체적으로 UNIT을 기본 모델로 하여 공통의 잠재적 공간을 구하고, 이를 통하여 모델의 안정성을 유지할 수 있다. 또한, 학습을 통하여 보다 유연하게 비대응 데이터 셋의 도메인 변환을 수행할 수 있다.The domain conversion system according to an embodiment may separate a background region and an instance region from an original image using a unit matrix, obtain a common potential space using UNIT as a base model, and maintain model stability through this. In addition, it is possible to perform domain transformation of the non-corresponding data set more flexibly through learning.

도 1은 일 실시예에 따른 비대응 이미지의 도메인 인식 변환을 나타낸 예이다.
도 2는 일 실시예에 따른 도메인 변환 시스템의 백그라운드와 인스턴스 모델의 두 파트로 구성된 것을 나타낸 예이다.
도 3은 일 실시예에 따른 도메인 변환 시스템에서 백그라운드 모델을 설명하기 위한 도면이다.
도 4 및 도 5는 일 실시예에 따른 도메인 변환 시스템에서 인스턴스 모델을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 도메인 변환 시스템에서 이미지를 변환하는 것을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 도메인 변환 시스템에서 smoothed 판별기(discriminator)를 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 도메인 변환 시스템의 구성을 설명하기 위한 블록도이다.
도 9는 일 실시예에 따른 도메인 변환 시스템에서 이미지 대 이미지 변환을 수행하는 방법을 설명하기 위한 흐름도이다.
1 is an example of domain recognition conversion of a non-corresponding image according to an embodiment.
2 is an example showing that the domain conversion system is composed of two parts, a background and an instance model according to an embodiment.
3 is a diagram for describing a background model in a domain conversion system according to an embodiment.
4 and 5 are diagrams for explaining an instance model in a domain conversion system according to an embodiment.
6 is a diagram for explaining converting an image in a domain conversion system according to an exemplary embodiment.
7 is a diagram for explaining a smoothed discriminator in a domain conversion system according to an embodiment.
8 is a block diagram illustrating a configuration of a domain conversion system according to an embodiment.
9 is a flowchart illustrating a method of performing image-to-image conversion in a domain conversion system according to an embodiment.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings.

도 1은 비대응 이미지의 도메인 인식 변환을 나타낸 예이다.1 is an example showing domain recognition transformation of a non-corresponding image.

백그라운드(background)와 인스턴스(instance) 도메인의 변환을 각각 수행하고, 변환된 각각의 백그라운드 도메인 및 인스턴스 도메인을 스무스 라벨(smoothed label)을 통해 통합(intergration)할 수 있다. 이하, 이미지를 통합하는 방법에 대하여 구체적으로 설명하기로 한다. The background and instance domains may be converted, respectively, and the converted background domains and instance domains may be integrated through a smooth label. Hereinafter, a method of integrating images will be described in detail.

도 2는 일 실시예에 따른 도메인 변환 시스템의 백그라운드와 인스턴스 모델의 두 파트로 구성된 것을 나타낸 예이다. 2 is an example showing that the domain conversion system is composed of two parts, a background and an instance model according to an embodiment.

도메인 변환 시스템에서 제안하는 모델은 입력 이미지 A와 목표 이미지 B 사이의 인스턴스 인식 변환(instance-aware translation)을 수행할 수 있다. 이때, 각각의 이미지는 다음과 같이, 백그라운드 영역과 인스턴스 영역으로 이루어졌다고 가정하기로 한다. The model proposed by the domain conversion system can perform instance-aware translation between the input image A and the target image B. At this time, it is assumed that each image is composed of a background area and an instance area as follows.

Figure 112019093113797-pat00001
Figure 112019093113797-pat00001

도메인 변환 시스템에서 제안하는 변환 모델은 백그라운드 모델과 인스턴스 모델로 구성될 수 있다. 도메인 변환 시스템은 전체 네트워크를 훈련하기 전에, 입력 이미지 A와 목표 이미지 B를 포함하는 각각의 원본 이미지로부터 인스턴스 영역 A insB ins를 잘라낼(cutting) 수 있다. 도메인 변환 시스템은 각각의 원본 이미지로부터 인스턴스 영역을 잘라낸 위치 값을 단위 행렬로 저장하여 라벨(label)로 사용할 수 있다. 잘려진 인스턴스 영역들은 나머지 이미지의 평균 값으로 대체될 수 있다. 변환 모델에 구성된 백그라운드 네트워크와 인스턴스 네트워크를 훈련한 후, 변환된 이미지를 복원하는 통합(intergration)과정이 수행될 수 있다.The transformation model proposed by the domain transformation system can be composed of a background model and an instance model. The domain transformation system can cut the instance regions A ins and B ins from each of the original images including the input image A and the target image B, before training the entire network. The domain conversion system may store a position value obtained by cutting an instance region from each original image as a unit matrix and use it as a label. The cropped instance regions can be replaced with the average value of the remaining images. After training the background network and the instance network configured in the transformation model, an integration process of restoring the transformed image may be performed.

도 3은 일 실시예에 따른 도메인 변환 시스템에서 백그라운드 모델을 설명하기 위한 도면이다. 3 is a diagram for describing a background model in a domain conversion system according to an embodiment.

백그라운드 모델은 다른 부분(different part)을 위해 다른 변환(different translation)을 적용하기 위한 것이다. 도 3을 참고하면, 백그라운드 모델은 두 백그라운드 입력 사이의 크로스 도메인 변환(cross-domain transformation) 학습을 목표로 한다. The background model is for applying different translations for different parts. Referring to FIG. 3, the background model aims at learning a cross-domain transformation between two background inputs.

인스턴스 도메인과 백그라운드 도메인을 예시로 사용하여 변환을 수행할 수 있다. 입력 이미지를 분리함에 따라 인스턴스 영역이 획득될 수 있다. 백그라운드 영역은 픽셀 값의 평균으로 패딩(padding)하여 획득될 수 있다. 백그라운드 모델은 전체 프레임워크에서 독립적이며, 백그라운드 모델은 인스턴스 도메인과 백그라운드 도메인을 포함하는 두 도메인 사이의 시각적 변환을 학습할 수 있다. 이러한 추론을 통하여 인코더와 생성기(generator)는 각각 다음과 같이 정의될 수 있다. Conversion can be performed using the instance domain and background domain as examples. By separating the input image, an instance area may be obtained. The background area may be obtained by padding with an average of pixel values. The background model is independent of the entire framework, and the background model can learn visual transformation between the two domains, including the instance domain and the background domain. Through this inference, an encoder and a generator can be defined as follows, respectively.

Figure 112019093113797-pat00002
Figure 112019093113797-pat00002

UNIT과 유사하게, 인코더

Figure 112019093113797-pat00003
를 통해 주어진 목표 백그라운드(target background)
Figure 112019093113797-pat00004
and
Figure 112019093113797-pat00005
일 때, 기본적인 잠재적 공간을 맵핑할 수 있다.
Figure 112019093113797-pat00006
Figure 112019093113797-pat00007
는 각각 잠재 코드(latent code)를 나타낸다. 실시예에서는 마지막 두 레이어
Figure 112019093113797-pat00008
와 첫번째 레이어
Figure 112019093113797-pat00009
의 가중치 공유(weight sharing)를 수행할 수 있다. 동시에 두 개의 판별기(discriminator)
Figure 112019093113797-pat00010
를 추가할 수 있다. 판별기들은 두 백그라운드 도메인 사이의 변환이 적절한 것인지를 판별하고
Figure 112019093113797-pat00011
Figure 112019093113797-pat00012
의 적재적 프로세스를 수행할 수 있다. 이때, 적대적 프로세스란
Figure 112019093113797-pat00013
Figure 112019093113797-pat00014
Figure 112019093113797-pat00015
에 의해 판별되는 것을 의미한다. 동시에
Figure 112019093113797-pat00016
Figure 112019093113797-pat00017
Figure 112019093113797-pat00018
에 의해 판별될 수 있다. Similar to UNIT, encoder
Figure 112019093113797-pat00003
Target background given through
Figure 112019093113797-pat00004
and
Figure 112019093113797-pat00005
When is, basic potential space can be mapped.
Figure 112019093113797-pat00006
Wow
Figure 112019093113797-pat00007
Each represents a latent code. In the example, the last two layers
Figure 112019093113797-pat00008
And the first layer
Figure 112019093113797-pat00009
Weight sharing of may be performed. Two discriminators at the same time
Figure 112019093113797-pat00010
Can be added. The discriminators determine whether the conversion between the two background domains is appropriate
Figure 112019093113797-pat00011
Wow
Figure 112019093113797-pat00012
Can carry out the load-bearing process. At this time, the hostile process
Figure 112019093113797-pat00013
Wow
Figure 112019093113797-pat00014
end
Figure 112019093113797-pat00015
Means to be determined by At the same time
Figure 112019093113797-pat00016
Wow
Figure 112019093113797-pat00017
Is
Figure 112019093113797-pat00018
Can be determined by

도 4 및 도 5는 일 실시예에 따른 도메인 변환 시스템에서 인스턴스 모델을 설명하기 위한 도면이다.4 and 5 are diagrams for explaining an instance model in a domain conversion system according to an embodiment.

인스턴스 네트워크는 복원(reconstruction)와 다중 출력(multi-output)모드로 구성될 수 있다. 인스턴스 모델의 목표는 인스턴스 영역의 독립성(independent)을 유지하는 것이다. 다시 말해서, 백그라운드의 변환에 영향을 받지 않도록 하는 것이다. 첫 번째, DCGAN (Deep Convolution Generative Adversarial Networks)과 유사한 구조로 단순한 인스턴스 복원을 수행하여 가우시안 분포 N(0,1)을 따르는 잡음 벡터(noise vector)를 끌어낸다. 이것은 전체 프레임워크(백그라운드 네트워크 포함)가 백그라운드 영역을 다른 스타일로 변환하되, 인스턴스 영역은 변화없이 남기도록 한다. 이미지는 스타일과 컨텐츠 코드들(content codes)로 구성되며, 인스턴스 부분을 다중 출력 모델로 변환할 수 있다. The instance network may be configured in reconstruction and multi-output modes. The goal of the instance model is to keep the instance domain independent. In other words, it is not affected by background transitions. First, a simple instance restoration is performed with a structure similar to DCGAN (Deep Convolution Generative Adversarial Networks), and a noise vector following a Gaussian distribution N(0,1) is extracted. This allows the entire framework (including the background network) to transform the background region into a different style, but the instance region remains unchanged. The image is composed of styles and content codes, and the instance part can be converted into a multiple output model.

복원 모드(reconstruction mode)는 인스턴스 영역을 변화시키지 않으면서 마지막 통합 이미지가 최대한 현실적이도록 생성할 수 있다. 인스턴스 영역의 사이즈를 고려하여 생성기와 판별기 내부의 convolutional 레이어 복수 개(예를 들면, 3개)를 두고, 정규 분포에서 샘플링한 랜덤 노이즈 Z ~ N (0, 1)를 입력 벡터로 사용할 수 있다. 도 4를 참고하면, 복원 모드를 나타낸 것으로, 세 개의 블럭(block)으로 구성된 판별기는 원본 이미지의 입력과 원본 이미지의 입력으로부터 생성된 결과 G(z)를 구분할 수 있다. 생성기의 각 블럭은 "Transposed convolution + Batch normalization + Relu activation"으로 구성될 수 있다. 판별기의 블럭이 "Convolutional + Batch normalization + leakly Relu activation"으로 구성된 것과 구분된다.In the reconstruction mode, the last unified image may be created to be as realistic as possible without changing the instance area. Considering the size of the instance area, a plurality of convolutional layers (eg, 3) inside the generator and discriminator can be placed, and random noise Z ~ N (0, 1) sampled from the normal distribution can be used as an input vector. . Referring to FIG. 4, a reconstruction mode is shown, and a discriminator composed of three blocks can distinguish an input of an original image and a result G(z) generated from an input of the original image. Each block of the generator can consist of "Transposed convolution + Batch normalization + Relu activation". The discriminator block is distinguished from the one composed of "Convolutional + Batch normalization + leakly Relu activation".

도 5를 참고하면, 다중 출력 모드(multiple-output mode)는 원본 이미지로부터 잘려진 인스턴스 영역은 완전히 독립적이다는 조건 하에서, 인스턴스 영역에 대하여 원하는 모든 변환 작업을 수행할 수 있다. 일반적인 접근법에서, 다양한 출력을 획득하기 위하여 이미지를 스타일과 컨텐츠 정보의 조합으로 본다. 특히, 만약 적절한 속성이나 스타일 코드를 추가한다면, 이미지를 임의의 스타일로 변환할 수 있다. MUNIT(multimodal Unsupervised Image-to-image Translation) 구조와 유사하게, 목표(target) 인스턴스 영역에서 가져온 스타일 코드를 무작위로 샘플링하고, 이를 컨텐츠 코드와 재결합하여 복수의 인스턴스를 생성할 수 있다. Referring to FIG. 5, in the multiple-output mode, all desired conversion operations may be performed on the instance area under the condition that the instance area cut from the original image is completely independent. In a general approach, images are viewed as a combination of style and content information to obtain various outputs. In particular, you can convert an image to an arbitrary style if you add appropriate attributes or style codes. Similar to the structure of multimodal unsupervised image-to-image translation (MUNIT), it is possible to generate multiple instances by randomly sampling the style code obtained from the target instance area and recombining it with the content code.

입력 인스턴스 영역A ins 와 목표 인스턴스 영역 B ins가 주어지면, 인코더

Figure 112019093113797-pat00019
에서 입력 인스턴스 영역A ins 와 목표 인스턴스 영역 B ins를 스타일과 컨텐츠 공간(content space)으로 각각 맵핑할 수 있다(
Figure 112019093113797-pat00020
는 입력 인스턴스 영역A ins 와 목표 인스턴스 영역 B ins의 스타일과 컨텐츠 공간을 나타낸다.).Given an input instance area A ins and a target instance area B ins , the encoder
Figure 112019093113797-pat00019
In, you can map the input instance area A ins and the target instance area B ins to style and content space respectively (
Figure 112019093113797-pat00020
Represents the style and content space of the input instance area A ins and the target instance area B ins ).

Figure 112019093113797-pat00021
Figure 112019093113797-pat00021

백그라운드 모델의 공통 공간(common space) 셋팅처럼, 컨텐츠 공간 역시 입력 인스턴스 영역 및 목표 인스턴스 영역, 즉, 두 인스턴스 영역에 의해 공유될 수 있다. 그 후, 목표 인스턴스 영역 B ins의 스타일

Figure 112019093113797-pat00022
및 입력 인스턴스 영역A ins의 스타일
Figure 112019093113797-pat00023
에서 무작위로 샘플링 된 두 스타일 코드
Figure 112019093113797-pat00024
와 입력 인스턴스 영역A ins 와 목표 인스턴스 영역 B ins의 컨텐츠 코드
Figure 112019093113797-pat00025
,
Figure 112019093113797-pat00026
를 통합할 수 있다. 학습 과정에서 획득된 순환적 의미(Cycle sementics)를 통해 양방향 인스턴스 변환을 수행할 수 있다. 도 5는 Pascal VOC 데이터 셋에 다중 출력 모델을 적용한 예이다. Like the common space setting of the background model, the content space can also be shared by the input instance area and the target instance area, that is, two instance areas. After that, the style of the target instance area B ins
Figure 112019093113797-pat00022
And the style of the input instance area A ins
Figure 112019093113797-pat00023
Two style codes randomly sampled from
Figure 112019093113797-pat00024
And the content code of the input instance area A ins and the target instance area B ins
Figure 112019093113797-pat00025
,
Figure 112019093113797-pat00026
Can be integrated. Bi-directional instance conversion can be performed through cycle sementics acquired in the learning process. 5 is an example of applying a multiple output model to a Pascal VOC data set.

실시예에서 제안된 모델의 손실 함수는 백그라운드 모델과 인스턴스 모델에 따라 다르게 사용될 수 있다. 백그라운드와 인스턴스 변환 문제를 서로 연관 지어 해결하기 위한 전체 목적 함수(full object function)는 다음과 같다.The loss function of the model proposed in the embodiment may be used differently depending on the background model and the instance model. The full object function to solve the problem of background and instance conversion is as follows.

Figure 112019093113797-pat00027
Figure 112019093113797-pat00027

인스턴스 모델은 유연한 변환(flexible transformation)을 위해 복원 모드(reconstruction mode)와 다중 출력 모드(multi-output mode)로 구성될 수 있다. 복원 모드는 백그라운드 영역이 변환될 때 인스턴스 영역이 사라지지 않도록 하고, 다중 출력 모드는 다양한 인스턴스 영역의 변환을 생성하기 위해 사용될 수 있다. 예를 들면, 입력 이미지에서 인스턴스 영역을 자른 후, 상기 인스턴스 영역에 임의의 코드를 추가하여 스타일을 변환할 수 있다.The instance model may be composed of a reconstruction mode and a multi-output mode for flexible transformation. The restoration mode prevents the instance area from disappearing when the background area is transformed, and the multiple output mode may be used to generate transformations of various instance areas. For example, after cropping the instance area from the input image, it is possible to change the style by adding arbitrary code to the instance area.

도 4에 도시된 바와 같이, 복원 모드의 인스턴스 네트워크는 잡음 벡터

Figure 112019093113797-pat00028
로 구성되며, 두 개의 생성기와 판별기
Figure 112019093113797-pat00029
로 구성될 수 있다. 이때, 각 생성기와 판별기는 3개의 레이어로 구성될 수 있다. 적대적 손실(adversarial loss)은 아래와 같이 나타난다.4, the instance network in the reconstruction mode is a noise vector
Figure 112019093113797-pat00028
Consists of two generators and a discriminator
Figure 112019093113797-pat00029
It can be composed of. At this time, each generator and discriminator may be composed of three layers. Adversarial loss appears as follows.

Figure 112019093113797-pat00030
Figure 112019093113797-pat00030

다중 출력 모드가 도시된 도 5 에서 볼 수 있듯, 입력 인스턴스 영역 A ins은 인코더-생성기(encoder-generator)의 집합

Figure 112019093113797-pat00031
으로 구성되며, 다중 출력 모드에서의
Figure 112019093113797-pat00032
은 복원 손실(reconstruction loss)과 적대적 손실(adversarial loss)로 구성될 수 있다. As can be seen in FIG. 5 showing the multiple output mode, the input instance area A ins is a set of encoder-generators.
Figure 112019093113797-pat00031
And in multiple output mode
Figure 112019093113797-pat00032
May be composed of reconstruction loss and adversarial loss.

손실 함수 및 학습(loss function and training)에 대하여 설명하기로 한다. The loss function and training will be described.

복원 손실이란 일반적으로 인스턴스 영역은 잠재 코드(latent code)에 대한 이미지로 변환되어 처리될 수 있다. 그러나, 스타일 코드는 정규 분포 N(0,1)에서 샘플링되지 않는다. 실시예에 따른 모델에서는 스타일 인코더와 컨텐츠 인코더를 사용하여 변환된 인스턴스 영역이 목표 도메인의 속성을 유지하게 한다. 이러한 손실 함수의 목표는 학습 후 이미지가 잠재 코드와 의미론적 일관성을 복원할 수 있도록 하는 것이다.In general, the restoration loss can be processed by converting the instance area into an image for latent code. However, the style code is not sampled from the normal distribution N(0,1). In the model according to the embodiment, the transformed instance area using the style encoder and the content encoder maintains the properties of the target domain. The goal of this loss function is to allow the image to restore latent code and semantic consistency after learning.

적대적 손실에서 GAN을 사용하는 주요한 목적은 적대적 학습 과정을 통해 목표 도메인에 최대한 일치하는 결과를 획득할 수 있기 때문이다. 판별기

Figure 112019093113797-pat00033
Figure 112019093113797-pat00034
를 사용하여 변환된 인스턴스 영역과 실제 인스턴스를 구분할 수 있다. The main purpose of using GAN in hostile loss is that it is possible to obtain a result that matches the target domain as much as possible through the hostile learning process. Discriminator
Figure 112019093113797-pat00033
Wow
Figure 112019093113797-pat00034
You can use to distinguish between the transformed instance area and the actual instance.

Figure 112019093113797-pat00035
Figure 112019093113797-pat00035

Figure 112019093113797-pat00036
Figure 112019093113797-pat00036

백그라운드 손실(background loss)에 대하여 설명하기로 한다. The background loss will be described.

백그라운드 모델은

Figure 112019093113797-pat00037
로 구성될 수 있다. 백그라운드 모델과 인스턴스 모델은 통합 이전에는 서로 독립적이다. 백그라운드 모델의 시각적 도메인은 복원과 변환 스트림(reconstruction and translation stream)을 따른다. 백그라운드 모델은 VAEs와 GANs를 표현하는
Figure 112019093113797-pat00038
와 의미론적 일관성 손실(semantic-consistency loss)를 사용할 수 있다. 세 개의 가중치 파라미터
Figure 112019093113797-pat00039
는 각각의 컴포넌트의 영향을 측정하는데 적용될 수 있다. The background model is
Figure 112019093113797-pat00037
It can be composed of. Background model and instance model are independent of each other prior to integration. The visual domain of the background model follows a reconstruction and translation stream. The background model expresses VAEs and GANs
Figure 112019093113797-pat00038
And semantic-consistency loss can be used. Three weight parameters
Figure 112019093113797-pat00039
Can be applied to measure the impact of each component.

Figure 112019093113797-pat00040
Figure 112019093113797-pat00040

VAE 구조는 학습 데이터셋의 주변 로그 우도(marginal log-likelihood) 근사를 통해 잠재 모델(latent model) 학습을 목표로 하는 ELBO(the lower bound of latent codes)를 사용하며, 목적 함수는 다음과 같다.The VAE structure uses the lower bound of latent codes (ELBO), which aims to learn the latent model through approximation of the marginal log-likelihood of the training dataset, and the objective function is as follows.

Figure 112019093113797-pat00041
Figure 112019093113797-pat00041

상기 목적 함수에서 가중치 파라미터인

Figure 112019093113797-pat00042
는 목적 함수와 쿨백-라이블러 발산(KL divergence) 의 영향력을 조절한다. 쿨백-라이블러 발산은
Figure 112019093113797-pat00043
이 얼마나 사전 확률
Figure 112019093113797-pat00044
와 비슷한가를 추정하는 평가 지표이다. 사전 확률은 공통 컨텐츠 공간(common content space)
Figure 112019093113797-pat00045
의 분포를 나타낸다. 실시예에서는 샘플링의 성능을 높이기 위하여 라플라시안 분포(Laplacian distributions)를 따르는
Figure 112019093113797-pat00046
와 표준 분포를 따르는
Figure 112019093113797-pat00047
를 각각 모델링 할 수 있다.The weight parameter in the objective function
Figure 112019093113797-pat00042
Controls the influence of the objective function and the KL divergence. Coolback-Leibler divergence
Figure 112019093113797-pat00043
What a prior probability
Figure 112019093113797-pat00044
It is an evaluation index that estimates whether it is similar to Prior probabilities are common content space
Figure 112019093113797-pat00045
Shows the distribution of In an embodiment, in order to improve the performance of the sampling, Laplacian distributions are followed.
Figure 112019093113797-pat00046
And follow the standard distribution
Figure 112019093113797-pat00047
Each can be modeled.

Figure 112019093113797-pat00048
Figure 112019093113797-pat00048

GAN의 목적 함수는 적대적 프로세스에서 이미지를 변환하고 복원하는 것을 목표로 한다. The objective function of GAN aims to transform and restore images in hostile processes.

Figure 112019093113797-pat00049
Figure 112019093113797-pat00049

의미론적 일관성 손실 함수(semantic-consistency loss function)는 이미지가 원래의 잠재적 공간으로 다시 맵핑될 수 있도록 하며, 이때, 목표 도메인의 특징은 잃지 않도록 한다. 실시예에 따른 모델은 UNIT 처럼 L1 norm (

Figure 112019093113797-pat00050
) 을 사용하여, 잠재적 공간의 거리를 측정하는 쿨백-라이블러 발산을 대신하여 바로 의미론적 차이를 비교할 수 있다.The semantic-consistency loss function allows the image to be mapped back to the original potential space, and at this time, the characteristics of the target domain are not lost. The model according to the embodiment is L1 norm (
Figure 112019093113797-pat00050
), we can directly compare the semantic differences in place of the Coolback-Leibler divergence, which measures the distance of the potential space.

도 6은 일 실시예에 따른 도메인 변환 시스템에서 이미지를 변환하는 것을 설명하기 위한 도면이다. 6 is a diagram for explaining converting an image in a domain conversion system according to an exemplary embodiment.

일 실시예에 따른 도메인 변환 시스템은 이미지를 백그라운드 영역과 인스턴스 영역으로 분리한 다음, 분리된 두 영역을 독립적으로 변환 네트워크에 입력할 수 있다. 그리고 나서, 저장된 라벨을 사용하여 변환된 두 영역을 통합할 수 있다. 이때, 통합 과정을 통해 어떻게 실제처럼 보이게 할 것인지, 단순히 자르고 나서 각각을 변환하고 통합하기만 한다면 백그라운드 영역과 인스턴스 부분이 완전히 다른 방향을 갖기에 통합 결과가 좋지 않을 것이라는 점을 고려해야 한다. The domain conversion system according to an embodiment may divide an image into a background area and an instance area, and then independently input the two separated areas into the conversion network. You can then use the saved label to merge the two transformed regions. At this time, it should be considered that how to make it look real through the integration process, that if you simply cut and then transform and integrate each, the integration result will not be good because the background area and the instance part have completely different directions.

도 6을 참고하면, "smoothing"이 없는 경우의 변환을 나타낸 예로서, 이미지는 백그라운드 영역(Bgr)과 인스턴스 영역(Ins)으로 나뉘고, 백그라운드 영역 및 인스턴스 영역이 백그라운드 네트워크인 model bgr 과 인스턴스 네트워크인 model ins 으로 입력될 수 있다. 변환이 종료된 후, 두 네트워크에서 생성된 결과가 전체 이미지로 통합될 수 있다. Referring to FIG. 6, as an example showing the transformation when there is no "smoothing", the image is divided into a background area (Bgr) and an instance area (Ins), and the background area and the instance area are model bgr which is a background network and an instance network. It can be entered as model ins . After the conversion is complete, the results generated by the two networks can be integrated into the entire image.

통합 후 이미지를 사실적으로 유지하기 위하여 라벨 스무딩(label smoothing) 기술이 사용될 수 있다. 구체적으로, GAN은 판별기가 입력과 모델 데이터 사이의 비율을 추정할 수 있을 때 효과적임이 알려져 있다.

Figure 112019093113797-pat00051
로 표현되는 어느 포인트에 대하여 아래와 같이 정리될 수 있다.A label smoothing technique can be used to keep the image realistic after integration. Specifically, GAN is known to be effective when the discriminator can estimate the ratio between the input and model data.
Figure 112019093113797-pat00051
For any point expressed as, it can be summarized as follows.

Figure 112019093113797-pat00052
Figure 112019093113797-pat00052

이전 단계의 조건에 따라 판별기를 아래와 같이 학습시킬 수 있다.According to the conditions of the previous step, the discriminator can be learned as follows.

Figure 112019093113797-pat00053
Figure 112019093113797-pat00053

(인스턴스) 복원 모드:(Instance) restore mode:

Figure 112019093113797-pat00054
Figure 112019093113797-pat00054

(인스턴스) 다중 출력 모드:(Instance) Multiple output mode:

Figure 112019093113797-pat00055
Figure 112019093113797-pat00055

model bgr 이 백그라운드 네트워크를 나타내고, model ins 이 인스턴스 네트워크를 나타낸다고 하자. 모델에 의해 생성된 출력이 통합 과정을 거친 경우, 전체 이미지 I A , I B 로 나타낸다고 하면, 다음과 같이 나타낼 수 있다. Suppose model bgr represents the background network and model ins represents the instance network. If the output generated by the model has gone through the integration process, it can be expressed as follows if the entire image I A and I B are represented.

Figure 112019093113797-pat00056
Figure 112019093113797-pat00056

통합 후, B, I A 와 A, I B 를 구분하기 위해 다른 한 쌍의 판별기 {D A , D B }가 추가될 수 있다. 통합이 정확히 원본 도메인 A와 B같지 않으므로, 파라미터

Figure 112019093113797-pat00057
를 추가하여 훈련 데이터를 스무딩(smoothing)한다. 파라미터는 아래와 같이 주어질 수 있다.After integration, another pair of discriminators {D A , D B } can be added to distinguish B , I A from A, I B. Since the integration is not exactly the same as the original domains A and B, the parameters
Figure 112019093113797-pat00057
The training data is smoothed by adding. Parameters can be given as follows.

Figure 112019093113797-pat00058
Figure 112019093113797-pat00058

그런 다음, 파라미터

Figure 112019093113797-pat00059
를 판별 프로세스에 추가하기 위한 한 쌍의 판별기 {D A , D B }를 이용하여 비율을 측정할 수 있다. Then, the parameters
Figure 112019093113797-pat00059
The ratio can be measured using a pair of discriminators {D A , D B } to add to the discrimination process.

Figure 112019093113797-pat00060
Figure 112019093113797-pat00060

Smoothing 파라미터

Figure 112019093113797-pat00061
가 원본 이미지와 비교하여 출력을 덜 확신하게(less confident)하고 출력의 스타일에 영향을 주기는 하지만, 이 조절(adjustment)은 통합을 더 실제적으로 만들고, 이미지가 완전히 다른 두 이미지에서 합성된 것을 눈치챌 수 없게 한다.Smoothing parameter
Figure 112019093113797-pat00061
Is less confident in the output compared to the original image and affects the style of the output, but this adjustment makes the integration more realistic, and you notice that the image is composited from two completely different images. Make it impossible to hit.

도 7을 참고하면, smoothed 판별기(discriminator)를 설명하기 위한 도면이다. 입력 이미지 A로부터 인스턴스 영역 A ins와 백그라운드 영역 A bgr를 분리하고, 인스턴스 모델 model ins 와 백그라운드 모델 model bgr 을 통해 전체 이미지 I A 가 라벨을 통해 생성될 수 있다. 실시예에 따른 모델은 새로운 판별기 D A I A 와 목표 이미지 B를 구분하기 위하여 추가할 수 있다. Referring to FIG. 7, it is a diagram for explaining a smoothed discriminator. The instance area A ins and the background area A bgr are separated from the input image A, and the entire image I A can be generated through the label through the instance model model ins and the background model model bgr . The model according to the embodiment may add a new discriminator D A to distinguish I A from the target image B.

도 8은 일 실시예에 따른 도메인 변환 시스템의 구성을 설명하기 위한 블록도이고, 도 9는 일 실시예에 따른 도메인 변환 시스템에서 이미지 대 이미지 변환을 수행하는 방법을 설명하기 위한 흐름도이다. 8 is a block diagram illustrating a configuration of a domain conversion system according to an embodiment, and FIG. 9 is a flowchart illustrating a method of performing image-to-image conversion in a domain conversion system according to an embodiment.

도메인 변환 시스템(800)의 프로세서는 분리부(810), 학습부(820) 및 통합부(830)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 도메인 변환 시스템(800)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 9의 이미지 대 이미지 변환을 수행하는 방법이 포함하는 단계들(910 내지 930)을 수행하도록 도메인 변환 시스템(800)을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. The processor of the domain conversion system 800 may include a separation unit 810, a learning unit 820, and an integration unit 830. Components of such a processor may be expressions of different functions performed by the processor according to a control command provided by a program code stored in the domain conversion system 800. The processor and components of the processor may control the domain conversion system 800 to perform steps 910 to 930 included in the method of performing image-to-image conversion of FIG. 9. In this case, the processor and the components of the processor may be implemented to execute an instruction according to the code of the operating system included in the memory and the code of at least one program.

프로세서는 이미지 대 이미지 변환을 수행하는 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 도메인 변환 시스템(800)에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 도메인 변환 시스템(800)을 제어할 수 있다. 이때, 프로세서 및 프로세서가 포함하는 프로세서는 분리부(810), 학습부(820) 및 통합부(830) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(910 내지 930)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다. The processor may load program code stored in a file of a program for a method of performing image-to-image conversion into a memory. For example, when a program is executed in the domain conversion system 800, the processor may control the domain conversion system 800 to load the program code from the program file into the memory under the control of the operating system. At this time, in the processor and the processor included in the processor, each of the separating unit 810, the learning unit 820, and the integrating unit 830 executes a command of a corresponding part of the program code loaded into the memory, and the subsequent steps 910 to 930) may be different functional expressions of the processor.

단계(910)에서 분리부(810)는 입력 이미지와 목표 이미지 각각을 백그라운드 영역 및 인스턴스 영역으로 각각 분리할 수 있다. 분리부(810)는 입력 이미지와 상기 목표 이미지 각각으로부터 분리된 인스턴스 영역을 획득하고, 인스턴스 영역을 획득된 인스턴스 영역 이외의 나머지 영역을 픽셀의 평균으로 패딩(padding)하여 백그라운드 영역을 획득할 수 있다. In step 910, the separating unit 810 may separate each of the input image and the target image into a background area and an instance area. The separating unit 810 may obtain an instance area separated from each of the input image and the target image, and obtain a background area by padding the remaining area other than the obtained instance area with the average of the pixels. .

단계(920)에서 학습부(820)는 분리된 입력 이미지와 목표 이미지 각각의 백그라운드 영역 및 인스턴스 영역을 이미지 변환을 위하여 생성된 변환 모델에 입력하여 학습시킬 수 있다. 학습부(820)는 이미지 변환을 위하여 백그라운드 모델 및 인스턴스 모델을 포함하는 변환 모델을 생성하고, 입력 이미지와 목표 이미지 각각의 백그라운드 영역을 변환 모델에 구성된 공통의 잠재적 공간으로 맵핑시키고, 입력 이미지와 목표 이미지 각각의 인스턴스 영역에 각각의 인스턴스 영역에 의해 공유되는 스타일 코드 및 컨텐츠 코드를 매핑하여 복수 개의 인스턴스 영역을 생성할 수 있다. 이때, 백그라운드 모델은, 입력 이미지와 목표 이미지 각각의 백그라운드 영역을 백그라운드 네트워크에 입력하여 크로스 도메인 변환(cross-domain transformation)을 위한 학습을 수행할 수 있다. 인스턴스 모델은, 복원(reconstruction) 모드 및 다중 출력(multi-output) 모드로 구성되는 것을 포함하고, 복원 모드는, 입력 이미지와 목표 이미지 각각의 백그라운드 영역이 변화될 때, 인스턴스 네트워크를 통하여 입력 이미지와 목표 이미지 각각의 인스턴스 영역을 변화시키지 않으면서 통합 이미지가 기 설정된 기준 이상 일치하도록 학습을 수행하고, 다중 출력 모드는, 입력 이미지와 목표 이미지 각각의 인스턴스 영역을 인스턴스 네트워크에 학습시킴에 따라 각각의 인스턴스 영역에 임의의 코드를 추가하여 복수 개의 스타일을 변화시켜 다중 이미지의 출력을 획득하기 위하여 학습시킬 수 있다. In step 920, the learning unit 820 may input the separated input image and the background area and the instance area of each of the target image into a transformation model generated for image transformation and train it. The learning unit 820 generates a transformation model including a background model and an instance model for image transformation, maps the background region of each of the input image and the target image to a common potential space configured in the transformation model, and A plurality of instance areas may be created by mapping style codes and content codes shared by each instance area to each instance area of the image. In this case, the background model may perform training for cross-domain transformation by inputting a background region of each of the input image and the target image to the background network. The instance model includes a reconstruction mode and a multi-output mode, and the reconstruction mode includes an input image and an input image through the instance network when the background area of each of the input image and the target image is changed. The training is performed so that the integrated image matches more than a preset criterion without changing the instance area of each target image, and in the multiple output mode, each instance is learned by learning the instance area of each of the input image and the target image to the instance network. By adding an arbitrary code to an area, it is possible to learn to obtain output of multiple images by changing a plurality of styles.

단계(930)에서 통합부(830)는 학습을 통하여 획득된 변환 이미지를 분리된 입력 이미지와 목표 이미지 각각의 인스턴스 영역에 기초하여 생성된 라벨(label)을 사용하여 통합할 수 있다. 통합부(830)는 입력 이미지와 목표 이미지 각각을 분리함에 따라 각각의 인스턴스 영역의 위치 값을 단위 행렬로 저장하여 라벨로 저장하고, 저장된 라벨을 사용하여 상기 변환 이미지를 통합하여 이미지를 변환시킬 수 있다. In step 930, the integrating unit 830 may integrate the transformed image acquired through learning by using a label generated based on the separated input image and the instance area of each of the target image. The integration unit 830 may convert the image by storing the position value of each instance area as a unit matrix as a unit matrix and storing it as a label, and integrating the converted image using the stored label as each of the input image and the target image is separated. have.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the devices and components described in the embodiments are, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA). , A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, such as one or more general purpose computers or special purpose computers. The processing device may execute an operating system (OS) and one or more software applications executed on the operating system. In addition, the processing device may access, store, manipulate, process, and generate data in response to the execution of software. For the convenience of understanding, although it is sometimes described that one processing device is used, one of ordinary skill in the art, the processing device is a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to behave as desired or processed independently or collectively. You can command the device. Software and/or data may be interpreted by a processing device or to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. Can be embodyed in The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of the program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described by the limited embodiments and drawings, various modifications and variations are possible from the above description by those of ordinary skill in the art. For example, the described techniques are performed in a different order from the described method, and/or components such as a system, structure, device, circuit, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and claims and equivalents fall within the scope of the claims to be described later.

Claims (6)

도메인 변환 방법에 있어서,
입력 이미지와 목표 이미지 각각을 백그라운드 영역 및 인스턴스 영역으로 각각 분리하는 단계;
상기 분리된 입력 이미지와 목표 이미지 각각의 백그라운드 영역 및 인스턴스 영역을 이미지 변환을 위하여 생성된 변환 모델에 입력하여 학습시키는 단계; 및
상기 학습을 통하여 획득된 변환 이미지를 상기 분리된 입력 이미지와 목표 이미지 각각의 인스턴스 영역에 기초하여 생성된 라벨(label)을 사용하여 통합하는 단계
를 포함하고,
상기 학습시키는 단계는,
상기 이미지 변환을 위하여 백그라운드 모델 및 인스턴스 모델을 포함하는 변환 모델을 생성하고, 상기 입력 이미지와 목표 이미지 각각의 백그라운드 영역을 상기 변환 모델에 구성된 공통의 잠재적 공간으로 맵핑시키고, 상기 입력 이미지와 목표 이미지 각각의 인스턴스 영역에 각각의 인스턴스 영역에 의해 공유되는 스타일 코드 및 컨텐츠 코드를 매핑하여 복수 개의 인스턴스 영역을 생성하는 단계
를 포함하는 도메인 변환 방법.
In the domain conversion method,
Separating each of the input image and the target image into a background area and an instance area, respectively;
Inputting and training a background area and an instance area of each of the separated input image and target image into a transformation model generated for image transformation; And
Integrating the transformed image obtained through the learning using a label generated based on the separated input image and each instance area of the target image
Including,
The learning step,
For the image transformation, a transformation model including a background model and an instance model is generated, and the background regions of the input image and the target image are mapped to a common potential space configured in the transformation model, and the input image and the target image are each Creating a plurality of instance areas by mapping style codes and content codes shared by each instance area to the instance area of
Domain conversion method comprising a.
제1항에 있어서,
상기 각각 분리하는 단계는,
상기 입력 이미지와 상기 목표 이미지 각각으로부터 분리된 인스턴스 영역을 획득하고, 상기 인스턴스 영역을 상기 획득된 인스턴스 영역 이외의 나머지 영역을 픽셀의 평균으로 패딩(padding)하여 백그라운드 영역을 획득하는 단계
를 포함하는 도메인 변환 방법.
The method of claim 1,
Separating each of the above,
Acquiring an instance area separated from each of the input image and the target image, and padding the instance area with an average of pixels in the remaining area other than the acquired instance area to obtain a background area
Domain conversion method comprising a.
제1항에 있어서,
상기 통합하는 단계는,
상기 입력 이미지와 목표 이미지 각각을 분리함에 따라 각각의 인스턴스 영역의 위치 값을 단위 행렬로 저장하여 라벨로 저장하고, 상기 저장된 라벨을 사용하여 상기 변환 이미지를 통합하여 이미지를 변환시키는 단계
를 포함하는 도메인 변환 방법.
The method of claim 1,
The integrating step,
As the input image and the target image are separated, the position value of each instance area is stored as a unit matrix and stored as a label, and the image is converted by integrating the converted image using the stored label.
Domain conversion method comprising a.
삭제delete 제1항에 있어서,
상기 백그라운드 모델은, 상기 입력 이미지와 목표 이미지 각각의 백그라운드 영역을 백그라운드 네트워크에 입력하여 크로스 도메인 변환(cross-domain transformation)을 위한 학습을 수행하는 것을 포함하고,
상기 인스턴스 모델은, 복원(reconstruction) 모드 및 다중 출력(multi-output) 모드로 구성되는 것을 포함하고,
상기 복원 모드는, 상기 입력 이미지와 목표 이미지 각각의 백그라운드 영역이 변화될 때, 인스턴스 네트워크를 통하여 상기 입력 이미지와 목표 이미지 각각의 인스턴스 영역을 변화시키지 않으면서 통합 이미지가 기 설정된 기준 이상 일치하도록 학습을 수행하고,
상기 다중 출력 모드는, 상기 입력 이미지와 목표 이미지 각각의 인스턴스 영역을 인스턴스 네트워크에 학습시킴에 따라 각각의 인스턴스 영역에 임의의 코드를 추가하여 복수 개의 스타일을 변화시켜 다중 이미지의 출력을 획득하기 위하여 학습시키는
것을 특징으로 하는 도메인 변환 방법.
The method of claim 1,
The background model includes performing training for cross-domain transformation by inputting background regions of each of the input image and target image to a background network,
The instance model includes a reconstruction mode and a multi-output mode,
In the restoration mode, when the background area of each of the input image and the target image is changed, learning is performed so that the integrated image matches a preset criterion or more without changing the instance area of each of the input image and the target image through an instance network. Perform,
The multiple output mode is trained to acquire output of multiple images by changing a plurality of styles by adding an arbitrary code to each instance area as the instance area of each of the input image and the target image is learned by the instance network. Letting
Domain conversion method, characterized in that.
도메인 변환 시스템에 있어서,
입력 이미지와 목표 이미지 각각을 백그라운드 영역 및 인스턴스 영역으로 각각 분리하는 분리부;
상기 분리된 입력 이미지와 목표 이미지 각각의 백그라운드 영역 및 인스턴스 영역을 이미지 변환을 위하여 생성된 변환 모델에 입력하여 학습시키는 학습부; 및
상기 학습을 통하여 획득된 변환 이미지를 상기 분리된 입력 이미지와 목표 이미지 각각의 인스턴스 영역에 기초하여 생성된 라벨(label)을 사용하여 통합하는 통합부
를 포함하고,
상기 학습부는,
상기 이미지 변환을 위하여 백그라운드 모델 및 인스턴스 모델을 포함하는 변환 모델을 생성하고, 상기 입력 이미지와 목표 이미지 각각의 백그라운드 영역을 상기 변환 모델에 구성된 공통의 잠재적 공간으로 맵핑시키고, 상기 입력 이미지와 목표 이미지 각각의 인스턴스 영역에 각각의 인스턴스 영역에 의해 공유되는 스타일 코드 및 컨텐츠 코드를 매핑하여 복수 개의 인스턴스 영역을 생성하는
도메인 변환 시스템.
In the domain conversion system,
A separating unit for separating each of the input image and the target image into a background area and an instance area;
A learning unit that inputs and trains a background region and an instance region of each of the separated input image and target image into a transformation model generated for image transformation; And
An integration unit that integrates the transformed image obtained through the learning using a label generated based on the separated input image and the instance area of each of the target image
Including,
The learning unit,
For the image transformation, a transformation model including a background model and an instance model is generated, and the background regions of the input image and the target image are mapped to a common potential space configured in the transformation model, and the input image and the target image are each To create multiple instance areas by mapping the style code and content code shared by each instance area to the instance area of
Domain conversion system.
KR1020190112094A 2019-09-10 2019-09-10 A domain-aware method for image-to-image translations KR102166016B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190112094A KR102166016B1 (en) 2019-09-10 2019-09-10 A domain-aware method for image-to-image translations

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190112094A KR102166016B1 (en) 2019-09-10 2019-09-10 A domain-aware method for image-to-image translations

Publications (1)

Publication Number Publication Date
KR102166016B1 true KR102166016B1 (en) 2020-10-15

Family

ID=72882879

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190112094A KR102166016B1 (en) 2019-09-10 2019-09-10 A domain-aware method for image-to-image translations

Country Status (1)

Country Link
KR (1) KR102166016B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220135349A (en) * 2021-03-30 2022-10-07 한국과학기술원 Tomography image processing method using single neural network based on unsupervised learning for image standardization and apparatus therefor
KR102628460B1 (en) * 2022-11-14 2024-01-23 세종대학교산학협력단 Virtual space search method method and system for metaverse
KR102636155B1 (en) * 2023-07-18 2024-02-13 주식회사 젠젠에이아이 Method and system for generating image using content code

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019101789A (en) * 2017-12-04 2019-06-24 日本電信電話株式会社 Model learning device, model learning method, and prediction system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019101789A (en) * 2017-12-04 2019-06-24 日本電信電話株式会社 Model learning device, model learning method, and prediction system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Azadi et al. Compositional GAN: Learning Image-Conditional Binary Composition. arXiv, 2019년 3월, pp. 1-15. 1부.* *
Mo et al. INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION. arXiv, 2019년 1월, pp. 1-26. 1부.* *
Shen et al. Towards Instance-level Image-to-Image Translation. CVPR, 2019년 6월, pp. 3683-3692. 1부.* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220135349A (en) * 2021-03-30 2022-10-07 한국과학기술원 Tomography image processing method using single neural network based on unsupervised learning for image standardization and apparatus therefor
KR102514708B1 (en) * 2021-03-30 2023-03-29 한국과학기술원 Tomography image processing method using single neural network based on unsupervised learning for image standardization and apparatus therefor
KR102628460B1 (en) * 2022-11-14 2024-01-23 세종대학교산학협력단 Virtual space search method method and system for metaverse
KR102636155B1 (en) * 2023-07-18 2024-02-13 주식회사 젠젠에이아이 Method and system for generating image using content code

Similar Documents

Publication Publication Date Title
Omeiza et al. Smooth grad-cam++: An enhanced inference level visualization technique for deep convolutional neural network models
US11200424B2 (en) Space-time memory network for locating target object in video content
US10373312B2 (en) Automated skin lesion segmentation using deep side layers
KR102166016B1 (en) A domain-aware method for image-to-image translations
US9542621B2 (en) Spatial pyramid pooling networks for image processing
JP2019533866A (en) Method and system for image segmentation using control feedback
KR20200093426A (en) Learning method and learning device of pedestrian detector for robust surveillance based on image analysis by using gan and testing method and testing device using the same
Parmar et al. Spatially-adaptive multilayer selection for gan inversion and editing
KR102229218B1 (en) Signal translation system and signal translation method
CN112508842A (en) Steerable object synthesis in 3D medical images with structured image decomposition
KR101977067B1 (en) Method for reconstructing diagnosis map by deep neural network-based feature extraction and apparatus using the same
KR102275436B1 (en) Fusion technology of image and eeg signal for real-time emotion recognition
KR102215101B1 (en) Method and Apparatus for Generating Point Cloud Using Feature of Object Acquired from Image
WO2020233427A1 (en) Method and apparatus for determining features of target
KR20190091806A (en) Video sequences generating system using generative adversarial networks and the method thereof
Shu et al. LVC-Net: Medical image segmentation with noisy label based on local visual cues
JP2021174529A (en) Method and device for biometric detection
CN113112518A (en) Feature extractor generation method and device based on spliced image and computer equipment
Rajput Mixed Gaussian-impulse noise robust face hallucination via noise suppressed low-and-high resolution space-based neighbor representation
KR20210030669A (en) Generalization of intensity distribution of medical images using gans
CN113724185A (en) Model processing method and device for image classification and storage medium
Gupta et al. A robust and efficient image de-fencing approach using conditional generative adversarial networks
KR20200058295A (en) Method and Device of High Magnetic Field Magnetic Resonance Image Synthesis
US20240013357A1 (en) Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method
KR102514708B1 (en) Tomography image processing method using single neural network based on unsupervised learning for image standardization and apparatus therefor

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant