KR102359474B1 - Method for missing image data imputation using neural network and apparatus therefor - Google Patents

Method for missing image data imputation using neural network and apparatus therefor Download PDF

Info

Publication number
KR102359474B1
KR102359474B1 KR1020190125886A KR20190125886A KR102359474B1 KR 102359474 B1 KR102359474 B1 KR 102359474B1 KR 1020190125886 A KR1020190125886 A KR 1020190125886A KR 20190125886 A KR20190125886 A KR 20190125886A KR 102359474 B1 KR102359474 B1 KR 102359474B1
Authority
KR
South Korea
Prior art keywords
image data
domains
input
neural network
target domain
Prior art date
Application number
KR1020190125886A
Other languages
Korean (ko)
Other versions
KR20200115001A (en
Inventor
예종철
이동욱
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to US16/706,224 priority Critical patent/US11748851B2/en
Priority to PCT/KR2020/003995 priority patent/WO2020197239A1/en
Publication of KR20200115001A publication Critical patent/KR20200115001A/en
Application granted granted Critical
Publication of KR102359474B1 publication Critical patent/KR102359474B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes

Abstract

뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치가 개시된다. 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 단계; 및 상기 두 개 이상의 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계를 포함하며, 상기 뉴럴 네트워크는 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝될 수 있다.Disclosed are a method and apparatus for replacing missing image data using a neural network. A method of replacing missing image data according to an embodiment of the present invention includes: receiving input image data for at least two or more domains among multiple preset domains; and reconstructing missing image data of a preset target domain using a neural network receiving the two or more input image data as inputs, wherein the neural network converts real image data of at least two or more of the multiple domains. The fake image data of the first target domain generated as an input and the real image data are combined, and the image restored by inputting the combined image data and the real image data must be similar to each other by using a multi-cycle coherence loss. can be trained

Figure R1020190125886
Figure R1020190125886

Description

뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치 {METHOD FOR MISSING IMAGE DATA IMPUTATION USING NEURAL NETWORK AND APPARATUS THEREFOR}Method and device for replacing missing image data using a neural network

본 발명은 뉴럴 네트워크를 이용한 결측 영상 데이터 대체 기술에 관한 것으로서, 보다 구체적으로 다중 도메인들 각각의 영상 데이터를 입력으로 사용하는 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원할 수 있는 결측 영상 데이터 대체 방법 및 그 장치에 관한 것이다.The present invention relates to a technique for replacing missing image data using a neural network, and more particularly, to missing image data capable of reconstructing missing image data of a target domain using a neural network using image data of each of multiple domains as an input. It relates to an alternative method and an apparatus therefor.

많은 영상 처리와 컴퓨터 비전 어플리케이션에서, 원하는 출력을 생성하기 위해서는 복수의 입력 영상 셋을 필요로 한다. 예를 들어, 뇌 자기공명영상(MRI)에서는 정확한 암 마진의 진단과 세분화를 위하여 T1, T2, FLAIR(FLuid-Attenuated Inversion Recovery) 대조도(contrast)를 갖는 MR 영상들이 모두 필요하다. 다중 뷰 카메라 영상에서 3D 볼륨을 생성할 때, 대부분의 알고리즘들은 이미 정해진 화각(view angle) 셋을 요구한다. 하지만, 입력 데이터 완전한 셋은 취득 비용과 시간, 데이터 셋의 시스템적 오류 등으로 인해 얻기 어려운 경우가 많다. 예를 들면, Magnetic Resonance Image Compilation 시퀀스를 이용한 합성 MR 대조도(contrast) 생성에서, 합성 T2-FLAIR 대조도(contrast) 영상에 시스템적 오류가 존재하여 오진단으로 이어지는 경우가 많다. 또한 결측 데이터는 상당한 바이어스들을 야기할 수 있어서, 데이터 처리와 분석에 오류를 만들고 통계 효율을 감소시킬 수 있다.Many image processing and computer vision applications require multiple input image sets to produce the desired output. For example, in brain magnetic resonance imaging (MRI), MR images having T1, T2, and FLuid-attenuated inversion recovery (FLAIR) contrast are all required for accurate diagnosis and segmentation of cancer margins. When generating a 3D volume from a multi-view camera image, most algorithms require a set of pre-determined view angles. However, it is often difficult to obtain a complete set of input data due to acquisition cost and time, and systematic errors of the data set. For example, when generating a synthetic MR contrast using a Magnetic Resonance Image Compilation sequence, a systematic error exists in the synthetic T2-FLAIR contrast image, which often leads to misdiagnosis. Missing data can also introduce significant biases, creating errors in data processing and analysis and reducing statistical efficiency.

임상 환경에서 종종 실현 가능하지 않은 예상치 못한 상황에서 모든 데이터 셋을 다시 획득하기 보다는, 결측 데이터(missing data)를 대체 값(substituted value)으로 대체하는 경우가 있으며, 이 프로세스를 대체(imputation)라 한다. 모든 결측 값들이 대체되면, 데이터 셋은 완전 데이터 셋을 위해 설계된 표준 기술의 입력으로 사용할 수 있다.Rather than reacquiring all data sets in unexpected situations that are often not feasible in clinical settings, missing data are sometimes replaced with substituted values, and this process is called imputation. . When all missing values are replaced, the data set can be used as input to standard techniques designed for complete data sets.

평균 대체(mean imputation), 회귀 대체(regression imputation), 통계적 대체(stochastic imputation) 등과 같이 전체 셋에 대한 모델링 가정에 기초하여 결측 데이터를 대체하는 몇 가지 표준 방법들이 있다. 하지만, 이러한 표준 알고리즘은 영상과 같은 고차원 데이터에 대한 한계가 있으며, 이는 영상 대체가 고차원적인 데이터 매니폴드에 대한 지식을 필요로 하기 때문이다.There are several standard methods for imputing missing data based on modeling assumptions for the entire set, such as mean imputation, regression imputation, and statistical imputation. However, these standard algorithms have limitations for high-dimensional data such as images, because image replacement requires knowledge of high-dimensional data manifolds.

영상 간(image-to-image) 변환 문제에도 유사한 기술적 문제가 있으며, 이 문제의 목표는 주어진 영상의 특정 측면을 다른 영상으로 바꾸는 것이다. 초고해상도(super resolution), 노이즈 제거작업(denoising), 블러링 제거작업(deblurring), 스타일 전송(style transfer), 의미론적 세분화(semantic segmentation), 깊이 예측(depth prediction)과 같은 태스크는 한 도메인에서 다른 도메인에 있는 해당 영상으로 영상 매핑하는 것일 수 있다. 여기서, 각 도메인은 해상도, 얼굴 표정, 빛의 각도 등 다른 측면을 가지며, 도메인 간 변환할 영상 데이터 셋의 고유한(intrinsic) 매니폴드 구조에 대해 알아야 한다. 최근에 이러한 태스크는 생성적 적대 네트워크(GAN; Generative Adversarial Network)에 의해 크게 향상되고 있다. The image-to-image conversion problem has a similar technical problem, the goal of which is to replace certain aspects of a given image with another. Tasks such as super resolution, denoising, deblurring, style transfer, semantic segmentation, and depth prediction can be performed in one domain. It may be image mapping to a corresponding image in another domain. Here, each domain has different aspects such as resolution, facial expression, and light angle, and it is necessary to know about the intrinsic manifold structure of the image data set to be converted between domains. Recently, this task has been greatly enhanced by Generative Adversarial Networks (GANs).

일반적인 GAN 프레임워크는 생성자(generator) G와 구별자(discriminator) D 두 가지 뉴럴 네트워크로 구성된다. 구별자가 트레이닝을 통하여 가짜와 진짜 샘플을 구별하기 위한 특징을 찾는다면, 생성자는 구별자가 가짜와 진짜를 판단하기 위해 사용하는 특징을 제거하고 합성하는 방법을 학습한다. 따라서, GANs는 구별자가 진짜와 가짜를 구별할 수 없는 좀 더 실제적인 샘플을 생성할 수 있다. GANs는 영상 생성, 영상 변환 등과 같은 다양한 컴퓨터 비전 작업에서 놀라운 성과를 보여주고 있다.A general GAN framework consists of two neural networks, a generator G and a discriminator D. If the discriminator finds a feature to distinguish the fake from the real sample through training, the generator learns how to remove and synthesize the features that the discriminator uses to judge the fake from the real sample. Thus, GANs can generate more realistic samples in which the discriminator cannot distinguish between real and fake. GANs are showing remarkable performance in various computer vision tasks such as image generation and image transformation.

기존의 GAN과 달리, 조건부 GAN(Co-GAN)은 일부 정보 라벨을 추가적인 생성자의 파라미터로 더하여 출력을 제어한다. 여기서 생성자는 알려지지 않은 노이즈 분포로부터 일반적인 샘플을 생성하는 대신에 특정 조건 또는 특성(영상과 연관된 라벨 또는 보다 상세한 태그)을 가진 가짜 샘플을 생산하는 방법을 학습한다. 조건부 GAN의 성공적인 어플리케이션은 쌍을 이룬 데이터의 경우 pix2pix, 쌍을 이루지 않은 데이터의 경우 CycleGAN과 같은 영상간 변환을 위한 것이다.Unlike conventional GANs, conditional GANs (Co-GANs) control the output by adding some information labels as parameters of additional generators. Here, the generator learns to produce a fake sample with a specific condition or characteristic (a label or more detailed tag associated with the image) instead of generating a generic sample from an unknown noise distribution. A successful application of conditional GAN is for image-to-image conversions such as pix2pix for paired data and CycleGAN for unpaired data.

CycleGAN(J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired imageto-image translation using cycle-consistent adversarial networks. arXiv preprint, 2017.)과 DiscoGAN(T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim. Learning to discover cross-domain relations with generative adversarial networks. arXiv preprint arXiv:1703.05192, 2017.)은 사이클 일관성 손실을 이용하여 입력과 출력 영상 사이의 주요 속성을 보전하려고 한다. 그러나, 이러한 프레임워크는 한 번에 두 개의 서로 다른 도메인 사이의 관계를 학습할 수 있을 뿐이다. 이러한 접근법은 도 1a에 도시된 바와 같이 각 도메인 쌍이 별도의 도메인 쌍을 필요로 하고 N개의 구분되는 도메인을 처리하기 위해 총 N × (N-1)개의 생성자를 필요로 하기 때문에 다중 도메인을 처리할 때 확장성 한계가 있다. 종래 일 실시예 기술은 다중 도메인 번역 아이디어를 일반화하기 위하여 도 1b에 도시된 바와 같이 단일 생성자로 복수의 도메인 간 번역 매핑을 학습할 수 있는 이른바 StarGAN을 제안하였으며, 최근에 비슷한 다중 도메인 전송 네트워크가 제안된 바도 있다.CycleGAN (J.-Y. Zhu, T. Park, P. Isola, and AA Efros. Unpaired imageto-image translation using cycle-consistent adversarial networks. arXiv preprint, 2017.) and DiscoGAN (T. Kim, M. Cha, H. Kim, JK Lee, and J. Kim. Learning to discover cross-domain relations with generative adversarial networks. arXiv preprint arXiv:1703.05192, 2017.) preserves key properties between input and output images by exploiting cyclic coherence loss. try to do However, such a framework can only learn the relationship between two different domains at once. This approach can handle multiple domains because each domain pair requires a separate domain pair and a total of N × (N−1) generators to process N distinct domains, as shown in Fig. 1a. When there is a scalability limit. In order to generalize the idea of multi-domain translation, the prior art has proposed a so-called StarGAN, which can learn translation mapping between multiple domains with a single generator, as shown in FIG. 1B, and a similar multi-domain transport network has recently been proposed. There has also been

StarGAN(Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unified generative adversarial networks for multidomain image-to-image translation. arXiv preprint, 1711, 2017.)와 Radial GAN(J. Yoon, J. Jordon, and M. van der Schaar. RadialGAN: Leveraging multiple datasets to improve target-specific predictive models using generative adversarial networks. arXiv preprint arXiv:1802.06403, 2018.)은 단일 생성자를 사용하여 여러 도메인을 처리하는 최근의 프레임워크이다. 예를 들어, StarGAN에서는 입력 영상과 타겟 도메인(target domain)을 나타내는 마스크 벡터로부터의 깊이 있는 연결은 입력을 타겟 도메인에서 재구성된 영상에 매핑하는데 도움이 된다. 여기서, 구별자는 도메인 분류를 위해 또 다른 역할을 하도록 설계되어야 한다. 구체적으로는 구별자는 샘플의 진위 여부 뿐만 아니라 샘플의 클래스도 판별한다.StarGAN (Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unified generative adversarial networks for multidomain image-to-image translation. arXiv preprint, 1711, 2017.) and Radial GAN (J. Yoon, J. Jordon, and M. van der Schaar. RadialGAN: Leveraging multiple datasets to improve target-specific predictive models using generative adversarial networks. arXiv preprint arXiv:1802.06403, 2018.) It is a recent framework that handles multiple domains using constructors. For example, in StarGAN, a deep connection from the input image and the mask vector representing the target domain helps to map the input to the image reconstructed in the target domain. Here, the discriminator should be designed to play another role for domain classification. Specifically, the discriminator determines not only the authenticity of the sample, but also the class of the sample.

이러한 GAN 기반의 영상 전송 기술은 영상 변환이 영상 매니폴드 구조를 모델링하여 결측 영상 데이터베이스를 추정할 수 있는 프로세스로 간주될 수 있으므로, 영상 데이터 대체와 밀접한 관련이 있다. 그러나 영상 대체(imputation)와 번환(translation) 사이에는 근본적인 차이점이 있다. 예를 들어, CycleGAN과 StarGAN은 도 1a와 도 1b에 도시된 바와 같이 남은 도메인 데이터 셋을 고려하지 않고 한 영상을 다른 영상으로 전송하는데 관심이 있다. 그러나 영상 대체 문제에서는 결측 데이터가 자주 발생되지 않으며 다른 클린 데이터 셋을 활용하여 결측 데이터를 추정하는 것을 목표로 한다. This GAN-based image transmission technology is closely related to image data replacement because image transformation can be regarded as a process capable of estimating a missing image database by modeling an image manifold structure. However, there is a fundamental difference between image imputation and translation. For example, CycleGAN and StarGAN are interested in transmitting one image to another without considering the remaining domain data sets as shown in FIGS. 1A and 1B . However, in the image replacement problem, missing data is not frequently generated, and the goal is to estimate the missing data by using another clean data set.

본 발명의 실시예들은, 다중 도메인들 각각의 영상 데이터를 입력으로 사용하는 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원함으로써, 복원 성능을 향상시킬 수 있는 결측 영상 데이터 대체 방법 및 그 장치를 제공한다.Embodiments of the present invention provide a method and apparatus for replacing missing image data that can improve restoration performance by reconstructing missing image data of a target domain using a neural network using image data of each of multiple domains as an input. to provide.

본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 단계; 및 상기 두 개 이상의 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계를 포함한다.A method of replacing missing image data according to an embodiment of the present invention includes: receiving input image data for at least two or more domains among multiple preset domains; and reconstructing missing image data of a preset target domain by using a neural network to which the two or more input image data are input.

상기 뉴럴 네트워크는 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝될 수 있다.The neural network combines the fake image data of a first target domain generated by inputting at least two or more real image data from among the multiple domains as an input, and the real image data, and receives the combined image data as an input to restore the image data. The image and the real image data can be trained using a multi-cycle coherence loss that must be similar.

상기 수신하는 단계는 상기 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 함께 수신할 수 있다.The receiving may include receiving input image data for the at least two domains and information on the target domain together.

상기 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 중 적어도 하나를 포함할 수 있다.The neural network includes a generative adversarial network (GAN), a convolutional neural network, a neural network based on a convolution framelet, and a pooling layer and an unpooling layer. It may include at least one of resolution neural networks.

상기 뉴럴 네트워크는 상기 풀링 레이어에서 상기 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.The neural network may include a bypass connection from the pooling layer to the unpooling layer.

나아가, 본 발명의 다른 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터와 타겟 도메인에 대한 정보를 수신하는 단계; 및 상기 두 개 이상의 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 입력으로 하는 뉴럴 네트워크를 이용하여 상기 타겟 도메인의 결측 영상 데이터를 복원하는 단계를 포함한다.Furthermore, a method for replacing missing image data according to another embodiment of the present invention includes: receiving input image data for at least two or more domains among multiple preset domains and information on a target domain; and reconstructing the missing image data of the target domain using a neural network to which the two or more input image data and information on the target domain are input.

상기 뉴럴 네트워크는 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝될 수 있다.The neural network combines the fake image data of a first target domain generated by inputting at least two or more real image data from among the multiple domains as an input, and the real image data, and receives the combined image data as an input to restore the image data. The image and the real image data can be trained using a multi-cycle coherence loss that must be similar.

본 발명의 일 실시예에 따른 결측 영상 데이터 대체 장치는 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 수신부; 및 상기 두 개 이상의 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 대체부를 포함한다.An apparatus for replacing missing image data according to an embodiment of the present invention includes: a receiver configured to receive input image data for at least two or more domains among multiple preset domains; and a replacement unit for reconstructing missing image data of a preset target domain using a neural network receiving the two or more input image data as inputs.

상기 뉴럴 네트워크는 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝될 수 있다.The neural network combines the fake image data of a first target domain generated by inputting at least two or more real image data from among the multiple domains as an input, and the real image data, and receives the combined image data as an input to restore the image data. The image and the real image data can be trained using a multi-cycle coherence loss that must be similar.

상기 수신부는 상기 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 함께 수신할 수 있다.The receiver may receive input image data for the at least two or more domains and information on the target domain together.

상기 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 중 적어도 하나를 포함할 수 있다.The neural network includes a generative adversarial network (GAN), a convolutional neural network, a neural network based on a convolution framelet, and a pooling layer and an unpooling layer. It may include at least one of resolution neural networks.

상기 뉴럴 네트워크는 상기 풀링 레이어에서 상기 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.The neural network may include a bypass connection from the pooling layer to the unpooling layer.

본 발명의 또 다른 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 단계; 및 미리 정의된 다중 사이클 일관성 손실에 의해 학습된 뉴럴 네트워크를 이용하여 상기 두 개 이상의 입력 영상 데이터에 대응하는 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계를 포함한다.A method of replacing missing image data according to another embodiment of the present invention includes: receiving input image data for at least two or more domains among multiple preset domains; and reconstructing missing image data of a preset target domain corresponding to the two or more input image data using a neural network trained by a predefined multi-cycle coherence loss.

본 발명의 실시예들에 따르면, 다중 도메인들 각각의 영상 데이터를 입력으로 사용하는 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원함으로써, 복원 성능을 향상시킬 수 있다.According to embodiments of the present invention, restoration performance may be improved by reconstructing missing image data of a target domain using a neural network using image data of each of multiple domains as an input.

본 발명의 실시예들에 따르면, 현재 의료계에서 암 진단에 실제로 사용되고 있는 데이터 획득 방법을 수정하지 않고 그대로 사용하고, 이 때 발생 가능한 결측 데이터 문제를 추가적인 비용과 촬영 없이 대체할 수 있기 때문에 환자와 병원 측 모두에 시간적 비용과 금전적 비용을 획기적으로 절약할 수 있다.According to embodiments of the present invention, the data acquisition method currently used in cancer diagnosis in the medical field is used without modification, and the problem of missing data that may occur at this time can be replaced without additional cost and imaging. It can significantly save time and money for both parties.

본 발명의 실시예들에 따르면, 암 진단에 필요한 다양한 대조도의 영상 셋에서 결측이 발생했을 경우 결측 대체를 위해 사용될 수도 있고, 다양한 조명 방향 데이터 셋에서 결측된 데이터를 대체하기 위해 사용할 수도 있으며, 다양한 표정의 사람 얼굴 데이터에서 결측된 데이터를 대체하기 위해 사용될 수도 있다. 나아가, 본 발명은 이외에도 다양한 카메라 각도 데이터에서 결측된 데이터, 영상의 해상도에 따른 데이터에서 결측된 데이터, 영상의 노이즈 정도에 따른 데이터에서 결측된 데이터, 영상의 예술적 스타일이나 종류에 따른 데이터에서 결측된 데이터 및 글자의 폰트 타입 데이터에서 결측된 데이터 등 다양한 도메인이 존재할 때 발생하는 결측 영상 데이터에 대해 범용적으로 사용할 수 있다.According to embodiments of the present invention, when a missingness occurs in an image set of various contrasts necessary for cancer diagnosis, it may be used to replace missing data, and may be used to replace missing data in various illumination direction data sets, It can also be used to replace missing data in human face data of various expressions. Furthermore, the present invention relates to data missing from various camera angle data, data missing from data according to the resolution of the image, data missing from data according to the noise level of the image, and data missing from data according to the artistic style or type of image. It can be used universally for missing image data generated when various domains exist, such as missing data in data and font type data of characters.

도 1은 종래 기술과 본 발명에 따른 영상 변환 태스크에 대한 일 예시도를 나타낸 것이다.
도 2는 본 발명에서 뉴럴 네트워크를 트레이닝하는 과정을 설명하기 위한 일 예시도를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법에 대한 동작 흐름도를 나타낸 것이다.
도 4는 MR 대조도 대체 결과에 대한 일 예시도를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 장치에 대한 구성을 나타낸 것이다.
1 shows an exemplary diagram of an image conversion task according to the prior art and the present invention.
2 shows an exemplary diagram for explaining a process of training a neural network in the present invention.
3 is a flowchart illustrating a method for replacing missing image data according to an embodiment of the present invention.
4 shows an exemplary diagram of an MR contrast replacement result.
5 shows the configuration of an apparatus for replacing missing image data according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention and methods of achieving them will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but will be embodied in various different forms, and only these embodiments allow the disclosure of the present invention to be complete, and common knowledge in the art to which the present invention pertains It is provided to fully inform those who have the scope of the invention, and the present invention is only defined by the scope of the claims.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상 의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.The terminology used herein is for the purpose of describing the embodiments, and is not intended to limit the present invention. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase. As used herein, “comprises” and/or “comprising” refers to a referenced component, step, operation and/or element of one or more other components, steps, operations and/or elements. The presence or addition is not excluded.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.Unless otherwise defined, all terms (including technical and scientific terms) used herein may be used with the meaning commonly understood by those of ordinary skill in the art to which the present invention belongs. In addition, terms defined in a commonly used dictionary are not to be interpreted ideally or excessively unless specifically defined explicitly.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the accompanying drawings. The same reference numerals are used for the same components in the drawings, and repeated descriptions of the same components are omitted.

본 발명의 실시예들은, 다중 도메인들 각각의 영상 데이터를 입력으로 사용하는 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원하는 것을 그 요지로 한다.Embodiments of the present invention make it a gist of reconstructing missing image data of a target domain using a neural network that uses image data of each of multiple domains as an input.

여기서, 본 발명은 다중 도메인들의 입력 영상 데이터로부터 생성된 타겟 도메인의 가짜 영상 데이터와 입력 영상 데이터를 조합하고, 조합된 다중 도메인의 영상 데이터로부터 복원된 영상과 오리지널 입력 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 뉴럴 네트워크를 트레이닝함으로써, 학습 모델을 생성하고, 생성된 학습 모델의 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원할 수 있다.Here, in the present invention, fake image data of a target domain and input image data generated from input image data of multiple domains are combined, and an image reconstructed from the combined image data of multiple domains and original input image data must be similar to multiple cycles. By training the neural network using the coherence loss, a learning model may be generated, and missing image data of the target domain may be reconstructed using the neural network of the generated learning model.

본 발명에서의 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 예를 들어, U-Net 등과 같은 다양한 종류의 뉴럴 네트워크를 포함할 수 있으며, 이 뿐만 아니라 본 발명에서 사용할 수 있는 모든 종류의 뉴럴 네트워크를 포함할 수 있다. 이 때, 다중 해상도 뉴럴 네트워크는 풀링 레이어에서 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.The neural network in the present invention includes a generative adversarial network (GAN), a convolutional neural network, a convolution framelet-based neural network, a pooling layer and an unpooling layer. It may include various types of neural networks such as multi-resolution neural networks, for example, U-Net, etc., and may include all types of neural networks that can be used in the present invention as well. In this case, the multi-resolution neural network may include a bypass connection from the pooling layer to the unpooling layer.

본 발명은 보다 현실적이고 실현 가능한 출력을 생성하기 위해 다중 입력을 처리하는 공동 생성적 적대 네트워크(CollaGAN; Collaborative Generative Adversarial Network) 프레임워크에 대해 설명한다. 본 발명의 CollaGAN 프레임워크는 도 1c에 도시된 바와 같이, 단일 입력과 단일 출력을 처리하는 Star-GAN에 비해, 다중 도메인으로부터의 다중 입력을 처리한다. 본 발명의 영상 대체 기술은 기존 방법에 비해 많은 장점을 제공한다.The present invention describes a Collaborative Generative Adversarial Network (CollaGAN) framework that processes multiple inputs to generate more realistic and feasible outputs. The CollaGAN framework of the present invention processes multiple inputs from multiple domains, compared to Star-GAN, which processes a single input and a single output, as shown in Fig. 1c. The image replacement technique of the present invention provides many advantages over existing methods.

첫째, 기본적인 영상 매니폴드는 단일 입력보다는 동일한 매니폴드 구조를 공유하는 다중 입력 데이터 셋에서 시너지 효과를 얻을 수 있다. 따라서, CollaGAN을 이용한 결측값의 추정치는 보다 정확하다. First, the basic imaging manifold can synergize with multiple input data sets that share the same manifold structure rather than a single input. Therefore, the estimation of missing values using CollaGAN is more accurate.

둘째, CollaGAN은 여전히 CycleGAN에 비해 메모리 효율이 높은 StarGAN과 유사한 1세대 아키텍처를 유지하고 있다.Second, CollaGAN still maintains the first-generation architecture similar to StarGAN, which is more memory efficient than CycleGAN.

이러한 본 발명에 대해 상세히 설명하면 다음과 같다.Hereinafter, the present invention will be described in detail.

다중 입력을 이용한 영상 대체(imputation)Imputation using multiple inputs

설명의 편의를 위하여, a, b, c, d의 4가지 타입(N=4)의 도메인이 있다고 가정한다. 본 발명은 단일 생성자를 이용하여 다중 입력을 처리하기 위하여, 다른 타입의 다중 영상들의 셋

Figure 112019103612041-pat00001
으로부터 공동 매핑(collaborative mapping)을 통하여 생성자를 트레이닝시키고 타겟 도메인
Figure 112019103612041-pat00002
의 출력 영상을 합성한다. 여기서, C는 상보 셋(complementary set)을 의미할 수 있다. 이 매핑은 아래 <수학식 1>과 같이 나타낼 수 있다.For convenience of description, it is assumed that there are four types (N=4) of domains a, b, c, and d. The present invention provides a set of different types of multiple images in order to process multiple inputs using a single generator.
Figure 112019103612041-pat00001
Train the constructor through collaborative mapping from the target domain
Figure 112019103612041-pat00002
Composite the output image of Here, C may mean a complementary set. This mapping can be expressed as in <Equation 1> below.

[수학식 1][Equation 1]

Figure 112019103612041-pat00003
Figure 112019103612041-pat00003

여기서,

Figure 112019103612041-pat00004
는 적절한 타겟 도메인인
Figure 112019103612041-pat00005
에 대한 출력을 생성하도록 가이드하는 타겟 도메인 지수를 의미할 수 있다.here,
Figure 112019103612041-pat00004
is the appropriate target domain.
Figure 112019103612041-pat00005
It may mean a target domain index that guides generating an output for .

복수 입력과 단일 출력 조합에 대한 조합 수가 N개이므로, 본 발명은 트레이닝 중에 이러한 조합을 무작위로 선택하여 생성자가 복수 타겟 도메인에 대한 다양한 매핑을 학습할 수 있도록 한다. Since the number of combinations for multiple input and single output combinations is N, the present invention randomly selects these combinations during training so that the generator can learn various mappings for multiple target domains.

네트워크 손실network loss

다중 사이클 일관성 손실: 본 발명의 실시예에 따른 방법의 핵심 개념 중 하나는 다중 입력에 대한 사이클 일관성이다. 입력은 복수의 영상이므로, 사이클 손실은 재정의해야 한다. 포워드 생성자 G의 출력을

Figure 112019103612041-pat00006
라고 가정하면, 도 2에 도시된 바와 같이 생성자의 백워드 흐름(backward flow)에 대한 다른 입력으로서 N-1개의 새로운 조합들을 생성할 수 있다. 예를 들어, N = 4인 경우 아래 <수학식 2>와 같이 다중 입력과 단일 출력의 세 가지 조합이 있어, 생성자의 백워드 흐름을 이용하여 오리지널 도메인의 세가지 영상을 재구성할 수 있다.Multi-cycle coherence loss: One of the key concepts of the method according to an embodiment of the present invention is cycle coherence for multiple inputs. Since the input is multiple images, we need to redefine the cycle loss. The output of the forward constructor G
Figure 112019103612041-pat00006
, it is possible to generate N-1 new combinations as another input to the backward flow of the generator as shown in FIG. 2 . For example, when N = 4, there are three combinations of multiple inputs and single outputs as shown in Equation 2 below, so that three images of the original domain can be reconstructed using the backward flow of the generator.

[수학식 2][Equation 2]

Figure 112019103612041-pat00007
Figure 112019103612041-pat00007

여기서, 연관된 다중 사이클 일관성 손실은 아래 <수학식 3>과 같이 나타낼 수 있다.Here, the associated multi-cycle coherence loss can be expressed as in Equation 3 below.

[수학식 3][Equation 3]

Figure 112019103612041-pat00008
Figure 112019103612041-pat00008

여기서,

Figure 112019103612041-pat00009
은 l1―norm을 의미할 수 있다.here,
Figure 112019103612041-pat00009
may mean l 1 -norm.

다중 사이클 일관성 손실은 다중 도메인들의 입력 영상 데이터로부터 생성된 타겟 도메인의 가짜 영상 데이터와 입력 영상 데이터를 조합하고, 조합된 다중 도메인의 영상 데이터로부터 복원된 영상과 오리지널 입력 영상 데이터가 유사해야 하는 손실을 의미할 수 있다.Multi-cycle coherence loss combines the fake image data of the target domain and the input image data generated from input image data of multiple domains, and the loss in which the image restored from the combined multi-domain image data and the original input image data must be similar. can mean

일반적으로, 포워드 생성자(forward generator)

Figure 112019103612041-pat00010
의 사이클 일관성 손실은 아래 <수학식 4> 및 <수학식 5>와 같이 나타낼 수 있다.In general, forward generators
Figure 112019103612041-pat00010
The cycle coherence loss of can be expressed as <Equation 4> and <Equation 5> below.

[수학식 4][Equation 4]

Figure 112019103612041-pat00011
Figure 112019103612041-pat00011

[수학식 5][Equation 5]

Figure 112019103612041-pat00012
Figure 112019103612041-pat00012

구별자 손실: 구별자는 두 가지 역할을 수행하는데, 하나는 진짜인지 가짜인지 소스를 분류하는 것이고, 다른 하나는 클래스 a, b, c, d의 도메인 타입을 분류하는 것이다. 따라서, 구별자 손실은 두 부분으로 구성될 수 있다. 도 2에 도시된 바와 같이, 구별자 손실은 마지막 레이어들을 제외하고 동일한 뉴럴 네트워크 웨이트(weights) 를 공유하는 Dgan과 Dclsf의 두 가지 경로를 가진 구별자를 사용하여 실현할 수 있다.Distinguishing Loss : Distinguishers perform two roles, one is to classify the source whether it is real or fake, and the other is to classify the domain types of classes a, b, c, and d. Thus, the discriminator loss can consist of two parts. As shown in FIG. 2 , the discriminator loss can be realized using a discriminator having two paths, D gan and D clsf , which share the same neural network weights except for the last layers.

특히, 적대적 손실은 생성된 영상을 가능한 진짜로 만들기 위해 필요하다. 레귤러 GAN 손실은 학습 프로세스 중에 소멸되는 그래디언트 문제를 야기할 수 있다. 본 발명은 이러한 문제를 극복하고 트레이닝의 견고성(robustness)을 향상시키기 위해 오리지널 GAN 손실 대신 Least Square GAN(X. Mao, Q. Li, H. Xie, R. Y. Lau, Z. Wang, and S. P. Smolley. Least squares generative adversarial networks. In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 2813-2821. IEEE, 2017.)의 적대적 손실을 활용할 수 있다. 특히, 구별자 Dgan은 아래 <수학식 6>의 손실을 최소화함으로써, 최적화될 수 있고, 생성자는 아래 <수학식 7>의 손실을 최소화함으로써, 최적화될 수 있다.In particular, hostile losses are necessary to make the generated image as real as possible. Regular GAN loss can cause gradient problems that dissipate during the learning process. In order to overcome this problem and improve the robustness of training, the present invention provides Least Square GAN (X. Mao, Q. Li, H. Xie, RY Lau, Z. Wang, and SP Smolley. Least) instead of the original GAN loss. The adversarial loss of squares generative adversarial networks. In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 2813-2821. IEEE, 2017.) can be exploited. In particular, the discriminator D gan may be optimized by minimizing the loss in Equation 6 below, and the generator may be optimized by minimizing the loss in Equation 7 below.

[수학식 6][Equation 6]

Figure 112019103612041-pat00013
Figure 112019103612041-pat00013

[수학식 7][Equation 7]

Figure 112019103612041-pat00014
Figure 112019103612041-pat00014

여기서,

Figure 112019103612041-pat00015
는 상기 수학식 5를 통해 정의될 수 있다.here,
Figure 112019103612041-pat00015
can be defined through Equation 5 above.

다음, 도메인 분류 손실은

Figure 112019103612041-pat00016
Figure 112019103612041-pat00017
의 두 부분으로 구성되며, 그것들은 각각 진짜 영상과 가짜 영상의 도메인 분류를 위한 교차 엔트로피 손실일 수 있다. 생성자 G를 트레이닝하는 목적은 타겟 도메인으로 적절하게 분류된 영상을 생성하는 것이다. 그러므로, 본 발명은 먼저 생성자를 적절하게 가이드할 수 있도록 진짜 데이터로만 트레이닝되는 최고의 구분자(classifier) Dclsf가 필요하다. 따라서, 본 발명은 구분자 Dclsf를 트레이닝시키기 위해 손실
Figure 112019103612041-pat00018
를 최소화하며, 그리고 나서 생성자가 정확하게 분류된 샘플을 생성하도록 트레이닝되기 위하여, Dclsf를 고정하면서 생성자 G를 트레이닝함으로써,
Figure 112019103612041-pat00019
를 최소화한다.Next, the domain classification loss is
Figure 112019103612041-pat00016
class
Figure 112019103612041-pat00017
It consists of two parts, which can be cross-entropy loss for domain classification of real and fake images, respectively. The purpose of training generator G is to generate an image properly classified by the target domain. Therefore, the present invention first needs the best classifier D clsf that is trained only with real data to properly guide the constructor. Therefore, the present invention loses to train the delimiter D clsf .
Figure 112019103612041-pat00018
By training generator G while fixing D clsf so that the generator is trained to produce correctly classified samples,
Figure 112019103612041-pat00019
to minimize

구체적으로 Dclsf를 최적화하기 위하여, 아래 <수학식 8>과 같이 Dclsf에 대하여

Figure 112019103612041-pat00020
를 최소화해야 한다.Specifically, in order to optimize D clsf , for D clsf as shown in Equation 8 below,
Figure 112019103612041-pat00020
should be minimized

[수학식 8][Equation 8]

Figure 112019103612041-pat00021
Figure 112019103612041-pat00021

여기서,

Figure 112019103612041-pat00022
는 진짜 입력
Figure 112019103612041-pat00023
를 클래스
Figure 112019103612041-pat00024
로 정확하게 분류할 수 있는 확률을 의미할 수 있다.here,
Figure 112019103612041-pat00022
is the real input
Figure 112019103612041-pat00023
class
Figure 112019103612041-pat00024
It can mean the probability of being able to accurately classify

반면, 생성자 G는 Dclsf에 의해 적절하게 분류된 가짜 샘플을 생성하도록 트레이닝되어야 한다. 따라서, 생성자 G에 대하여 아래 <수학식 9>와 같이 나타낸 손실을 최소화해야 한다.On the other hand, generator G must be trained to generate spurious samples properly classified by D clsf . Therefore, it is necessary to minimize the loss expressed as in Equation 9 below for the generator G.

[수학식 9][Equation 9]

Figure 112019103612041-pat00025
Figure 112019103612041-pat00025

구조 유사도 지수 손실: 구조 유사도 지수(SSIM; Structural Similarity Index)는 영상 품질을 측정하는 최첨단 지표 중 하나이다. 영상 복원 태스크에 널리 사용되는 l2손실은 결과에서 블러링 아티팩트(blurring artifacts)의 원인이 되는 것으로 종래 기술에서 보고된 바 있다. SSIM은 지각적 측정기준(perceptual metrics) 중 하나이며 차별화가 가능하므로, 역전파(backpropagate)될 수 있다. 픽셀 p에 대한 SSIM은 아래 <수학식 10>과 같이 나타낼 수 있다.Loss of Structural Similarity Index : The Structural Similarity Index (SSIM) is one of the most advanced indices for measuring image quality. It has been reported in the prior art that l 2 loss, which is widely used in image restoration tasks, causes blurring artifacts in the result. SSIM is one of the perceptual metrics and can be differentiated, so it can be backpropagated. The SSIM for the pixel p may be expressed as in Equation 10 below.

[수학식 10][Equation 10]

Figure 112019103612041-pat00026
Figure 112019103612041-pat00026

여기서, μX는 평균 X를 의미하고, σ2 X는 X의 분산을 의미하며, σXX*는 X와 X*의 공분산을 의미하고, C 1C 2는 분할을 안정화시키기 위한 변수들로, C 1 = (k 1 L)2C 2 = (k 2 L)2를 의미하며, L은 픽셀 강도의 동적 범위를 의미하고, k1과 k2는 0.01과 0.03일 수 있다.Here, μX means the mean X, σ 2 X means the variance of X, σ XX* means the covariance of X and X*, and C 1 and C 2 are variables for stabilizing the partition, C 1 = ( k 1 L ) 2 and C 2 = ( k 2 L ) 2 , where L denotes a dynamic range of pixel intensity, and k 1 and k 2 can be 0.01 and 0.03.

SSIM은 0과 1 사이에 정의되므로 SSIM에 대한 손실 함수는 아래 <수학식 11>과 같이 나타낼 수 있다.Since SSIM is defined between 0 and 1, the loss function for SSIM can be expressed as in Equation 11 below.

[수학식 11][Equation 11]

Figure 112019103612041-pat00027
Figure 112019103612041-pat00027

여기서, P는 픽셀 위치 셋을 의미하고, |P|는 P의 카디널리티(cardinality)를 의미할 수 있다.Here, P may mean a set of pixel positions, and |P| may mean cardinality of P.

SSIM 손실은 아래 <수학식 12>와 같이 추가적인 다중 사이클 일관성 손실(multiple cycle consistency loss)로서 적용될 수 있다.The SSIM loss may be applied as an additional multiple cycle consistency loss as shown in Equation 12 below.

[수학식 12][Equation 12]

Figure 112019103612041-pat00028
Figure 112019103612041-pat00028

마스크 벡터(Mask Vector)Mask Vector

단일 생성자를 사용하기 위하여, 생성자를 가이드할 마스크 벡터 형태로 타겟 라벨(label)을 추가해야 한다. 마스크 벡터는 입력 영상과 동일한 차원을 가진 이진 매트릭스로, 입력 영상과 쉽게 연결된다. 마스크 벡터는 채널 차원을 따라 원 핫 벡터(one-hot vector)로 타겟 도메인을 나타낼 수 있는 N 클래스의 채널 차원을 가지고 있다. 이는 오리지널 StarGAN에서 도입된 마스크 벡터의 단순화된 버전일 수 있다. 즉, 마스크 벡터는 뉴럴 네트워크로 입력되는 다중 도메인의 입력 영상 데이터를 이용하여 복원 또는 대체할 결측 영상 데이터에 대한 타겟 도메인 정보일 수 있다.To use a single constructor, you need to add a target label in the form of a mask vector to guide the constructor. A mask vector is a binary matrix with the same dimension as the input image, and is easily connected to the input image. The mask vector has a channel dimension of class N that can represent a target domain as a one-hot vector along the channel dimension. This could be a simplified version of the mask vector introduced in the original StarGAN. That is, the mask vector may be target domain information for missing image data to be restored or replaced by using multi-domain input image data input to the neural network.

데이터 셋data set

MR 대조도(contrast) 합성(synthesis): 총 280 축 방향 뇌 영상이 10명의 피실험자로부터 멀티-다이나믹 멀티-에코(multi-dynamic multi-echo) 시퀀스와 추가적인 T2 FLAIR의 시퀀스에 의해 스캔될 수 있다. 데이터 셋에는 4가지의 MR 대조도(contrast) 영상 타입 예를 들어, T1-FLAIR(T1F), T2-weighted(T2w), T2-FLAIR(T2F), 그리고 T2-FLAIR*(T2F*)를 포함할 수 있다. 이 때, T1-FLAIR(T1F), T2-weighted(T2w) 및 T2-FLAIR(T2F)의 3가지의 MR 대조도 영상 타입은 MAGnetic Venocation image Compilation에서 획득될 수 있으며, T2-FLAIR*의 MR 대조도 영상 타입은 세 번째 대조도(contrast) 영상 타입(T2F) 의 다른 MR 스캔 파라미터를 가진 추가 스캔에 의해 획득될 수 있다. MR 획득 파라미터의 세부 사항은 보충 데이터에서 확인할 수 있다.MR contrast synthesis: A total of 280 axial brain images can be scanned by a multi-dynamic multi-echo sequence and an additional T2 FLAIR sequence from 10 subjects. The data set includes four MR contrast image types, e.g., T1-FLAIR (T1F), T2-weighted (T2w), T2-FLAIR (T2F), and T2-FLAIR* (T2F*). can do. At this time, the three MR contrast image types of T1-FLAIR (T1F), T2-weighted (T2w) and T2-FLAIR (T2F) can be obtained from MAGnetic Venocation image Compilation, and the MR contrast of T2-FLAIR* The figure image type may be obtained by an additional scan with a different MR scan parameter of the third contrast image type (T2F). Details of the MR acquisition parameters can be found in Supplementary Data.

CMU Multi-PIE: 조명(illumination) 변환 태스크를 위해 카네기 멜론 대학교 Multi-Pose Illumination과 Expression Face Database의 서브셋을 사용할 수 있다. 데이터셋은 250명의 참가자의 평소(중립적) 표정의 정면 방향으로 -90도(오른쪽), -45도, 0도(정면), 45도와 90도(왼쪽)의 다섯 가지 조명 조건으로 선정될 수 있다. 영상은 얼굴이 정중앙에 위치하는 일정 픽셀 크기의 화면으로 잘라낼 수 있다.CMU Multi-PIE : You can use a subset of the Carnegie Mellon University Multi-Pose Illumination and Expression Face Database for illumination conversion tasks. The dataset can be selected with five lighting conditions: -90 degrees (right), -45 degrees, 0 degrees (front), 45 degrees and 90 degrees (left) toward the frontal direction of the usual (neutral) facial expressions of 250 participants. . The image can be cut into a screen of a certain pixel size with the face positioned in the center.

RaFD(Radboud Faces Database): RaFD에는 67명의 참가자들로부터 수집된 8개의 다른 얼굴 표정들 예를 들어, 중립, 분노, 경멸, 혐오, 공포, 행복, 슬픔, 그리고 놀라움이 포함될 수 있다.. 또한, 세 가지 다른 시선 방향이 있으며, 따라서 총 1,608개의 영상들이 트레이닝, 유효성 검사 및 테스트 셋에 대한 피실험자에 의해 나누어 질 수 있다.Radboud Faces Database (RaFD): RaFD can include 8 different facial expressions, eg neutral, anger, contempt, disgust, fear, happy, sad, and surprise collected from 67 participants. There are three different gaze directions, so a total of 1,608 images can be divided by subjects for training, validation and test sets.

네트워크 구현network implementation

본 발명은 도 2에 도시된 바와 같이 생성자 G와 구별자 D의 2개의 네트워크를 포함한다. 각 태스크에 대해 최고의 성능을 얻기 위해, 본 발명은 각 태스크의 속성에 맞게 생성자와 구별자를 재설계할 수 있다.The present invention includes two networks, a generator G and a discriminator D, as shown in FIG. In order to obtain the best performance for each task, the present invention can redesign the constructor and the discriminator to suit the properties of each task.

생성자는 U-net 구조에 기초하며, 인코더 부분과 디코더 부분으로 구성되고, 인코더와 디코더 사이의 각 파트는 컨트랙팅 경로(contracting path)로 연결된다. 생성자는 Net 구조를 따르며, 정규화(normalization) 연산을 수행하는 배치 노말라이제이션(batch normalization) 레이어와 비선형 함수(nonlinear function) 연산을 수행하는 ReLU(rectified linear unit) 레이어 대신 인스턴스 노말라이제이션(instance normalization) 레이어(D. Ulyanov, A. Vedaldi, and V. Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016.)와 리키-ReLU 레이어(K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision, pages 1026-1034, 2015.)가 각각 사용될 수 있다.The generator is based on the U-net structure and consists of an encoder part and a decoder part, and each part between the encoder and the decoder is connected by a contracting path. The constructor follows the Net structure, and instead of a batch normalization layer that performs normalization operations and a rectified linear unit (ReLU) layer that performs nonlinear function operations, instance normalization is performed. ) layer (D. Ulyanov, A. Vedaldi, and V. Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016.) and Leaky-ReLU layer (K. He, X. Zhang, S (. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision, pages 1026-1034, 2015.) can be used, respectively.

MR 대조도 변환: T1 웨이트 대조도(contrast), T2 웨이트 대조도(contrast) 등 다양한 MR 대조도(contrast)가 존재한다. 구체적인 MR 대조도(contrast) 스캔은 반복시간(TR; repetition time), 에코시간(TE; echo time) 등과 같은 MRI 스캔 파라미터에 의해 결정된다. MR 대조도(contrast) 영상의 픽셀 강도는 T1, T2, 양성자 밀도 등과 같이 조직의 MR 파라미터라 불리는 조직의 물리적 특성에 의해 결정된다. MR 파라미터는 복셀 방향(voxel-wise) 속성을 가진다. 이는 컨볼루션 뉴럴 네트워크의 경우, 픽셀단위 처리가 주변(neighborhood) 또는 큰 시야(FOV; Field of View)로부터 정보를 처리하는 것만큼이나 중요하다는 것을 의미한다. 따라서 단일 컨볼루션을 사용하는 대신, 생성자는 다중 스케일 특성 정보를 다룰 수 있는 1 × 1, 3 × 3 필터를 가진 두 개의 컨볼루션 분기(convolution branch)를 이용할 수 있다. 두 컨볼루션 분기는 인셉션 네트워크(inception network)와 유사하게 연결되어 있다MR Contrast Conversion: There are various MR contrasts such as T1 weight contrast and T2 weight contrast. A specific MR contrast scan is determined by MRI scan parameters such as repetition time (TR) and echo time (TE). The pixel intensity of an MR contrast image is determined by the physical properties of the tissue, called MR parameters of the tissue, such as T1, T2, and proton density. The MR parameter has a voxel-wise property. This means that for convolutional neural networks, pixel-wise processing is just as important as processing information from neighborhood or field of view (FOV). Therefore, instead of using a single convolution, the generator can use two convolution branches with 1 × 1 and 3 × 3 filters that can handle multi-scale feature information. The two convolutional branches are connected similarly to the inception network.

조명 번환: 조명 변환 태스크를 위해, 배치 노말라이제이션(batch normalization) 레이어 대신에 인스턴스 노말라이제이션(instance normalization) 레이어가 있는 오리지널의 U-Net 구조를 이용할 수 있다.Lighting transformation: For the lighting transformation task, we can use the original U-Net structure with an instance normalization layer instead of a batch normalization layer.

얼굴 표정 번환: 얼굴 표정 번환 태스크를 위해 다양한 표정을 가진 복수의 얼굴 영상이 입력된다. 얼굴 표정들 사이에 피실험자의 머리 움직임이 존재하기 때문에 영상이 픽셀 방향에 따라 엄격하게 정렬되지는 않는다. 얼굴 표정 영상 간 태스크에 오리지널 U-net을 사용하면, 네트워크 초기 단계에서 여러 얼굴 표정의 정보가 뒤섞여 있기 때문에 생성자의 성능이 떨어진다. 참고로 말하면 얼굴 표정의 특징은 대형 FOV에서 특징을 계산하거나 이미 풀링 레이어(pulling layer)로 다운샘플링하는 생성자의 중간 단계에서 혼합해야 한다. 따라서, 생성자는 8개의 얼굴 표정마다 8개의 인코더 분기로 재설계되어 생성자 중간 단계에서 인코딩 프로세스 후에 연결될 수 있다. 디코더의 구조는 잔여 블록(residual block)을 사용하여 더 많은 컨볼루션 레이어(convolutional layer)를 추가하는 것을 제외하고 U-net의 디코더 부분과 유사하다.Facial expression conversion: A plurality of face images with various expressions are input for the facial expression conversion task. The image is not strictly aligned according to the pixel direction, as there is a subject's head movement between the facial expressions. If the original U-net is used for the task between facial expression images, the performance of the creator is deteriorated because information of various facial expressions is mixed in the initial stage of the network. For reference, the features of facial expressions must be mixed in an intermediate stage of the constructor either calculating the features from a large FOV or downsampling them into a pulling layer already. Therefore, the generator can be redesigned with 8 encoder branches for every 8 facial expressions, and connected after the encoding process in the constructor intermediate step. The structure of the decoder is similar to the decoder part of U-net except that more convolutional layers are added using residual blocks.

구별자는 일반적으로 일련의 컨볼루션 레이어(convolution layer)와 Leaky-ReLU 레이어로 구성될 수 있다. 도 2에 도시된 바와 같이, 구별자는 두 개의 출력 헤더를 가지고 있는데, 하나는 진짜 또는 가짜의 분류 헤더이고 다른 하나는 도메인에 대한 분류 헤더일 수 있다. 구별자는 PatchGAN를 활용하여 로컬 영상 패치가 진짜인지 가짜인지 분류할 수 있다. 드롭아웃(dropout)은 구별자의 오버피팅을 방지하기 위해 매우 효과적이다. 예외적으로, MR 대조도(contrast) 변환의 구별자는 다중 스케일 프로세싱(multi-scale-processing)를 위한 분기를 가지고 있다.A discriminator can generally consist of a series of convolution layers and Leaky-ReLU layers. As shown in Fig. 2, the identifier has two output headers, one may be a real or fake classification header, and the other may be a classification header for a domain. The discriminator can use PatchGAN to classify whether a local image patch is real or fake. Dropout is very effective to prevent overfitting of the discriminator. Exceptionally, the discriminator of the MR contrast transform has a branch for multi-scale-processing.

물론, 본 발명에서의 뉴럴 네트워크는 상술한 뉴럴 네트워크로 한정하지 않으며, 본 발명을 적용할 수 있는 모든 종류의 네트워크를 포함할 수 있다. 예를 들어, 본 발명의 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 예를 들어, U-Net 등과 같은 다양한 종류의 뉴럴 네트워크를 포함할 수 있으며, 다중 해상도 뉴럴 네트워크는 풀링 레이어에서 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.Of course, the neural network in the present invention is not limited to the above-described neural network, and may include all types of networks to which the present invention can be applied. For example, the neural network of the present invention is a generative adversarial network (GAN), a convolutional neural network, a convolution framelet-based neural network, a pooling layer and unpooling ) layer may include various types of neural networks such as, for example, U-Net, and the multi-resolution neural network may include a bypass connection from a pooling layer to an unpooling layer. .

네트워크 트레이닝(Network training)Network training

모든 모델은 0.00001의 학습 레이트, β1 = 0.9, β2 = 0.999를 가진 Adam 을 사용하여 최적화될 수 있다. 상술한 바와 같이, 구분자의 성능은 진짜 라벨에만 연결되어야 하며, 이는 진짜 데이터를 사용해서만 트레이닝을 받아야 함을 의미한다. 따라서, 본 발명은 먼저 10에포크(epoch) 동안 해당하는 라벨로 진짜 영상에 대한 구분자(classifier)를 트레이닝시키고, 그 후 생성자와 구별자를 트레이닝시킨다. MR 대조도(contrast) 변환 태스크, 조명 변환과 얼굴 표정 변환 태스크는 NVIDIA GTX 1080 GPU를 사용하여 각각 약 6시간, 12시간, 1일이 소요될 수 있다. 조명 변환 태스크에는 RGB 색상 코드 대신 YCbCr 색상 코드가 사용될 수 있으며, YCbCr 코딩은 Y-휘도와 CbCr-색상으로 구성될 수 있다. 5개의 다른 조명 영상들이 있으며, 3개의 다른 조명 영상들은 CbCr 코딩을 거의 공유하고 있으며 유일한 차이점은 Y-휘도 채널이다. 따라서, 조명 변환 태스크를 위해 Y-휘도 채널만 프로세싱되고, 재구성된 영상은 RGB 코딩된 영상에 적용될 수 있다. 본 발명은 얼굴 표정 변환 태스크에 RGB 채널을 사용하고, MR 대조도(contrast) 데이터 셋은 단일 채널 영상으로 구성될 수 있다.All models can be optimized using Adam with a learning rate of 0.00001, β1 = 0.9, β2 = 0.999. As mentioned above, the performance of the delimiter should only be linked to genuine labels, which means that it should only be trained using real data. Therefore, the present invention first trains a classifier for a real image with a corresponding label for 10 epochs, and then trains a generator and a classifier. The MR contrast conversion task, lighting conversion, and facial expression conversion task can take about 6 hours, 12 hours, and 1 day, respectively, using the NVIDIA GTX 1080 GPU. YCbCr color code can be used instead of RGB color code for lighting conversion task, and YCbCr coding can consist of Y-luminance and CbCr-color. There are 5 different illumination images, the 3 different illumination images almost share CbCr coding, the only difference is the Y-luminance channel. Therefore, only the Y-luminance channel is processed for the lighting conversion task, and the reconstructed image can be applied to the RGB coded image. The present invention uses RGB channels for the facial expression conversion task, and the MR contrast data set may be composed of a single channel image.

본 발명의 실시예에 따른 방법은 구별자 네트워크와 생성자 네트워크를 다중 사이클 일관성 손실을 이용하여 트레이닝하고, 이러한 트레이닝 과정을 통해 생성자 네트워크의 학습 모델이 생성되면 생성된 생성자 네트워크 예를 들어, CollaGAN을 이용하여 결측 영상 데이터를 대체 또는 복원할 수 있다. 즉, 본 발명의 실시예에 따른 방법은 다중 사이클 일관성 손실을 이용한 트레이닝 과정을 통해 생성된 학습 모델의 뉴럴 네트워크에서 다중 도메인의 입력 영상 데이터와 타겟 도메인에 대한 정보 예를 들어, 마스크 벡터를 입력으로 수신하고, 뉴럴 네트워크의 학습 모델을 이용하여 타겟 도메인에 대한 결측 영상 데이터를 복원할 수 있다. 이러한 본 발명의 방법에 대해 도 3을 참조하여 설명하면 다음과 같다.The method according to an embodiment of the present invention trains a discriminator network and a generator network using multi-cycle coherence loss, and when a learning model of the generator network is generated through this training process, the generated generator network, for example, CollaGAN is used. Thus, the missing image data can be replaced or restored. That is, in the method according to an embodiment of the present invention, input image data of multiple domains and information about a target domain, for example, a mask vector, are input to a neural network of a learning model generated through a training process using multi-cycle coherence loss. received, and the missing image data for the target domain may be reconstructed using the learning model of the neural network. The method of the present invention will be described with reference to FIG. 3 as follows.

도 3은 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법에 대한 동작 흐름도를 나타낸 것으로, 상술한 모든 내용을 포함할 수 있다.3 is a flowchart illustrating an operation of a method for replacing missing image data according to an embodiment of the present invention, and may include all of the above-described contents.

도 3을 참조하면, 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신한다(S310).Referring to FIG. 3 , in the method for replacing missing image data according to an embodiment of the present invention, input image data for at least two or more domains among preset multi-domains is received ( S310 ).

여기서, 단계 S310은 MR 대조도 영상의 결측 영상 데이터를 대체하기 위한 뉴럴 네트워크가 네 개의 도메인들 중 두 개의 입력 영상 데이터를 이용하여 나머지 두 개의 타겟 도메인들 중 적어도 하나에 대한 결측 영상 데이터를 복원하도록 트레이닝된 경우 두 개의 도메인들에 대한 입력 영상 데이터를 수신할 수 있으며, MR 대조도 영상의 결측 영상 데이터를 대체하기 위한 뉴럴 네트워크가 네 개의 도메인들 중 세 개의 입력 영상 데이터를 이용하여 나머지 한 개의 타겟 도메인에 대한 결측 영상 데이터를 복원하도록 트레이닝된 경우 세 개의 도메인들에 대한 입력 영상 데이터를 수신할 수 있다. 물론, 단계 S310은 조명 영상이나 얼굴 표정 영상에 대한 결측 영상 데이터를 복원하고자 하는 경우에도 해당 입력 영상에 대한 트레이닝 과정을 통해 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신할 수 있으며, 트레이닝 과정을 통해 미리 학습된 뉴럴 네트워크의 입력에 대한 것은 본 발명의 기술을 제공하는 사업자 또는 개인에 의해 결정될 수 있다.Here, in step S310, the neural network for replacing the missing image data of the MR contrast image reconstructs the missing image data of at least one of the remaining two target domains using input image data of two of the four domains. When trained, it is possible to receive input image data for two domains, and a neural network for replacing the missing image data of the MR contrast image uses input image data of three of the four domains to form the other target. When trained to reconstruct missing image data for a domain, input image data for three domains may be received. Of course, in step S310, even when it is desired to restore missing image data for a lighting image or a facial expression image, input image data for at least two or more domains may be received through a training process for the input image, and the training process The input of the neural network learned in advance through ? may be determined by a business operator or an individual providing the technology of the present invention.

나아가, 단계 S310은 두 개 이상의 도메인들에 대한 입력 영상 데이터 뿐만 아니라 복원하고자 하는 타겟 도메인에 대한 정보 예를 들어, 마스크 벡터를 함께 수신할 수도 있다.Furthermore, in step S310, not only input image data for two or more domains but also information on a target domain to be restored, for example, a mask vector may be received together.

단계 S310에 의해 적어도 두 개 이상 도메인들에 대한 입력 영상 데이터가 수신되면 수신된 두 개 이상 도메인들에 대한 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원한다(S320).When input image data for at least two or more domains is received by step S310, missing image data of a preset target domain is restored using a neural network that receives the received input image data for two or more domains as an input. (S320).

여기서, 단계 S320의 뉴럴 네트워크는 타겟 도메인에 대한 정보를 입력으로 수신하고, 수신된 타겟 도메인에 대한 결측 영상 데이터를 입력된 두 개 이상의 도메인들에 대한 입력 영상 데이터와 뉴럴 네트워크의 학습 모델에 기초하여 복원할 수 있으며, 뉴럴 네트워크는 상술한 바와 같이, 다중 사이클 일관성 손실을 이용하여 트레이닝됨으로써, 학습 모델이 생성될 수 있다.Here, the neural network of step S320 receives information on the target domain as an input, and receives the received missing image data for the target domain based on the input image data for two or more domains and the learning model of the neural network. It can be reconstructed, and the neural network is trained using multi-cycle coherence loss, as described above, so that a learning model can be created.

단계 S320에서의 뉴럴 네트워크는 도 2에서 트레이닝된 생성자 네트워크일 수 있으며, 이러한 뉴럴 네트워크는 상술한 바와 같이, 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 예를 들어, U-Net 등과 같은 다양한 종류의 뉴럴 네트워크를 포함할 수 있으며, 다중 해상도 뉴럴 네트워크는 풀링 레이어에서 언풀링 레이어로의 바이패스 연결을 포함할 수 있고, 본 발명을 적용할 수 있는 모든 종류의 뉴럴 네트워크를 포함할 수 있다.The neural network in step S320 may be the generator network trained in FIG. 2 , and as described above, the neural network is a generative adversarial network (GAN), a convolutional neural network, and a convolutional framelet (convolution). framelet)-based neural network, a multi-resolution neural network including a pooling layer and an unpooling layer, for example, may include various types of neural networks such as U-Net, and a multi-resolution neural network may include bypass connection from the pooling layer to the unpooling layer, and may include all types of neural networks to which the present invention can be applied.

예를 들어, 본 발명은 A, B, C, D 4개의 도메인을 전체 영상 데이터 셋으로 정의하고, D라는 데이터가 결측되었을 때 A, B, C 도메인의 데이터를 뉴럴 네트워크 예컨대, 생성자 네트워크의 입력으로 사용하여 D 영상을 복원한다. 복원된 영상 D(fake image)의 경우 구별자 네트워크가 판별하기에 실제 영상(real image)으로 판별되는 것을 목표로 생성자 네트워크를 학습하며, 구별자 네트워크는 가짜 영상과 진짜 영상을 구별하는 방향으로 트레이닝하고, 생성자 네트워크는 해당 구별자 네트워크를 속이는 방향으로 트레이닝을 진행한다. 최종적으로 트레이닝된 생성자 네트워크는 아주 현실적이고 실제와 같은 영상을 제공하도록 학습됨으로써, 다중 도메인 입력 영상 데이터를 입력으로 하여 원하는 타겟 도메인의 결측 영상 데이터를 복원할 수 있다.For example, in the present invention, four domains A, B, C, and D are defined as the entire image data set, and when data called D is missing, data of domains A, B, and C are input to a neural network, for example, a generator network. is used to restore the D image. In the case of a reconstructed image D (fake image), a generator network is trained with the goal of being identified as a real image for the discriminator network to discriminate, and the discriminator network is trained in a direction to distinguish a fake image from a real image. and the generator network proceeds training in a direction to deceive the corresponding discriminator network. Finally, the trained generator network is trained to provide a very realistic and realistic image, so that it is possible to reconstruct missing image data of a desired target domain by inputting multi-domain input image data.

이와 같이, 본 발명의 실시예에 따른 방법은 전체 도메인에 대해 전체 영상 데이터 셋을 정의하고, 존재하는 다중 도메인의 영상 데이터들을 뉴럴 네트워크의의 입력으로 사용하여 원하는 타겟 도메인의 영상 데이터를 대체 또는 복원할 수 있다.As described above, the method according to an embodiment of the present invention defines the entire image data set for the entire domain, and replaces or restores the image data of the desired target domain by using the existing image data of multiple domains as input to the neural network. can do.

이러한 본 발명의 실시예에 따른 방법은 데이터의 결측 문제를 해결하기 위해서 뉴럴 네트워크를 사용하며, 다대일 영상변환을 목적으로 영상의 입력을 다중으로 받는 것이 가능하고, 이 과정에서 안정적인 트레이닝을 위해 다중 사이클 일관성 손실을 이용한다. This method according to an embodiment of the present invention uses a neural network to solve the problem of missing data, and it is possible to receive multiple image inputs for the purpose of many-to-one image conversion, and in this process, multiple images are used for stable training. Use cycle coherence loss.

본 발명의 실시예에 따른 방법을 이용하여 결측 영상 데이터를 복원하게 되면 단일 입력 영상을 사용하여 복원하는 다른 알고리즘과 비교하여 훨씬 우수한 성능으로 복원이 가능하다. 예를 들어, 도 4에 도시된 바와 같이, MR 대조도 영상 데이터 셋에서 1장의 입력만 사용하는 CycleGAN과 StarGAN의 성능이 떨어지는 것을 확인할 수 있으며, 본 발명의 실시예에 따른 방법(proposed)은 성능이 우수한 것을 확인할 수 있다.When missing image data is restored using the method according to an embodiment of the present invention, it is possible to restore with much superior performance compared to other algorithms that restore using a single input image. For example, as shown in FIG. 4 , it can be seen that the performance of CycleGAN and StarGAN using only one input in the MR contrast image data set is poor, and the method according to the embodiment of the present invention (proposed) has the performance It can be confirmed that this is excellent.

도 5는 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 장치에 대한 구성을 나타낸 것으로, 도 1 내지 도 4의 방법을 수행하는 장치에 대한 개념적인 구성을 나타낸 것이다.5 is a diagram illustrating a configuration of an apparatus for replacing missing image data according to an embodiment of the present invention, and shows a conceptual configuration of an apparatus performing the method of FIGS. 1 to 4 .

도 5를 참조하면, 본 발명의 실시예에 따른 장치(500)는 수신부(510) 및 대체부(520)를 포함한다.Referring to FIG. 5 , an apparatus 500 according to an embodiment of the present invention includes a receiving unit 510 and a replacement unit 520 .

수신부(510)는 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신한다.The receiving unit 510 receives input image data for at least two or more domains among preset multi-domains.

여기서, 수신부(510)는 MR 대조도 영상의 결측 영상 데이터를 대체하기 위한 뉴럴 네트워크가 네 개의 도메인들 중 두 개의 입력 영상 데이터를 이용하여 나머지 두 개의 타겟 도메인들 중 적어도 하나에 대한 결측 영상 데이터를 복원하도록 트레이닝된 경우 두 개의 도메인들에 대한 입력 영상 데이터를 수신할 수 있으며, MR 대조도 영상의 결측 영상 데이터를 대체하기 위한 뉴럴 네트워크가 네 개의 도메인들 중 세 개의 입력 영상 데이터를 이용하여 나머지 한 개의 타겟 도메인에 대한 결측 영상 데이터를 복원하도록 트레이닝된 경우 세 개의 도메인들에 대한 입력 영상 데이터를 수신할 수 있다. Here, the receiver 510 receives the missing image data for at least one of the remaining two target domains by using the input image data of two of the four domains for the neural network to replace the missing image data of the MR contrast image. When trained to reconstruct, it is possible to receive input image data for two domains, and a neural network for replacing the missing image data of the MR contrast image uses the input image data of three of the four domains to When trained to reconstruct missing image data for target domains, input image data for three domains may be received.

나아가, 수신부(510)는 두 개 이상의 도메인들에 대한 입력 영상 데이터 뿐만 아니라 복원하고자 하는 타겟 도메인에 대한 정보 예를 들어, 마스크 벡터를 함께 수신할 수도 있다.Furthermore, the receiver 510 may receive not only input image data for two or more domains but also information on a target domain to be restored, for example, a mask vector.

대체부(520)는 적어도 두 개 이상 도메인들에 대한 입력 영상 데이터가 수신되면 수신된 두 개 이상 도메인들에 대한 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원한다.When input image data for at least two or more domains is received, the replacement unit 520 replaces missing image data of a preset target domain using a neural network that receives input image data for two or more domains as an input. restore

여기서, 대체부(520)는 타겟 도메인에 대한 정보를 입력으로 수신하고, 수신된 타겟 도메인에 대한 결측 영상 데이터를 입력된 두 개 이상의 도메인들에 대한 입력 영상 데이터와 뉴럴 네트워크의 학습 모델에 기초하여 복원할 수 있다.Here, the replacement unit 520 receives information on the target domain as an input, and receives the received missing image data for the target domain based on the input image data for two or more domains and the learning model of the neural network. can be restored

이 때, 뉴럴 네트워크는 상술한 바와 같이, 다중 사이클 일관성 손실을 이용하여 트레이닝됨으로써, 학습 모델이 생성될 수 있으며, 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크를 포함할 수 있고, 다중 해상도 뉴럴 네트워크는 풀링 레이어에서 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.In this case, as described above, the neural network is trained using multi-cycle coherence loss, so that a learning model can be generated, and the neural network is a generative adversarial network (GAN), a convolutional neural network, and a convolutional network. It may include a neural network based on a convolution framelet, a multi-resolution neural network including a pooling layer and an unpooling layer, and the multi-resolution neural network is from a pooling layer to an unpooling layer. It may include a bypass connection.

비록, 도 5 장치에서 그 설명이 생략되었더라도, 도 5의 장치는 상기 도 1 내지 도 4에서 설명한 내용을 모두 포함할 수 있으며, 이러한 사항은 본 발명의 기술 분야에 종사하는 당업자에게 있어서 자명하다.Although the description of the device of FIG. 5 is omitted, the device of FIG. 5 may include all of the contents described with reference to FIGS. 1 to 4 , which is apparent to those skilled in the art.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The system or device described above may be implemented as a hardware component, a software component, and/or a combination of the hardware component and the software component. For example, systems, devices, and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA). ), a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, may be implemented using one or more general purpose or special purpose computers. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For convenience of understanding, although one processing device is sometimes described as being used, one of ordinary skill in the art will recognize that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that can include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device. The software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or apparatus, to be interpreted by or to provide instructions or data to the processing device. , or may be permanently or temporarily embody in a transmitted signal wave. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited embodiments and drawings, various modifications and variations are possible from the above description by those skilled in the art. For example, the described techniques are performed in an order different from the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (13)

수신부에서 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들 각각에 대한 입력 영상 데이터를 수신하는 단계; 및
대체부에서 상기 적어도 두 개 이상의 도메인들 각각에 대한 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계
를 포함하며,
상기 수신하는 단계는
상기 적어도 두 개 이상의 도메인들 각각에 대한 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 함께 수신하고,
상기 뉴럴 네트워크는
단일 생성자를 이용하여 다중 입력을 처리하며, 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 생성자의 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 상기 생성자의 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝되는 것을 특징으로 하는 결측 영상 데이터 대체 방법.
receiving input image data for each of at least two or more domains among multiple domains preset in a receiver; and
reconstructing missing image data of a preset target domain by using a neural network to which input image data for each of the at least two or more domains is input by the replacement unit
includes,
The receiving step
Receive input image data for each of the at least two or more domains and information on the target domain together,
The neural network is
Multiple inputs are processed using a single generator, and fake image data of a first target domain generated by using real image data of at least two or more of the multiple domains as input to a generator is combined with the real image data, and the combination The method for replacing missing image data, characterized in that the reconstructed image and the real image data are trained using the multi-cycle coherence loss that is similar to the original image data by using the image data as an input of the generator.
삭제delete 삭제delete 제1항에 있어서,
상기 뉴럴 네트워크는
생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 중 적어도 하나를 포함하는 것을 특징으로 하는 결측 영상 데이터 대체 방법.
According to claim 1,
The neural network is
Generative Adversarial Networks (GANs), convolutional neural networks, convolution framelet-based neural networks, and multi-resolution neural networks including pooling and unpooling layers Missing image data replacement method comprising at least one.
삭제delete 삭제delete 삭제delete 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들 각각에 대한 입력 영상 데이터를 수신하는 수신부; 및
상기 적어도 두 개 이상의 도메인들 각각에 대한 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 대체부
를 포함하며,
상기 수신부는
상기 적어도 두 개 이상의 도메인들 각각에 대한 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 함께 수신하고,
상기 뉴럴 네트워크는
단일 생성자를 이용하여 다중 입력을 처리하며, 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 생성자의 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 상기 생성자의 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝되는 것을 특징으로 하는 결측 영상 데이터 대체 장치.
a receiver configured to receive input image data for each of at least two or more domains among preset multi-domains; and
A replacement unit for reconstructing missing image data of a preset target domain using a neural network to which input image data for each of the at least two or more domains is input
includes,
the receiving unit
Receive input image data for each of the at least two or more domains and information on the target domain together,
The neural network is
Multiple inputs are processed using a single generator, and fake image data of a first target domain generated by receiving real image data of at least two or more of the multiple domains as input to a generator and the real image data are combined, and the combination The apparatus for replacing missing image data, characterized in that the reconstructed image and the real image data are trained by using the multi-cycle coherence loss that is similar to the original image data by using the image data as an input of the generator.
삭제delete 삭제delete 제8항에 있어서,
상기 뉴럴 네트워크는
생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 중 적어도 하나를 포함하는 것을 특징으로 하는 결측 영상 데이터 대체 장치.
9. The method of claim 8,
The neural network is
Generative Adversarial Networks (GANs), convolutional neural networks, convolution framelet-based neural networks, and multi-resolution neural networks including pooling and unpooling layers Missing image data replacement device comprising at least one.
삭제delete 수신부에서 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들 각각에 대한 입력 영상 데이터를 수신하는 단계; 및
대체부에서 미리 정의된 다중 사이클 일관성 손실에 의해 학습된 뉴럴 네트워크를 이용하여 상기 적어도 두 개 이상의 도메인들 각각에 대한 입력 영상 데이터에 대응하는 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계
를 포함하며,
상기 수신하는 단계는
상기 적어도 두 개 이상의 도메인들 각각에 대한 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 함께 수신하고,
상기 뉴럴 네트워크는
단일 생성자를 이용하여 다중 입력을 처리하며, 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 생성자의 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 상기 생성자의 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝되는 것을 특징으로 하는 결측 영상 데이터 대체 방법.
receiving input image data for each of at least two or more domains among multiple domains preset in a receiver; and
Reconstructing missing image data of a preset target domain corresponding to input image data of each of the at least two domains using a neural network learned by a multi-cycle coherence loss predefined in the replacement unit
includes,
The receiving step
Receive input image data for each of the at least two or more domains and information on the target domain together,
The neural network is
Multiple inputs are processed using a single generator, and fake image data of a first target domain generated by using real image data of at least two or more of the multiple domains as input to a generator is combined with the real image data, and the combination The method for replacing missing image data, characterized in that the reconstructed image and the real image data are trained using the multi-cycle coherence loss that is similar to the original image data by using the image data as an input of the generator.
KR1020190125886A 2019-03-25 2019-10-11 Method for missing image data imputation using neural network and apparatus therefor KR102359474B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/706,224 US11748851B2 (en) 2019-03-25 2019-12-06 Method of replacing missing image data by using neural network and apparatus thereof
PCT/KR2020/003995 WO2020197239A1 (en) 2019-03-25 2020-03-24 Missing image data imputation method using neural network and apparatus therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190033826 2019-03-25
KR1020190033826 2019-03-25

Publications (2)

Publication Number Publication Date
KR20200115001A KR20200115001A (en) 2020-10-07
KR102359474B1 true KR102359474B1 (en) 2022-02-08

Family

ID=72883608

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190125886A KR102359474B1 (en) 2019-03-25 2019-10-11 Method for missing image data imputation using neural network and apparatus therefor

Country Status (1)

Country Link
KR (1) KR102359474B1 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102350610B1 (en) * 2019-12-26 2022-01-14 고려대학교 산학협력단 Method for raw-to-rgb mapping using two-stage u-net with misaligned data, recording medium and device for performing the method
CN112861977B (en) * 2021-02-19 2024-01-26 中国人民武装警察部队工程大学 Migration learning data processing method, system, medium, equipment, terminal and application
KR102514708B1 (en) * 2021-03-30 2023-03-29 한국과학기술원 Tomography image processing method using single neural network based on unsupervised learning for image standardization and apparatus therefor
CN113392149B (en) * 2021-06-15 2022-09-13 浙江大学 Loan overdue prediction method based on multi-source heterogeneous data fusion
KR102570598B1 (en) * 2021-06-24 2023-08-28 주식회사 틸더 Apparatus and method for regenerating missing electrocardiogram signal
KR102643601B1 (en) * 2021-06-28 2024-03-06 한국과학기술원 Method and apparatus for low-dose x-ray computed tomography image processing based on efficient unsupervised learning using invertible neural network
KR102507654B1 (en) 2021-08-20 2023-03-08 선문대학교 산학협력단 Image processing system using generative adversarial networks and image-to-image translation method using thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180247201A1 (en) * 2017-02-28 2018-08-30 Nvidia Corporation Systems and methods for image-to-image translation using variational autoencoders

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102089151B1 (en) * 2017-08-30 2020-03-13 한국과학기술원 Method and apparatus for reconstructing image based on neural network

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180247201A1 (en) * 2017-02-28 2018-08-30 Nvidia Corporation Systems and methods for image-to-image translation using variational autoencoders

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Choi, Yunjey, et al. StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation. arXiv:1711.09020v3. arXiv. 2018.9.21.*

Also Published As

Publication number Publication date
KR20200115001A (en) 2020-10-07

Similar Documents

Publication Publication Date Title
KR102359474B1 (en) Method for missing image data imputation using neural network and apparatus therefor
US11748851B2 (en) Method of replacing missing image data by using neural network and apparatus thereof
Lee et al. CollaGAN: Collaborative GAN for missing image data imputation
CN110084863B (en) Multi-domain image conversion method and system based on generation countermeasure network
Hu et al. Channel-wise and spatial feature modulation network for single image super-resolution
Wen et al. Generating realistic videos from keyframes with concatenated GANs
Jiang et al. ATMFN: Adaptive-threshold-based multi-model fusion network for compressed face hallucination
CN110544239B (en) Multi-modal MRI conversion method, system and medium for generating countermeasure network based on conditions
Du et al. Accelerated super-resolution MR image reconstruction via a 3D densely connected deep convolutional neural network
Zhou et al. Guided deep network for depth map super-resolution: How much can color help?
CN110689561B (en) Conversion method, system and medium of multi-modal MRI and multi-modal CT based on modular GAN
Cristovao et al. Generating in-between images through learned latent space representation using variational autoencoders
Zhang Generating adversarial examples in one shot with image-to-image translation GAN
CN114708465B (en) Image classification method and device, electronic equipment and storage medium
Zhou et al. Unsupervised anomaly localization using VAE and beta-VAE
Muhammad et al. Multi-scale Xception based depthwise separable convolution for single image super-resolution
Dalca et al. Unsupervised data imputation via variational inference of deep subspaces
CN110874855B (en) Collaborative imaging method and device, storage medium and collaborative imaging equipment
Xiang et al. Spatiotemporal self-attention modeling with temporal patch shift for action recognition
Liu et al. vmfnet: Compositionality meets domain-generalised segmentation
Shangguan et al. Learning cross-video neural representations for high-quality frame interpolation
Hu et al. Domain-adaptive 3D medical image synthesis: An efficient unsupervised approach
Bao et al. Object discovery from motion-guided tokens
Zhu et al. CEFusion: Multi‐Modal medical image fusion via cross encoder
Bi et al. Learning a prototype discriminator with RBF for multimodal image synthesis

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant