KR20200115001A - 뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치 - Google Patents
뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치 Download PDFInfo
- Publication number
- KR20200115001A KR20200115001A KR1020190125886A KR20190125886A KR20200115001A KR 20200115001 A KR20200115001 A KR 20200115001A KR 1020190125886 A KR1020190125886 A KR 1020190125886A KR 20190125886 A KR20190125886 A KR 20190125886A KR 20200115001 A KR20200115001 A KR 20200115001A
- Authority
- KR
- South Korea
- Prior art keywords
- image data
- domains
- neural network
- missing
- target domain
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000011176 pooling Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 14
- 230000008921 facial expression Effects 0.000 description 13
- 238000010606 normalization Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002595 magnetic resonance imaging Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000002075 inversion recovery Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0135—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치가 개시된다. 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 단계; 및 상기 두 개 이상의 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계를 포함하며, 상기 뉴럴 네트워크는 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝될 수 있다.
Description
본 발명은 뉴럴 네트워크를 이용한 결측 영상 데이터 대체 기술에 관한 것으로서, 보다 구체적으로 다중 도메인들 각각의 영상 데이터를 입력으로 사용하는 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원할 수 있는 결측 영상 데이터 대체 방법 및 그 장치에 관한 것이다.
많은 영상 처리와 컴퓨터 비전 어플리케이션에서, 원하는 출력을 생성하기 위해서는 복수의 입력 영상 셋을 필요로 한다. 예를 들어, 뇌 자기공명영상(MRI)에서는 정확한 암 마진의 진단과 세분화를 위하여 T1, T2, FLAIR(FLuid-Attenuated Inversion Recovery) 대조도(contrast)를 갖는 MR 영상들이 모두 필요하다. 다중 뷰 카메라 영상에서 3D 볼륨을 생성할 때, 대부분의 알고리즘들은 이미 정해진 화각(view angle) 셋을 요구한다. 하지만, 입력 데이터 완전한 셋은 취득 비용과 시간, 데이터 셋의 시스템적 오류 등으로 인해 얻기 어려운 경우가 많다. 예를 들면, Magnetic Resonance Image Compilation 시퀀스를 이용한 합성 MR 대조도(contrast) 생성에서, 합성 T2-FLAIR 대조도(contrast) 영상에 시스템적 오류가 존재하여 오진단으로 이어지는 경우가 많다. 또한 결측 데이터는 상당한 바이어스들을 야기할 수 있어서, 데이터 처리와 분석에 오류를 만들고 통계 효율을 감소시킬 수 있다.
임상 환경에서 종종 실현 가능하지 않은 예상치 못한 상황에서 모든 데이터 셋을 다시 획득하기 보다는, 결측 데이터(missing data)를 대체 값(substituted value)으로 대체하는 경우가 있으며, 이 프로세스를 대체(imputation)라 한다. 모든 결측 값들이 대체되면, 데이터 셋은 완전 데이터 셋을 위해 설계된 표준 기술의 입력으로 사용할 수 있다.
평균 대체(mean imputation), 회귀 대체(regression imputation), 통계적 대체(stochastic imputation) 등과 같이 전체 셋에 대한 모델링 가정에 기초하여 결측 데이터를 대체하는 몇 가지 표준 방법들이 있다. 하지만, 이러한 표준 알고리즘은 영상과 같은 고차원 데이터에 대한 한계가 있으며, 이는 영상 대체가 고차원적인 데이터 매니폴드에 대한 지식을 필요로 하기 때문이다.
영상 간(image-to-image) 변환 문제에도 유사한 기술적 문제가 있으며, 이 문제의 목표는 주어진 영상의 특정 측면을 다른 영상으로 바꾸는 것이다. 초고해상도(super resolution), 노이즈 제거작업(denoising), 블러링 제거작업(deblurring), 스타일 전송(style transfer), 의미론적 세분화(semantic segmentation), 깊이 예측(depth prediction)과 같은 태스크는 한 도메인에서 다른 도메인에 있는 해당 영상으로 영상 매핑하는 것일 수 있다. 여기서, 각 도메인은 해상도, 얼굴 표정, 빛의 각도 등 다른 측면을 가지며, 도메인 간 변환할 영상 데이터 셋의 고유한(intrinsic) 매니폴드 구조에 대해 알아야 한다. 최근에 이러한 태스크는 생성적 적대 네트워크(GAN; Generative Adversarial Network)에 의해 크게 향상되고 있다.
일반적인 GAN 프레임워크는 생성자(generator) G와 구별자(discriminator) D 두 가지 뉴럴 네트워크로 구성된다. 구별자가 트레이닝을 통하여 가짜와 진짜 샘플을 구별하기 위한 특징을 찾는다면, 생성자는 구별자가 가짜와 진짜를 판단하기 위해 사용하는 특징을 제거하고 합성하는 방법을 학습한다. 따라서, GANs는 구별자가 진짜와 가짜를 구별할 수 없는 좀 더 실제적인 샘플을 생성할 수 있다. GANs는 영상 생성, 영상 변환 등과 같은 다양한 컴퓨터 비전 작업에서 놀라운 성과를 보여주고 있다.
기존의 GAN과 달리, 조건부 GAN(Co-GAN)은 일부 정보 라벨을 추가적인 생성자의 파라미터로 더하여 출력을 제어한다. 여기서 생성자는 알려지지 않은 노이즈 분포로부터 일반적인 샘플을 생성하는 대신에 특정 조건 또는 특성(영상과 연관된 라벨 또는 보다 상세한 태그)을 가진 가짜 샘플을 생산하는 방법을 학습한다. 조건부 GAN의 성공적인 어플리케이션은 쌍을 이룬 데이터의 경우 pix2pix, 쌍을 이루지 않은 데이터의 경우 CycleGAN과 같은 영상간 변환을 위한 것이다.
CycleGAN(J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired imageto-image translation using cycle-consistent adversarial networks. arXiv preprint, 2017.)과 DiscoGAN(T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim. Learning to discover cross-domain relations with generative adversarial networks. arXiv preprint arXiv:1703.05192, 2017.)은 사이클 일관성 손실을 이용하여 입력과 출력 영상 사이의 주요 속성을 보전하려고 한다. 그러나, 이러한 프레임워크는 한 번에 두 개의 서로 다른 도메인 사이의 관계를 학습할 수 있을 뿐이다. 이러한 접근법은 도 1a에 도시된 바와 같이 각 도메인 쌍이 별도의 도메인 쌍을 필요로 하고 N개의 구분되는 도메인을 처리하기 위해 총 N × (N-1)개의 생성자를 필요로 하기 때문에 다중 도메인을 처리할 때 확장성 한계가 있다. 종래 일 실시예 기술은 다중 도메인 번역 아이디어를 일반화하기 위하여 도 1b에 도시된 바와 같이 단일 생성자로 복수의 도메인 간 번역 매핑을 학습할 수 있는 이른바 StarGAN을 제안하였으며, 최근에 비슷한 다중 도메인 전송 네트워크가 제안된 바도 있다.
StarGAN(Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unified generative adversarial networks for multidomain image-to-image translation. arXiv preprint, 1711, 2017.)와 Radial GAN(J. Yoon, J. Jordon, and M. van der Schaar. RadialGAN: Leveraging multiple datasets to improve target-specific predictive models using generative adversarial networks. arXiv preprint arXiv:1802.06403, 2018.)은 단일 생성자를 사용하여 여러 도메인을 처리하는 최근의 프레임워크이다. 예를 들어, StarGAN에서는 입력 영상과 타겟 도메인(target domain)을 나타내는 마스크 벡터로부터의 깊이 있는 연결은 입력을 타겟 도메인에서 재구성된 영상에 매핑하는데 도움이 된다. 여기서, 구별자는 도메인 분류를 위해 또 다른 역할을 하도록 설계되어야 한다. 구체적으로는 구별자는 샘플의 진위 여부 뿐만 아니라 샘플의 클래스도 판별한다.
이러한 GAN 기반의 영상 전송 기술은 영상 변환이 영상 매니폴드 구조를 모델링하여 결측 영상 데이터베이스를 추정할 수 있는 프로세스로 간주될 수 있으므로, 영상 데이터 대체와 밀접한 관련이 있다. 그러나 영상 대체(imputation)와 번환(translation) 사이에는 근본적인 차이점이 있다. 예를 들어, CycleGAN과 StarGAN은 도 1a와 도 1b에 도시된 바와 같이 남은 도메인 데이터 셋을 고려하지 않고 한 영상을 다른 영상으로 전송하는데 관심이 있다. 그러나 영상 대체 문제에서는 결측 데이터가 자주 발생되지 않으며 다른 클린 데이터 셋을 활용하여 결측 데이터를 추정하는 것을 목표로 한다.
본 발명의 실시예들은, 다중 도메인들 각각의 영상 데이터를 입력으로 사용하는 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원함으로써, 복원 성능을 향상시킬 수 있는 결측 영상 데이터 대체 방법 및 그 장치를 제공한다.
본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 단계; 및 상기 두 개 이상의 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계를 포함한다.
상기 뉴럴 네트워크는 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝될 수 있다.
상기 수신하는 단계는 상기 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 함께 수신할 수 있다.
상기 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 중 적어도 하나를 포함할 수 있다.
상기 뉴럴 네트워크는 상기 풀링 레이어에서 상기 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.
나아가, 본 발명의 다른 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터와 타겟 도메인에 대한 정보를 수신하는 단계; 및 상기 두 개 이상의 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 입력으로 하는 뉴럴 네트워크를 이용하여 상기 타겟 도메인의 결측 영상 데이터를 복원하는 단계를 포함한다.
상기 뉴럴 네트워크는 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝될 수 있다.
본 발명의 일 실시예에 따른 결측 영상 데이터 대체 장치는 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 수신부; 및 상기 두 개 이상의 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 대체부를 포함한다.
상기 뉴럴 네트워크는 상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝될 수 있다.
상기 수신부는 상기 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 함께 수신할 수 있다.
상기 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 중 적어도 하나를 포함할 수 있다.
상기 뉴럴 네트워크는 상기 풀링 레이어에서 상기 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.
본 발명의 또 다른 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 단계; 및 미리 정의된 다중 사이클 일관성 손실에 의해 학습된 뉴럴 네트워크를 이용하여 상기 두 개 이상의 입력 영상 데이터에 대응하는 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계를 포함한다.
본 발명의 실시예들에 따르면, 다중 도메인들 각각의 영상 데이터를 입력으로 사용하는 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원함으로써, 복원 성능을 향상시킬 수 있다.
본 발명의 실시예들에 따르면, 현재 의료계에서 암 진단에 실제로 사용되고 있는 데이터 획득 방법을 수정하지 않고 그대로 사용하고, 이 때 발생 가능한 결측 데이터 문제를 추가적인 비용과 촬영 없이 대체할 수 있기 때문에 환자와 병원 측 모두에 시간적 비용과 금전적 비용을 획기적으로 절약할 수 있다.
본 발명의 실시예들에 따르면, 암 진단에 필요한 다양한 대조도의 영상 셋에서 결측이 발생했을 경우 결측 대체를 위해 사용될 수도 있고, 다양한 조명 방향 데이터 셋에서 결측된 데이터를 대체하기 위해 사용할 수도 있으며, 다양한 표정의 사람 얼굴 데이터에서 결측된 데이터를 대체하기 위해 사용될 수도 있다. 나아가, 본 발명은 이외에도 다양한 카메라 각도 데이터에서 결측된 데이터, 영상의 해상도에 따른 데이터에서 결측된 데이터, 영상의 노이즈 정도에 따른 데이터에서 결측된 데이터, 영상의 예술적 스타일이나 종류에 따른 데이터에서 결측된 데이터 및 글자의 폰트 타입 데이터에서 결측된 데이터 등 다양한 도메인이 존재할 때 발생하는 결측 영상 데이터에 대해 범용적으로 사용할 수 있다.
도 1은 종래 기술과 본 발명에 따른 영상 변환 태스크에 대한 일 예시도를 나타낸 것이다.
도 2는 본 발명에서 뉴럴 네트워크를 트레이닝하는 과정을 설명하기 위한 일 예시도를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법에 대한 동작 흐름도를 나타낸 것이다.
도 4는 MR 대조도 대체 결과에 대한 일 예시도를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 장치에 대한 구성을 나타낸 것이다.
도 2는 본 발명에서 뉴럴 네트워크를 트레이닝하는 과정을 설명하기 위한 일 예시도를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법에 대한 동작 흐름도를 나타낸 것이다.
도 4는 MR 대조도 대체 결과에 대한 일 예시도를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 장치에 대한 구성을 나타낸 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상 의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
본 발명의 실시예들은, 다중 도메인들 각각의 영상 데이터를 입력으로 사용하는 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원하는 것을 그 요지로 한다.
여기서, 본 발명은 다중 도메인들의 입력 영상 데이터로부터 생성된 타겟 도메인의 가짜 영상 데이터와 입력 영상 데이터를 조합하고, 조합된 다중 도메인의 영상 데이터로부터 복원된 영상과 오리지널 입력 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 뉴럴 네트워크를 트레이닝함으로써, 학습 모델을 생성하고, 생성된 학습 모델의 뉴럴 네트워크를 이용하여 타겟 도메인의 결측 영상 데이터를 복원할 수 있다.
본 발명에서의 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 예를 들어, U-Net 등과 같은 다양한 종류의 뉴럴 네트워크를 포함할 수 있으며, 이 뿐만 아니라 본 발명에서 사용할 수 있는 모든 종류의 뉴럴 네트워크를 포함할 수 있다. 이 때, 다중 해상도 뉴럴 네트워크는 풀링 레이어에서 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.
본 발명은 보다 현실적이고 실현 가능한 출력을 생성하기 위해 다중 입력을 처리하는 공동 생성적 적대 네트워크(CollaGAN; Collaborative Generative Adversarial Network) 프레임워크에 대해 설명한다. 본 발명의 CollaGAN 프레임워크는 도 1c에 도시된 바와 같이, 단일 입력과 단일 출력을 처리하는 Star-GAN에 비해, 다중 도메인으로부터의 다중 입력을 처리한다. 본 발명의 영상 대체 기술은 기존 방법에 비해 많은 장점을 제공한다.
첫째, 기본적인 영상 매니폴드는 단일 입력보다는 동일한 매니폴드 구조를 공유하는 다중 입력 데이터 셋에서 시너지 효과를 얻을 수 있다. 따라서, CollaGAN을 이용한 결측값의 추정치는 보다 정확하다.
둘째, CollaGAN은 여전히 CycleGAN에 비해 메모리 효율이 높은 StarGAN과 유사한 1세대 아키텍처를 유지하고 있다.
이러한 본 발명에 대해 상세히 설명하면 다음과 같다.
다중 입력을 이용한 영상 대체(imputation)
설명의 편의를 위하여, a, b, c, d의 4가지 타입(N=4)의 도메인이 있다고 가정한다. 본 발명은 단일 생성자를 이용하여 다중 입력을 처리하기 위하여, 다른 타입의 다중 영상들의 셋 으로부터 공동 매핑(collaborative mapping)을 통하여 생성자를 트레이닝시키고 타겟 도메인 의 출력 영상을 합성한다. 여기서, C는 상보 셋(complementary set)을 의미할 수 있다. 이 매핑은 아래 <수학식 1>과 같이 나타낼 수 있다.
[수학식 1]
복수 입력과 단일 출력 조합에 대한 조합 수가 N개이므로, 본 발명은 트레이닝 중에 이러한 조합을 무작위로 선택하여 생성자가 복수 타겟 도메인에 대한 다양한 매핑을 학습할 수 있도록 한다.
네트워크 손실
다중 사이클 일관성 손실: 본 발명의 실시예에 따른 방법의 핵심 개념 중 하나는 다중 입력에 대한 사이클 일관성이다. 입력은 복수의 영상이므로, 사이클 손실은 재정의해야 한다. 포워드 생성자 G의 출력을 라고 가정하면, 도 2에 도시된 바와 같이 생성자의 백워드 흐름(backward flow)에 대한 다른 입력으로서 N-1개의 새로운 조합들을 생성할 수 있다. 예를 들어, N = 4인 경우 아래 <수학식 2>와 같이 다중 입력과 단일 출력의 세 가지 조합이 있어, 생성자의 백워드 흐름을 이용하여 오리지널 도메인의 세가지 영상을 재구성할 수 있다.
[수학식 2]
여기서, 연관된 다중 사이클 일관성 손실은 아래 <수학식 3>과 같이 나타낼 수 있다.
[수학식 3]
다중 사이클 일관성 손실은 다중 도메인들의 입력 영상 데이터로부터 생성된 타겟 도메인의 가짜 영상 데이터와 입력 영상 데이터를 조합하고, 조합된 다중 도메인의 영상 데이터로부터 복원된 영상과 오리지널 입력 영상 데이터가 유사해야 하는 손실을 의미할 수 있다.
[수학식 4]
[수학식 5]
구별자 손실: 구별자는 두 가지 역할을 수행하는데, 하나는 진짜인지 가짜인지 소스를 분류하는 것이고, 다른 하나는 클래스 a, b, c, d의 도메인 타입을 분류하는 것이다. 따라서, 구별자 손실은 두 부분으로 구성될 수 있다. 도 2에 도시된 바와 같이, 구별자 손실은 마지막 레이어들을 제외하고 동일한 뉴럴 네트워크 웨이트(weights) 를 공유하는 Dgan과 Dclsf의 두 가지 경로를 가진 구별자를 사용하여 실현할 수 있다.
특히, 적대적 손실은 생성된 영상을 가능한 진짜로 만들기 위해 필요하다. 레귤러 GAN 손실은 학습 프로세스 중에 소멸되는 그래디언트 문제를 야기할 수 있다. 본 발명은 이러한 문제를 극복하고 트레이닝의 견고성(robustness)을 향상시키기 위해 오리지널 GAN 손실 대신 Least Square GAN(X. Mao, Q. Li, H. Xie, R. Y. Lau, Z. Wang, and S. P. Smolley. Least squares generative adversarial networks. In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 2813-2821. IEEE, 2017.)의 적대적 손실을 활용할 수 있다. 특히, 구별자 Dgan은 아래 <수학식 6>의 손실을 최소화함으로써, 최적화될 수 있고, 생성자는 아래 <수학식 7>의 손실을 최소화함으로써, 최적화될 수 있다.
[수학식 6]
[수학식 7]
다음, 도메인 분류 손실은 과 의 두 부분으로 구성되며, 그것들은 각각 진짜 영상과 가짜 영상의 도메인 분류를 위한 교차 엔트로피 손실일 수 있다. 생성자 G를 트레이닝하는 목적은 타겟 도메인으로 적절하게 분류된 영상을 생성하는 것이다. 그러므로, 본 발명은 먼저 생성자를 적절하게 가이드할 수 있도록 진짜 데이터로만 트레이닝되는 최고의 구분자(classifier) Dclsf가 필요하다. 따라서, 본 발명은 구분자 Dclsf를 트레이닝시키기 위해 손실 를 최소화하며, 그리고 나서 생성자가 정확하게 분류된 샘플을 생성하도록 트레이닝되기 위하여, Dclsf를 고정하면서 생성자 G를 트레이닝함으로써, 를 최소화한다.
[수학식 8]
반면, 생성자 G는 Dclsf에 의해 적절하게 분류된 가짜 샘플을 생성하도록 트레이닝되어야 한다. 따라서, 생성자 G에 대하여 아래 <수학식 9>와 같이 나타낸 손실을 최소화해야 한다.
[수학식 9]
구조 유사도 지수 손실: 구조 유사도 지수(SSIM; Structural Similarity Index)는 영상 품질을 측정하는 최첨단 지표 중 하나이다. 영상 복원 태스크에 널리 사용되는 l2손실은 결과에서 블러링 아티팩트(blurring artifacts)의 원인이 되는 것으로 종래 기술에서 보고된 바 있다. SSIM은 지각적 측정기준(perceptual metrics) 중 하나이며 차별화가 가능하므로, 역전파(backpropagate)될 수 있다. 픽셀 p에 대한 SSIM은 아래 <수학식 10>과 같이 나타낼 수 있다.
[수학식 10]
여기서, μX는 평균 X를 의미하고, σ2 X는 X의 분산을 의미하며, σXX*는 X와 X*의 공분산을 의미하고, C 1과 C 2는 분할을 안정화시키기 위한 변수들로, C 1 = (k 1 L)2 과 C 2 = (k 2 L)2를 의미하며, L은 픽셀 강도의 동적 범위를 의미하고, k1과 k2는 0.01과 0.03일 수 있다.
SSIM은 0과 1 사이에 정의되므로 SSIM에 대한 손실 함수는 아래 <수학식 11>과 같이 나타낼 수 있다.
[수학식 11]
여기서, P는 픽셀 위치 셋을 의미하고, |P|는 P의 카디널리티(cardinality)를 의미할 수 있다.
SSIM 손실은 아래 <수학식 12>와 같이 추가적인 다중 사이클 일관성 손실(multiple cycle consistency loss)로서 적용될 수 있다.
[수학식 12]
마스크 벡터(Mask Vector)
단일 생성자를 사용하기 위하여, 생성자를 가이드할 마스크 벡터 형태로 타겟 라벨(label)을 추가해야 한다. 마스크 벡터는 입력 영상과 동일한 차원을 가진 이진 매트릭스로, 입력 영상과 쉽게 연결된다. 마스크 벡터는 채널 차원을 따라 원 핫 벡터(one-hot vector)로 타겟 도메인을 나타낼 수 있는 N 클래스의 채널 차원을 가지고 있다. 이는 오리지널 StarGAN에서 도입된 마스크 벡터의 단순화된 버전일 수 있다. 즉, 마스크 벡터는 뉴럴 네트워크로 입력되는 다중 도메인의 입력 영상 데이터를 이용하여 복원 또는 대체할 결측 영상 데이터에 대한 타겟 도메인 정보일 수 있다.
데이터 셋
MR 대조도(contrast) 합성(synthesis): 총 280 축 방향 뇌 영상이 10명의 피실험자로부터 멀티-다이나믹 멀티-에코(multi-dynamic multi-echo) 시퀀스와 추가적인 T2 FLAIR의 시퀀스에 의해 스캔될 수 있다. 데이터 셋에는 4가지의 MR 대조도(contrast) 영상 타입 예를 들어, T1-FLAIR(T1F), T2-weighted(T2w), T2-FLAIR(T2F), 그리고 T2-FLAIR*(T2F*)를 포함할 수 있다. 이 때, T1-FLAIR(T1F), T2-weighted(T2w) 및 T2-FLAIR(T2F)의 3가지의 MR 대조도 영상 타입은 MAGnetic Venocation image Compilation에서 획득될 수 있으며, T2-FLAIR*의 MR 대조도 영상 타입은 세 번째 대조도(contrast) 영상 타입(T2F) 의 다른 MR 스캔 파라미터를 가진 추가 스캔에 의해 획득될 수 있다. MR 획득 파라미터의 세부 사항은 보충 데이터에서 확인할 수 있다.
CMU Multi-PIE: 조명(illumination) 변환 태스크를 위해 카네기 멜론 대학교 Multi-Pose Illumination과 Expression Face Database의 서브셋을 사용할 수 있다. 데이터셋은 250명의 참가자의 평소(중립적) 표정의 정면 방향으로 -90도(오른쪽), -45도, 0도(정면), 45도와 90도(왼쪽)의 다섯 가지 조명 조건으로 선정될 수 있다. 영상은 얼굴이 정중앙에 위치하는 일정 픽셀 크기의 화면으로 잘라낼 수 있다.
RaFD(Radboud Faces Database): RaFD에는 67명의 참가자들로부터 수집된 8개의 다른 얼굴 표정들 예를 들어, 중립, 분노, 경멸, 혐오, 공포, 행복, 슬픔, 그리고 놀라움이 포함될 수 있다.. 또한, 세 가지 다른 시선 방향이 있으며, 따라서 총 1,608개의 영상들이 트레이닝, 유효성 검사 및 테스트 셋에 대한 피실험자에 의해 나누어 질 수 있다.
네트워크 구현
본 발명은 도 2에 도시된 바와 같이 생성자 G와 구별자 D의 2개의 네트워크를 포함한다. 각 태스크에 대해 최고의 성능을 얻기 위해, 본 발명은 각 태스크의 속성에 맞게 생성자와 구별자를 재설계할 수 있다.
생성자는 U-net 구조에 기초하며, 인코더 부분과 디코더 부분으로 구성되고, 인코더와 디코더 사이의 각 파트는 컨트랙팅 경로(contracting path)로 연결된다. 생성자는 Net 구조를 따르며, 정규화(normalization) 연산을 수행하는 배치 노말라이제이션(batch normalization) 레이어와 비선형 함수(nonlinear function) 연산을 수행하는 ReLU(rectified linear unit) 레이어 대신 인스턴스 노말라이제이션(instance normalization) 레이어(D. Ulyanov, A. Vedaldi, and V. Lempitsky. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016.)와 리키-ReLU 레이어(K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision, pages 1026-1034, 2015.)가 각각 사용될 수 있다.
MR 대조도 변환: T1 웨이트 대조도(contrast), T2 웨이트 대조도(contrast) 등 다양한 MR 대조도(contrast)가 존재한다. 구체적인 MR 대조도(contrast) 스캔은 반복시간(TR; repetition time), 에코시간(TE; echo time) 등과 같은 MRI 스캔 파라미터에 의해 결정된다. MR 대조도(contrast) 영상의 픽셀 강도는 T1, T2, 양성자 밀도 등과 같이 조직의 MR 파라미터라 불리는 조직의 물리적 특성에 의해 결정된다. MR 파라미터는 복셀 방향(voxel-wise) 속성을 가진다. 이는 컨볼루션 뉴럴 네트워크의 경우, 픽셀단위 처리가 주변(neighborhood) 또는 큰 시야(FOV; Field of View)로부터 정보를 처리하는 것만큼이나 중요하다는 것을 의미한다. 따라서 단일 컨볼루션을 사용하는 대신, 생성자는 다중 스케일 특성 정보를 다룰 수 있는 1 × 1, 3 × 3 필터를 가진 두 개의 컨볼루션 분기(convolution branch)를 이용할 수 있다. 두 컨볼루션 분기는 인셉션 네트워크(inception network)와 유사하게 연결되어 있다
조명 번환: 조명 변환 태스크를 위해, 배치 노말라이제이션(batch normalization) 레이어 대신에 인스턴스 노말라이제이션(instance normalization) 레이어가 있는 오리지널의 U-Net 구조를 이용할 수 있다.
얼굴 표정 번환: 얼굴 표정 번환 태스크를 위해 다양한 표정을 가진 복수의 얼굴 영상이 입력된다. 얼굴 표정들 사이에 피실험자의 머리 움직임이 존재하기 때문에 영상이 픽셀 방향에 따라 엄격하게 정렬되지는 않는다. 얼굴 표정 영상 간 태스크에 오리지널 U-net을 사용하면, 네트워크 초기 단계에서 여러 얼굴 표정의 정보가 뒤섞여 있기 때문에 생성자의 성능이 떨어진다. 참고로 말하면 얼굴 표정의 특징은 대형 FOV에서 특징을 계산하거나 이미 풀링 레이어(pulling layer)로 다운샘플링하는 생성자의 중간 단계에서 혼합해야 한다. 따라서, 생성자는 8개의 얼굴 표정마다 8개의 인코더 분기로 재설계되어 생성자 중간 단계에서 인코딩 프로세스 후에 연결될 수 있다. 디코더의 구조는 잔여 블록(residual block)을 사용하여 더 많은 컨볼루션 레이어(convolutional layer)를 추가하는 것을 제외하고 U-net의 디코더 부분과 유사하다.
구별자는 일반적으로 일련의 컨볼루션 레이어(convolution layer)와 Leaky-ReLU 레이어로 구성될 수 있다. 도 2에 도시된 바와 같이, 구별자는 두 개의 출력 헤더를 가지고 있는데, 하나는 진짜 또는 가짜의 분류 헤더이고 다른 하나는 도메인에 대한 분류 헤더일 수 있다. 구별자는 PatchGAN를 활용하여 로컬 영상 패치가 진짜인지 가짜인지 분류할 수 있다. 드롭아웃(dropout)은 구별자의 오버피팅을 방지하기 위해 매우 효과적이다. 예외적으로, MR 대조도(contrast) 변환의 구별자는 다중 스케일 프로세싱(multi-scale-processing)를 위한 분기를 가지고 있다.
물론, 본 발명에서의 뉴럴 네트워크는 상술한 뉴럴 네트워크로 한정하지 않으며, 본 발명을 적용할 수 있는 모든 종류의 네트워크를 포함할 수 있다. 예를 들어, 본 발명의 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 예를 들어, U-Net 등과 같은 다양한 종류의 뉴럴 네트워크를 포함할 수 있으며, 다중 해상도 뉴럴 네트워크는 풀링 레이어에서 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.
네트워크 트레이닝(Network training)
모든 모델은 0.00001의 학습 레이트, β1 = 0.9, β2 = 0.999를 가진 Adam 을 사용하여 최적화될 수 있다. 상술한 바와 같이, 구분자의 성능은 진짜 라벨에만 연결되어야 하며, 이는 진짜 데이터를 사용해서만 트레이닝을 받아야 함을 의미한다. 따라서, 본 발명은 먼저 10에포크(epoch) 동안 해당하는 라벨로 진짜 영상에 대한 구분자(classifier)를 트레이닝시키고, 그 후 생성자와 구별자를 트레이닝시킨다. MR 대조도(contrast) 변환 태스크, 조명 변환과 얼굴 표정 변환 태스크는 NVIDIA GTX 1080 GPU를 사용하여 각각 약 6시간, 12시간, 1일이 소요될 수 있다. 조명 변환 태스크에는 RGB 색상 코드 대신 YCbCr 색상 코드가 사용될 수 있으며, YCbCr 코딩은 Y-휘도와 CbCr-색상으로 구성될 수 있다. 5개의 다른 조명 영상들이 있으며, 3개의 다른 조명 영상들은 CbCr 코딩을 거의 공유하고 있으며 유일한 차이점은 Y-휘도 채널이다. 따라서, 조명 변환 태스크를 위해 Y-휘도 채널만 프로세싱되고, 재구성된 영상은 RGB 코딩된 영상에 적용될 수 있다. 본 발명은 얼굴 표정 변환 태스크에 RGB 채널을 사용하고, MR 대조도(contrast) 데이터 셋은 단일 채널 영상으로 구성될 수 있다.
본 발명의 실시예에 따른 방법은 구별자 네트워크와 생성자 네트워크를 다중 사이클 일관성 손실을 이용하여 트레이닝하고, 이러한 트레이닝 과정을 통해 생성자 네트워크의 학습 모델이 생성되면 생성된 생성자 네트워크 예를 들어, CollaGAN을 이용하여 결측 영상 데이터를 대체 또는 복원할 수 있다. 즉, 본 발명의 실시예에 따른 방법은 다중 사이클 일관성 손실을 이용한 트레이닝 과정을 통해 생성된 학습 모델의 뉴럴 네트워크에서 다중 도메인의 입력 영상 데이터와 타겟 도메인에 대한 정보 예를 들어, 마스크 벡터를 입력으로 수신하고, 뉴럴 네트워크의 학습 모델을 이용하여 타겟 도메인에 대한 결측 영상 데이터를 복원할 수 있다. 이러한 본 발명의 방법에 대해 도 3을 참조하여 설명하면 다음과 같다.
도 3은 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법에 대한 동작 흐름도를 나타낸 것으로, 상술한 모든 내용을 포함할 수 있다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 방법은 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신한다(S310).
여기서, 단계 S310은 MR 대조도 영상의 결측 영상 데이터를 대체하기 위한 뉴럴 네트워크가 네 개의 도메인들 중 두 개의 입력 영상 데이터를 이용하여 나머지 두 개의 타겟 도메인들 중 적어도 하나에 대한 결측 영상 데이터를 복원하도록 트레이닝된 경우 두 개의 도메인들에 대한 입력 영상 데이터를 수신할 수 있으며, MR 대조도 영상의 결측 영상 데이터를 대체하기 위한 뉴럴 네트워크가 네 개의 도메인들 중 세 개의 입력 영상 데이터를 이용하여 나머지 한 개의 타겟 도메인에 대한 결측 영상 데이터를 복원하도록 트레이닝된 경우 세 개의 도메인들에 대한 입력 영상 데이터를 수신할 수 있다. 물론, 단계 S310은 조명 영상이나 얼굴 표정 영상에 대한 결측 영상 데이터를 복원하고자 하는 경우에도 해당 입력 영상에 대한 트레이닝 과정을 통해 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신할 수 있으며, 트레이닝 과정을 통해 미리 학습된 뉴럴 네트워크의 입력에 대한 것은 본 발명의 기술을 제공하는 사업자 또는 개인에 의해 결정될 수 있다.
나아가, 단계 S310은 두 개 이상의 도메인들에 대한 입력 영상 데이터 뿐만 아니라 복원하고자 하는 타겟 도메인에 대한 정보 예를 들어, 마스크 벡터를 함께 수신할 수도 있다.
단계 S310에 의해 적어도 두 개 이상 도메인들에 대한 입력 영상 데이터가 수신되면 수신된 두 개 이상 도메인들에 대한 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원한다(S320).
여기서, 단계 S320의 뉴럴 네트워크는 타겟 도메인에 대한 정보를 입력으로 수신하고, 수신된 타겟 도메인에 대한 결측 영상 데이터를 입력된 두 개 이상의 도메인들에 대한 입력 영상 데이터와 뉴럴 네트워크의 학습 모델에 기초하여 복원할 수 있으며, 뉴럴 네트워크는 상술한 바와 같이, 다중 사이클 일관성 손실을 이용하여 트레이닝됨으로써, 학습 모델이 생성될 수 있다.
단계 S320에서의 뉴럴 네트워크는 도 2에서 트레이닝된 생성자 네트워크일 수 있으며, 이러한 뉴럴 네트워크는 상술한 바와 같이, 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 예를 들어, U-Net 등과 같은 다양한 종류의 뉴럴 네트워크를 포함할 수 있으며, 다중 해상도 뉴럴 네트워크는 풀링 레이어에서 언풀링 레이어로의 바이패스 연결을 포함할 수 있고, 본 발명을 적용할 수 있는 모든 종류의 뉴럴 네트워크를 포함할 수 있다.
예를 들어, 본 발명은 A, B, C, D 4개의 도메인을 전체 영상 데이터 셋으로 정의하고, D라는 데이터가 결측되었을 때 A, B, C 도메인의 데이터를 뉴럴 네트워크 예컨대, 생성자 네트워크의 입력으로 사용하여 D 영상을 복원한다. 복원된 영상 D(fake image)의 경우 구별자 네트워크가 판별하기에 실제 영상(real image)으로 판별되는 것을 목표로 생성자 네트워크를 학습하며, 구별자 네트워크는 가짜 영상과 진짜 영상을 구별하는 방향으로 트레이닝하고, 생성자 네트워크는 해당 구별자 네트워크를 속이는 방향으로 트레이닝을 진행한다. 최종적으로 트레이닝된 생성자 네트워크는 아주 현실적이고 실제와 같은 영상을 제공하도록 학습됨으로써, 다중 도메인 입력 영상 데이터를 입력으로 하여 원하는 타겟 도메인의 결측 영상 데이터를 복원할 수 있다.
이와 같이, 본 발명의 실시예에 따른 방법은 전체 도메인에 대해 전체 영상 데이터 셋을 정의하고, 존재하는 다중 도메인의 영상 데이터들을 뉴럴 네트워크의의 입력으로 사용하여 원하는 타겟 도메인의 영상 데이터를 대체 또는 복원할 수 있다.
이러한 본 발명의 실시예에 따른 방법은 데이터의 결측 문제를 해결하기 위해서 뉴럴 네트워크를 사용하며, 다대일 영상변환을 목적으로 영상의 입력을 다중으로 받는 것이 가능하고, 이 과정에서 안정적인 트레이닝을 위해 다중 사이클 일관성 손실을 이용한다.
본 발명의 실시예에 따른 방법을 이용하여 결측 영상 데이터를 복원하게 되면 단일 입력 영상을 사용하여 복원하는 다른 알고리즘과 비교하여 훨씬 우수한 성능으로 복원이 가능하다. 예를 들어, 도 4에 도시된 바와 같이, MR 대조도 영상 데이터 셋에서 1장의 입력만 사용하는 CycleGAN과 StarGAN의 성능이 떨어지는 것을 확인할 수 있으며, 본 발명의 실시예에 따른 방법(proposed)은 성능이 우수한 것을 확인할 수 있다.
도 5는 본 발명의 일 실시예에 따른 결측 영상 데이터 대체 장치에 대한 구성을 나타낸 것으로, 도 1 내지 도 4의 방법을 수행하는 장치에 대한 개념적인 구성을 나타낸 것이다.
도 5를 참조하면, 본 발명의 실시예에 따른 장치(500)는 수신부(510) 및 대체부(520)를 포함한다.
수신부(510)는 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신한다.
여기서, 수신부(510)는 MR 대조도 영상의 결측 영상 데이터를 대체하기 위한 뉴럴 네트워크가 네 개의 도메인들 중 두 개의 입력 영상 데이터를 이용하여 나머지 두 개의 타겟 도메인들 중 적어도 하나에 대한 결측 영상 데이터를 복원하도록 트레이닝된 경우 두 개의 도메인들에 대한 입력 영상 데이터를 수신할 수 있으며, MR 대조도 영상의 결측 영상 데이터를 대체하기 위한 뉴럴 네트워크가 네 개의 도메인들 중 세 개의 입력 영상 데이터를 이용하여 나머지 한 개의 타겟 도메인에 대한 결측 영상 데이터를 복원하도록 트레이닝된 경우 세 개의 도메인들에 대한 입력 영상 데이터를 수신할 수 있다.
나아가, 수신부(510)는 두 개 이상의 도메인들에 대한 입력 영상 데이터 뿐만 아니라 복원하고자 하는 타겟 도메인에 대한 정보 예를 들어, 마스크 벡터를 함께 수신할 수도 있다.
대체부(520)는 적어도 두 개 이상 도메인들에 대한 입력 영상 데이터가 수신되면 수신된 두 개 이상 도메인들에 대한 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원한다.
여기서, 대체부(520)는 타겟 도메인에 대한 정보를 입력으로 수신하고, 수신된 타겟 도메인에 대한 결측 영상 데이터를 입력된 두 개 이상의 도메인들에 대한 입력 영상 데이터와 뉴럴 네트워크의 학습 모델에 기초하여 복원할 수 있다.
이 때, 뉴럴 네트워크는 상술한 바와 같이, 다중 사이클 일관성 손실을 이용하여 트레이닝됨으로써, 학습 모델이 생성될 수 있으며, 뉴럴 네트워크는 생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크, 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크를 포함할 수 있고, 다중 해상도 뉴럴 네트워크는 풀링 레이어에서 언풀링 레이어로의 바이패스 연결을 포함할 수 있다.
비록, 도 5 장치에서 그 설명이 생략되었더라도, 도 5의 장치는 상기 도 1 내지 도 4에서 설명한 내용을 모두 포함할 수 있으며, 이러한 사항은 본 발명의 기술 분야에 종사하는 당업자에게 있어서 자명하다.
이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 시스템, 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (13)
- 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 단계; 및
상기 두 개 이상의 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계
를 포함하는 결측 영상 데이터 대체 방법.
- 제1항에 있어서,
상기 뉴럴 네트워크는
상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝되는 것을 특징으로 하는 결측 영상 데이터 대체 방법.
- 제1항에 있어서,
상기 수신하는 단계는
상기 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 함께 수신하는 것을 특징으로 하는 결측 영상 데이터 대체 방법.
- 제1항에 있어서,
상기 뉴럴 네트워크는
생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 중 적어도 하나를 포함하는 것을 특징으로 하는 결측 영상 데이터 대체 방법.
- 제4항에 있어서,
상기 뉴럴 네트워크는
상기 풀링 레이어에서 상기 언풀링 레이어로의 바이패스 연결을 포함하는 것을 특징으로 하는 결측 영상 데이터 대체 방법.
- 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터와 타겟 도메인에 대한 정보를 수신하는 단계; 및
상기 두 개 이상의 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 입력으로 하는 뉴럴 네트워크를 이용하여 상기 타겟 도메인의 결측 영상 데이터를 복원하는 단계
를 포함하는 결측 영상 데이터 대체 방법.
- 제6항에 있어서,
상기 뉴럴 네트워크는
상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝되는 것을 특징으로 하는 결측 영상 데이터 대체 방법.
- 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 수신부; 및
상기 두 개 이상의 입력 영상 데이터를 입력으로 하는 뉴럴 네트워크를 이용하여 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 대체부
를 포함하는 결측 영상 데이터 대체 장치.
- 제8항에 있어서,
상기 뉴럴 네트워크는
상기 다중 도메인들 중 적어도 두 개 이상의 진짜 영상 데이터를 입력으로 하여 생성된 제1 타겟 도메인의 가짜 영상 데이터와 상기 진짜 영상 데이터를 조합하고, 상기 조합된 영상 데이터를 입력으로 하여 복원된 영상과 상기 진짜 영상 데이터가 유사해야 하는 다중 사이클 일관성 손실을 이용하여 트레이닝되는 것을 특징으로 하는 결측 영상 데이터 대체 장치.
- 제8항에 있어서,
상기 수신부는
상기 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터와 상기 타겟 도메인에 대한 정보를 함께 수신하는 것을 특징으로 하는 결측 영상 데이터 대체 장치.
- 제8항에 있어서,
상기 뉴럴 네트워크는
생성적 적대 네트워크(GAN; Generative Adversarial Networks), 컨볼루션 뉴럴 네트워크, 컨볼루션 프레임렛(convolution framelet) 기반의 뉴럴 네트워크 및 풀링(pooling) 레이어와 언풀링(unpooling) 레이어를 포함하는 다중 해상도 뉴럴 네트워크 중 적어도 하나를 포함하는 것을 특징으로 하는 결측 영상 데이터 대체 장치.
- 제11항에 있어서,
상기 뉴럴 네트워크는
상기 풀링 레이어에서 상기 언풀링 레이어로의 바이패스 연결을 포함하는 것을 특징으로 하는 결측 영상 데이터 대체 장치.
- 미리 설정된 다중 도메인들 중 적어도 두 개 이상의 도메인들에 대한 입력 영상 데이터를 수신하는 단계; 및
미리 정의된 다중 사이클 일관성 손실에 의해 학습된 뉴럴 네트워크를 이용하여 상기 두 개 이상의 입력 영상 데이터에 대응하는 미리 설정된 타겟 도메인의 결측 영상 데이터를 복원하는 단계
를 포함하는 결측 영상 데이터 대체 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/706,224 US11748851B2 (en) | 2019-03-25 | 2019-12-06 | Method of replacing missing image data by using neural network and apparatus thereof |
PCT/KR2020/003995 WO2020197239A1 (ko) | 2019-03-25 | 2020-03-24 | 뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190033826 | 2019-03-25 | ||
KR20190033826 | 2019-03-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200115001A true KR20200115001A (ko) | 2020-10-07 |
KR102359474B1 KR102359474B1 (ko) | 2022-02-08 |
Family
ID=72883608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190125886A KR102359474B1 (ko) | 2019-03-25 | 2019-10-11 | 뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102359474B1 (ko) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861977A (zh) * | 2021-02-19 | 2021-05-28 | 中国人民武装警察部队工程大学 | 迁移学习数据处理方法、系统、介质、设备、终端及应用 |
KR20210082901A (ko) * | 2019-12-26 | 2021-07-06 | 고려대학교 산학협력단 | 두 단계 U-Net 구조 기반의 어긋난 데이터를 이용한 raw에서 RGB로의 매핑 방법, 이를 수행하기 위한 기록 매체 및 장치 |
CN113392149A (zh) * | 2021-06-15 | 2021-09-14 | 浙江大学 | 一种基于多源异构数据融合的贷款逾期预测方法 |
KR20220135349A (ko) * | 2021-03-30 | 2022-10-07 | 한국과학기술원 | 영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치 |
KR20230000117A (ko) * | 2021-06-24 | 2023-01-02 | 주식회사 틸더 | 결측 심전도 신호 재생성 장치 및 방법 |
KR20230001483A (ko) * | 2021-06-28 | 2023-01-04 | 한국과학기술원 | 가역적 뉴럴 네트워크를 이용한 효율적 비지도 학습 기반 저 선량 엑스선 전산단층 촬영 영상 처리 방법 및 장치 |
KR20230027951A (ko) | 2021-08-20 | 2023-02-28 | 선문대학교 산학협력단 | 적대적 생성 신경망을 이용한 영상처리 시스템 및 이를 이용한 이미지간 변환방법 |
US12003719B2 (en) | 2020-11-26 | 2024-06-04 | Electronics And Telecommunications Research Institute | Method, apparatus and storage medium for image encoding/decoding using segmentation map |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180247201A1 (en) * | 2017-02-28 | 2018-08-30 | Nvidia Corporation | Systems and methods for image-to-image translation using variational autoencoders |
KR20190024636A (ko) * | 2017-08-30 | 2019-03-08 | 한국과학기술원 | 확장된 뉴럴 네트워크를 이용한 영상 복원 방법 및 장치 |
-
2019
- 2019-10-11 KR KR1020190125886A patent/KR102359474B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180247201A1 (en) * | 2017-02-28 | 2018-08-30 | Nvidia Corporation | Systems and methods for image-to-image translation using variational autoencoders |
KR20190024636A (ko) * | 2017-08-30 | 2019-03-08 | 한국과학기술원 | 확장된 뉴럴 네트워크를 이용한 영상 복원 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
Choi, Yunjey, et al. StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation. arXiv:1711.09020v3. arXiv. 2018.9.21.* * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210082901A (ko) * | 2019-12-26 | 2021-07-06 | 고려대학교 산학협력단 | 두 단계 U-Net 구조 기반의 어긋난 데이터를 이용한 raw에서 RGB로의 매핑 방법, 이를 수행하기 위한 기록 매체 및 장치 |
US12003719B2 (en) | 2020-11-26 | 2024-06-04 | Electronics And Telecommunications Research Institute | Method, apparatus and storage medium for image encoding/decoding using segmentation map |
CN112861977A (zh) * | 2021-02-19 | 2021-05-28 | 中国人民武装警察部队工程大学 | 迁移学习数据处理方法、系统、介质、设备、终端及应用 |
CN112861977B (zh) * | 2021-02-19 | 2024-01-26 | 中国人民武装警察部队工程大学 | 迁移学习数据处理方法、系统、介质、设备、终端及应用 |
KR20220135349A (ko) * | 2021-03-30 | 2022-10-07 | 한국과학기술원 | 영상 표준화를 위한 비지도 학습 기반 단일 뉴럴 네트워크를 이용한 단층촬영영상 처리 방법 및 그 장치 |
CN113392149A (zh) * | 2021-06-15 | 2021-09-14 | 浙江大学 | 一种基于多源异构数据融合的贷款逾期预测方法 |
CN113392149B (zh) * | 2021-06-15 | 2022-09-13 | 浙江大学 | 一种基于多源异构数据融合的贷款逾期预测方法 |
KR20230000117A (ko) * | 2021-06-24 | 2023-01-02 | 주식회사 틸더 | 결측 심전도 신호 재생성 장치 및 방법 |
KR20230001483A (ko) * | 2021-06-28 | 2023-01-04 | 한국과학기술원 | 가역적 뉴럴 네트워크를 이용한 효율적 비지도 학습 기반 저 선량 엑스선 전산단층 촬영 영상 처리 방법 및 장치 |
KR20230027951A (ko) | 2021-08-20 | 2023-02-28 | 선문대학교 산학협력단 | 적대적 생성 신경망을 이용한 영상처리 시스템 및 이를 이용한 이미지간 변환방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102359474B1 (ko) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11748851B2 (en) | Method of replacing missing image data by using neural network and apparatus thereof | |
KR102359474B1 (ko) | 뉴럴 네트워크를 이용한 결측 영상 데이터 대체 방법 및 그 장치 | |
Lee et al. | CollaGAN: Collaborative GAN for missing image data imputation | |
Zhao et al. | Channel splitting network for single MR image super-resolution | |
Liu et al. | Learning disentangled representations in the imaging domain | |
VanRullen et al. | Reconstructing faces from fMRI patterns using deep generative neural networks | |
Johnson et al. | Conditional generative adversarial network for 3D rigid‐body motion correction in MRI | |
Zhang et al. | PTNet3D: A 3D high-resolution longitudinal infant brain MRI synthesizer based on transformers | |
Kwak et al. | Fractal residual network and solutions for real super-resolution | |
Yu et al. | MouseGAN++: unsupervised disentanglement and contrastive representation for multiple MRI modalities synthesis and structural segmentation of mouse brain | |
Muhammad et al. | Multi-scale Xception based depthwise separable convolution for single image super-resolution | |
Liu et al. | vmfnet: Compositionality meets domain-generalised segmentation | |
Yang et al. | Learning unified hyper-network for multi-modal MR image synthesis and tumor segmentation with missing modalities | |
Shangguan et al. | Learning cross-video neural representations for high-quality frame interpolation | |
Hu et al. | Domain-adaptive 3d medical image synthesis: An efficient unsupervised approach | |
Liu et al. | Medical image segmentation using deep learning | |
Xu et al. | Handsoff: Labeled dataset generation with no additional human annotations | |
Junayed et al. | Consistent video inpainting using axial attention-based style transformer | |
Lin et al. | PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement | |
Gupta et al. | A robust and efficient image de-fencing approach using conditional generative adversarial networks | |
Tian et al. | Retinal fundus image superresolution generated by optical coherence tomography based on a realistic mixed attention GAN | |
Subramanyam et al. | Improved stylegan-v2 based inversion for out-of-distribution images | |
Wang et al. | A Lightweight Recurrent Aggregation Network for Satellite Video Super-Resolution | |
Jia et al. | Learning rich information for quad bayer remosaicing and denoising | |
CN110866888A (zh) | 基于潜在信息表征gan的多模态mri合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |